Research Mai 2026 Lesezeit ~22 Min

Das ABC Task Model –
was Menschen, Maschinen und Hybride wirklich tun.

Eine empirisch fundierte Taxonomie für die Frage, welche Aufgaben sich automatisieren lassen – und welche nicht. Auf Basis von 4 Mio. AI-Konversationen, dem Anthropic Economic Index und einem Branchen-Mix, der zeigt, warum dieselbe Technologie in Software 90 % der Tasks berührt – und in Therapie nur 25 %.

CRAiD Design Research · Carlo · Mai 2026 · Basiert auf Anthropic Economic Index Reports V1–V3, Handa et al. (Anthropic, 2025, arXiv:2503.04761), MIT Sloan, NIST AI 200-1, WEF Future of Jobs 2025, Goldman Sachs, Stonebranch, Cisco Workplace Index, Sana Labs, Eightfold und 11 weiteren Quellen.

Modell ansehen Self-Assessment

01Das Modell 02Datenlage & Methode 03Branchen-Mix 04Vier Wahrheiten

00 Einstieg

Warum „Automatisierungsgrad" die falsche Frage ist.

Im Frühjahr 2026 misst Anthropic, was wirklich auf seiner Plattform passiert. Vier Millionen Konversationen, klassifiziert nach den Tasks der amerikanischen Berufsdatenbank O*NET. Das Ergebnis ist nicht das, was Decks behaupten, und nicht das, was Schlagzeilen suggerieren. Es ist genauer und unbequemer.

57 % der Konversationen sind Augmentation – Menschen iterieren mit dem Modell, lernen, validieren, verfeinern. 43 % sind Automation – Menschen delegieren komplette Aufgaben. Über die Zeit verschiebt sich das Verhältnis: Direktive Automation ist von 27 % auf 39 % gestiegen, in nur acht Monaten. Und gleichzeitig zeigen Real-World-Tests von autonomen Agents, dass weniger als 2,5 % der vorgelegten Aufgaben vollständig erledigt werden.¹

Die These „KI automatisiert Knowledge Work" zerbricht an dieser Datenlage. Sie ist nicht falsch, sie ist zu grob. KI automatisiert manche Aufgaben sehr gut, manche teilweise – und manche gar nicht. Und der Anteil, in dem sie das tut, ist über Branchen hinweg radikal unterschiedlich: 14 % aller AI-Konversationen drehen sich um Software-Entwicklung, aber bei Bauarbeitern, Anästhesisten und Therapeuten taucht die Technologie kaum auf.²

Die richtige Frage ist nicht „wie stark automatisiert ihr?", sondern „welche eurer Aufgaben gehören in welche Klasse – und wer entscheidet das bei euch bewusst?"

Wir nennen die Klassen A, B und C. Sie sind in den Anthropic-Daten messbar, in der akademischen Literatur seit Autor (2003, 2015) etabliert und in der NIST-Taxonomie für Human-AI-Teaming als Standard kodifiziert.³ Was wir hinzufügen: eine pragmatische Übersetzung in Org-, Hire- und Tech-Stack-Entscheidungen, die ihr 2026 treffen müsst.

Dieser Artikel ist in sechs Teilen aufgebaut. Erst das Modell selbst (Abschnitt 01), dann die Datenlage und Methode dahinter (02), dann der Branchen-Mix mit konkreten Zahlen aus dem Anthropic-O*NET-Mapping (03). Abschnitt 04 listet vier unbequeme Wahrheiten, die die Daten erzwingen. Abschnitt 05 übersetzt das in Konsequenzen für Organisationsstruktur, Hiring und Technologie-Stack. Abschnitt 06 ist ein Selbst-Test in fünf Fragen.

¹ Anthropic Economic Index Report V3 (März 2026), Handa et al. (2025) und Industry-Reports zu Agent-Performance. Vollständige Quellenliste am Ende.
² Handa et al. (2025), Figure 11/12, basierend auf 4 Mio. Claude.ai-Konversationen.
³ Autor, D. (2015) „Why Are There Still So Many Jobs?". NIST AI 200-1 „Taxonomy for Human-AI Teaming" (2025).

01 Das Modell

Drei Klassen.
Drei sehr unterschiedliche Spielfelder.

Die Klassifikation ist nicht graduell. Wer A, B und C als Spektrum behandelt, baut das falsche Tooling und die falschen Rollen. Jede Klasse verlangt ein eigenes Workflow-, Trust- und Skill-Setup. Hier die Definitionen, mit denen wir arbeiten.

Klasse A A

0% Automatisierung

Judgment, Verantwortung, Empathie. Mensch entscheidet, KI bleibt out of the loop. Diese Aufgaben tragen Konsequenzen – rechtlich, ethisch, menschlich – die niemand außer einem Menschen verantworten darf. Auch wenn die Ausführung technisch möglich wäre, ist die Delegation selbst der Fehler.

Beispiele: Kündigungsgespräch · finale Designentscheidung · Hire-Yes/No · ärztliche Risiko-Aufklärung · Krisenkommunikation extern · ethische Abwägung in Compliance · finale Pricing-Hoheit · Mandatsannahme im Rechtswesen

Klasse B B

60–80% Automatisierung

Hybrid. Co-Pilot-Zone. KI macht den Vorschlag, Mensch validiert, korrigiert, signiert ab. In Anthropic-Begrifflichkeit: „Task Iteration", „Validation", „Learning". Hier liegt die Mehrheit der heutigen produktiven AI-Nutzung – und genau hier werden 2026 Organisationen gewonnen oder verloren.

Beispiele: Code-Review-Vorschläge · Research-Synthese · Brief- und Pitch-Entwürfe · Customer-Reply-Drafts · Pricing-Empfehlungen · Marketing-Strategie-Drafts · UI-Mock-Refinement · SQL-Validation · technische Dokumentation

Klasse C C

90–100% Automatisierung

Vollautomat. Mensch nur in Edge-Cases oder als Auditor. In Anthropic-Begrifflichkeit: „Directive". Wachsend (27 % → 39 % in 8 Monaten), aber selten so „rein" wie der Hype suggeriert. Echte C-Tasks brauchen klare Inputs, klare Outputs, klare Schadensbegrenzung – und sind teurer zu bauen, als der Pitch verspricht.

Beispiele: Routine-Klassifikation · Datenextraktion aus Standardformularen · Tier-1-FAQs · Markdown-/Format-Konvertierung · Standard-Übersetzungen · Report-Generierung aus strukturierten Quellen · einfache Code-Snippets

Was die Klassen nicht sind

Drei häufige Missverständnisse, bevor wir in die Daten gehen:

ABC ist keine Bewertung. A ist nicht „besser" als C, und C ist nicht „die Zukunft". Eine gesunde Organisation hat Aufgaben in allen drei Klassen – und weiß, welche.
ABC ist nicht statisch. Aufgaben verschieben sich zwischen Klassen, oft schneller als Org-Charts. Was 2024 B war, kann 2026 C sein – oder umgekehrt eine A-Frage werden, weil ein Regulator hingeguckt hat.
ABC bezieht sich auf Tasks, nicht auf Jobs. Ein Marketing-Manager hat A-, B- und C-Tasks gleichzeitig. Wer ganze Rollen klassifizieren will, übersieht den Punkt.

02 Datenlage & Methode

Was empirisch da ist –
und was die Zahlen nicht sagen.

Vier Zahlen, die die ABC-Verteilung tragen. Jede stammt aus 2025 oder 2026, jede ist mit mindestens einer zweiten Quelle gegengeprüft, und für jede sagen wir auch, was sie nicht beweist.

Augmentation

57%

aller analysierten Claude-Konversationen sind iterativ – Mensch und KI denken zusammen. In der Anthropic-Taxonomie: Task Iteration, Learning, Validation. Das ist die B-Klasse, gemessen im Feld.Handa et al., 4 Mio. Konversationen, 2024–2025

Automation

43%

der Konversationen sind one-off-Delegation („Directive" + „Feedback Loop"). Das ist C – wachsend, aber kein Mehrheitsmuster. Im API-Geschäftsverkehr deutlich höher (~77 %).Handa et al., 2025; AEI Report V3

Kein ROI

95%

der Organisationen sehen keinen messbaren Return aus AI-Initiativen. Nicht weil die Modelle schwach sind. Weil A, B und C nicht getrennt werden – und der Workflow drumherum nicht redesignt wird.MIT Media Lab, 2025

Autonomie

<2,5%

der Tasks lösen autonome Agents heute vollständig. Der Rest braucht Menschen – als Korrektur, Recovery oder Eskalation. C ist seltener als alle Decks behaupten.Industry-Reports 2025/2026

Wie Anthropic misst – und was das bedeutet

Die wichtigste Quelle dieser Studie ist das Anthropic Economic Index, ein laufender Report-Strang seit 2024. Methode in einem Satz: Anthropic nutzt ein internes, datenschutz-konformes System namens Clio, das Konversationen privatsphäre-erhaltend zusammenfasst und in O*NET-Tasks klassifiziert – die offizielle Berufsdatenbank des US-Arbeitsministeriums. Das macht aus 4 Mio. anonymisierten Chats eine Karte, in der jeder Punkt einer realen Berufsaktivität entspricht.

Drei methodische Punkte sind wichtig zu verstehen, bevor man die Zahlen nutzt:

1. Die 57/43-Verteilung ist eine Mode of Use-Klassifikation, kein Outcome.

„Augmentation" heißt nicht „erfolgreich". Es heißt nur, dass der Mensch im Loop ist. Anthropic warnt selbst: ein Output kann augmentativ sein und trotzdem Müll. Die ABC-Klasse beschreibt die Form der Zusammenarbeit, nicht die Qualität.

2. Die Daten kommen von Claude.ai, nicht von „der Wirtschaft".

Wer Claude nutzt, ist überrepräsentiert technisch, jung, englisch-sprechend, in den USA. Anthropic versucht, das per Gewichtung zu korrigieren, aber: Branchen wie Bau, Pflege, Logistik sind unterrepräsentiert – nicht weil dort keine Aufgaben sind, sondern weil die Tools dort nicht ankommen. Die ABC-Klassen existieren dort trotzdem; sie sind nur empirisch dünner belegt.

3. Direktive Automation steigt schnell – aber wir wissen nicht, ob es Capability oder Vertrauen ist.

Anthropic schreibt im V3-Report wörtlich:

„Whether the growth in directive usage is attributable to improving model capabilities or learning-by-doing could signal very different labor market implications."Anthropic Economic Index Report V3, 2026

Wenn es Capability ist, heißt das: mehr Tasks werden in echter C-Klasse erledigt – Job-Erosion-Risiko steigt. Wenn es Vertrauen ist, heißt das: Menschen lernen besser delegieren – und die Klasse ist immer noch B, sieht aber wie C aus. Die Antwort ist heute noch offen, der Unterschied entscheidet aber, was ihr 2026 anders machen müsst.

Wer mit dem ABC-Modell arbeitet, sollte beide Lesarten parallel halten. Klassifiziert nach Outcome, nicht nach Marketing.

4. Geographie zählt, mehr als erwartet.

Im AEI V3 zeigt Anthropic eine bemerkenswerte Inversion: in frühen, niedrig-adoptierenden Märkten dominiert direktive Automation, in maturen Märkten dominiert Augmentation. Lesart: Wer KI früh nutzt, lässt sie alles tun („mach es einfach"). Wer länger damit lebt, nutzt sie kollaborativer. Das ist eine Hoffnung – und ein Lernpfad. Augmentation ist nicht das Anfangs-, sondern das Reife-Stadium.

Was die Zahlen nicht sagen

Drei Caveats, die wir bei jeder ABC-Diskussion explizit machen, bevor wir Empfehlungen geben:

Sie sagen nichts über Qualität. Eine 95 %-Automation in einem Tier-1-Support kann trotzdem 30 % Eskalationsrate bedeuten – und nettomehr Arbeit erzeugen.
Sie sagen nichts über Risiko. Eine C-Klassifikation für „medizinische Vor-Triage" ist technisch denkbar, regulatorisch aber A. Der Klassifikations-Druck kommt nicht nur aus den Daten, sondern aus Recht und Ethik.
Sie sagen nichts über Akzeptanz. 80 % der US-Worker nutzen unapproved AI im Job (Cisco 2026). Was als C läuft, ist oft Schatten-B – ohne Audit, ohne Governance.

03 Branchen-Mix

Dieselbe Technologie.
Radikal unterschiedliche Verteilungen.

Aus dem Anthropic-O*NET-Mapping (Handa et al. 2025, 4 Mio. Konversationen) lassen sich für ausgewählte Branchen typische ABC-Verteilungen ableiten. Die Zahlen sind als Größenordnungs-Anker zu lesen, nicht als exakte Quoten – sie zeigen aber: dieselbe KI berührt eine Software-Rolle ganz anders als eine Therapie-Rolle.

Branche / Rolle	Heute dominante Klasse	Empirie	Was das heißt
Software-Entwicklung	B → C	~14 % aller Claude-Konversationen sind Code/Debugging. Höchste Penetration aller O*NET-Berufsgruppen. Feedback-Loop dominiert.	Realistisches C in eng abgegrenzten Sub-Tasks (Boilerplate, Test-Generation). Die Architektur-Entscheidung bleibt A.
Technical Writing & Content	B	Direktive Drafts dominieren in Schreib-Tasks; Iteration und Refinement folgen. Zweitgrößter Cluster nach Software.	Voll-Automation funktioniert für Standard-Formate (Release Notes, FAQ). Stimme/Marke bleibt B.
Marketing-Management	B	~50 % der O*NET-Tasks zeigen Claude-Nutzung – aber nur in Research, Strategie-Drafts. Tradeshow-Koordination, Produkt-Spec etc. bleiben menschlich.	Discovery-Teams (CX × Data × Product) gewinnen, klassische Mid-Level-Execution-Rollen verlieren.
Legal & Compliance	A → B	Tasks: Recherche, Klauseln, Standard-Drafts in B. Mandat, finale Risiko-Einschätzung, Strategie bleibt A. Regulator-Druck (AI Act) erzwingt Auditierbarkeit.	Ein C-Versprechen hier ist meistens Marketing. Echtes C bleibt auf Standard-Boilerplate beschränkt.
Customer Experience / Support	C-Druck	Tier 1 mit Standard-Anliegen: realistisches C. Tier 2 / Beschwerde / Eskalation: B. Empathie-Cases: A.	Wer alles als C baut, produziert Eskalationsrate. Wer A bewusst schützt, hält die NPS oben.
Education / Tutoring	B	Foreign Language Teachers haben höchste Task-Coverage (~75 %), aber Lehr- und Bewertungs-Verantwortung bleibt menschlich. Augmentations-Muster dominiert.	Co-Pilot in Vorbereitung, Material, Übung. Bewertung und Beziehung bleiben A.
Therapie / Pflege	A	Physical Therapists ~25 % Task-Coverage – vor allem Research und Patientenedukation. Hands-on-Behandlung quasi 0 %.	A in der Beziehung und Behandlung. B in Doku und Edukation. C nur in administrativen Backoffice-Schritten.
Bau / Anästhesie / körperliche Tätigkeit	A	Minimale Claude-Nutzung empirisch. Nicht weil die KI nicht könnte – weil die Tasks physisch / hochreguliert sind.	B nur in Dokumentation und Planung. Alles Operative bleibt A. C-Versprechen sind hier rein hypothetisch.

Drei Beobachtungen aus der Tabelle

Erstens: Software ist die Ausnahme, nicht die Regel. Wenn Decks behaupten „KI verändert alle Wissensarbeit", basiert das oft implizit auf der Software-Erfahrung. Aber selbst innerhalb der Anthropic-Daten hat keine andere Berufsgruppe annähernd die Penetration. Eine ABC-Strategie für ein Krankenhaus, eine Anwaltskanzlei oder eine Stahlfirma ergibt nicht aus dem Software-Playbook.

Zweitens: A schrumpft langsamer, als alle erwarten. In jedem stark regulierten oder physisch-präsenten Beruf bleibt der A-Anteil hoch. Das ist kein technisches Limit, das ist ein institutionelles Limit. Es verschwindet nicht durch bessere Modelle.

Drittens: B verschiebt sich systematisch nach C – aber nicht linear. In Software fast vollständig, in Content teilweise, in CX nur in Tier 1. Wer das nicht klassen-spezifisch durchdenkt, baut den falschen Stack.

Die ABC-Verteilung eurer Organisation ist eure tatsächliche Wertschöpfungslandkarte – nicht euer Org-Chart, nicht eure Tool-Landschaft.

04 Vier unbequeme Wahrheiten

Was die Daten sagen,
und niemand auf der Bühne sagt.

Diese vier Aussagen sind direkt aus der Empirie ableitbar. Sie sind unbequem, weil sie nicht zur dominierenden Story passen – aber sie sind belegt.

Wahrheit 01 · ROI

Wer den ROI seiner KI-Projekte misst, gehört statistisch zu einer 5-Prozent-Minderheit. Der Rest behauptet Produktivität, ohne sie nachzuweisen. Wenn 95 % keinen messbaren Return sehen, dann ist „we're working on it" keine Strategie, sondern eine Auslassung.

Wahrheit 02 · B-Klasse

Die meisten „AI-Strategien" überspringen B-Tasks. Sie wollen direkt zu C-Vollautomation, weil das ein einfacheres Vorstands-Narrativ ist. Genau das ist der Grund, warum 95 % keinen Return sehen – sie automatisieren Aufgaben, die ihren Workflow gar nicht erst kennen, statt den Workflow neu zu designen, in dem die KI tatsächlich hilft.

Wahrheit 03 · A-Erosion

Wer keine A-Tasks hat, hat keine Verantwortung mehr. Wer keine Verantwortung hat, hat keine Marke – nur noch Prozess. Studien zur Augmentation zeigen einen messbaren Deskilling-Effekt: Judgment-Skills bauen ab, wenn sie nicht aktiv gepflegt werden. A-Tasks sind nicht „die Reste, die KI nicht kann", sondern eine bewusste Designentscheidung.

Wahrheit 04 · Plattform-Lüge

Die meisten „AI-Plattform"-Investments sind A-Klasse-Logik mit C-Klasse-Versprechen. Sie verkaufen Sicherheit (A) und versprechen Vollautomation (C) – aber niemand orchestriert die B-Klasse, in der die Wertschöpfung tatsächlich stattfindet. Die ehrliche Plattform-Strategie braucht drei Loops, nicht einen.

05 Konsequenzen

Was das für euch heißt.
Org. Hires. Tech-Stack.

Die ABC-Verteilung ist eine Designentscheidung. Sie schlägt sich in drei Stellschrauben nieder, die ihr aktiv gestalten könnt – und an denen sich 2026 entscheidet, ob ihr eine produktive AI-Organisation seid oder eine, die laut behauptet, eine zu sein.

01 · Org-Struktur

Drei Klassen, drei Logiken.

A: Senior-Generalisten mit Judgment-Tiefe – explizit von Agent-Loops getrennt. Mit eigenen Decision Logs.
B: Cross-funktionale Discovery-Teams. Hier entstehen die meisten neuen Rollen – Agent Stewards, Quality Auditors, Real-Time Policy Owners. Cisco beobachtet hier den größten Skill-Verschiebungsdruck.
C: Schmale Operator- und Audit-Teams. Mehr Observability als Manpower. Eskalations-Pfade explizit.
Ohne Trennung: A-Skills erodieren leise. Wer das nicht sieht, verliert die Notbremse.

02 · Hires

Asymmetrische Verschiebung.

Teurer: Senior-Generalisten mit hoher A-Kompetenz. Der Markt bildet sie weniger aus, ihr braucht sie mehr. WEF: Verhandlungs- und Empathie-Skills steigen relativ im Preis.
Neu: AI Orchestration Specialists, Agent Stewards, Governance/Policy-Owner, Cross-funktionale Discovery-Profile.
Austauschbarer: Mid-Level-Execution mit B-/C-Überlapp. Hier ist die Halbwertszeit der Skill-Sets am kürzesten.
Hire für die Klasse, nicht für den Titel. Fragt nach Judgment-Cases, nicht nach Tool-Listen.

03 · Tech-Stack

Drei Loops statt ein Mono-Stack.

A: Decision-Support, Logging, Audit Trails – KI bleibt out of the loop, aber dokumentiert die Entscheidung.
B: Co-Pilots mit klaren Trust-Boundaries, Verifikations-Step, Rollback. Beispiel: Cursor-Pattern, Copilot Studio mit Approval Gate, Sana-Workflow.
C: Vollautomat mit Edge-Case-Eskalation und Audit-Pipeline. Beispiel: UiPath / Agentforce mit Observability-Layer, MCP-/A2A-Standards.
Der häufigste Fehler 2024–2026: ein einheitlicher Stack über alle drei Klassen. Teuer, träge, ohne Wirkung.

Was wir in CRAiD-Projekten beobachten

Wenn wir mit Organisationen ihre ABC-Verteilung kartieren, tauchen drei Muster zuverlässig auf:

Muster 1 – Die unsichtbare A-Erosion

Tasks, die früher klar A waren – Mandatsannahme, Hire-Entscheidung, Pricing-Hoheit – werden in B oder C-Tools eingelassen, ohne dass die Konsequenz benannt wird. Niemand entscheidet das aktiv; es passiert über Jahre, durch Tool-Käufe und Workflow-Updates. Erst eine bewusste Klassifikation macht sichtbar, dass die Verantwortung delegiert wurde, ohne je delegiert worden zu sein.

Muster 2 – Die B-Klasse als Müllhalde

„Hybrid" wird zum Sammelbecken für alles, was nicht eindeutig A oder C ist. Das Problem: ohne Trust-Boundaries, ohne Verifikationsschritt, ohne Rollback ist das keine B-Klasse, sondern Chaos mit AI-Beteiligung. Echte B braucht Design – nicht Default.

Muster 3 – Das C-Versprechen ohne Edge-Case-Plan

Tier-1-Support, Standard-Klassifikation, Routine-Reporting werden als „voll automatisiert" deklariert. Beim ersten echten Edge-Case (regulatorische Frage, Beschwerde, ungewöhnliches Format) gibt es keinen Eskalationspfad. Die Eskalationsrate frisst die Effizienz.

Die Lösung in allen drei Mustern ist die gleiche: die Klassen müssen benannt werden, bevor sie gestaltet werden können.

06 Self-Assessment

Wie ABC-fit
ist eure Organisation?

Fünf Fragen. Wenn ihr drei oder mehr nicht klar beantworten könnt, habt ihr eure ABC-Verteilung noch nicht bewusst gestaltet – sie passiert euch.

Könnt ihr für eure fünf wichtigsten Workflows die ABC-Klasse benennen? Wenn nein: Ihr betreibt drei Klassen mit einem Setup. Das erklärt, warum sich KI „uneinheitlich" anfühlt – manchmal wow, oft enttäuschend.
Welche A-Tasks habt ihr in den letzten 12 Monaten bewusst geschützt? Wenn keine: Eure Verantwortungs-Skills erodieren in Agent-Loops, ohne dass es jemand merkt. Das wird sichtbar, wenn ein Schaden eintritt – also zu spät.
Wo läuft heute schon ein agentischer C-Loop – mit vollständigem Audit-Trail, Edge-Case-Eskalation und gemessener Eskalationsrate? Wenn nirgends: Ihr habt keine produktive C-Klasse. Was ihr habt, ist B mit C-Marketing.
Wer ist namentlich zuständig für eure B-Klasse – also für das Workflow-Design, Trust-Boundaries und Verifikationsschritte? Wenn niemand: Eure B-Klasse ist Default, nicht Design. Genau dort entstehen die 95 %-ohne-ROI-Geschichten.
Wenn morgen ein Regulator klingelt: Könnt ihr für eine eurer KI-gestützten Entscheidungen erklären, wer sie verantwortet, mit welchen Daten sie entstand, und wo der Audit-Trail liegt? Wenn nein: Ihr habt keine ABC-Strategie, ihr habt ein Risiko-Profil. Der Unterschied wird 2026 mit dem AI Act und Sektor-Regulatoren teurer.

07 CRAiD POV

Wir sind kein Tool-Verkäufer.
Wir helfen, die ABC-Mischung bewusst zu gestalten – bevor die Organisation es zufällig tut.

CRAiD · Design Consultancy for the Agentic Era

Wir arbeiten schon so, wie eure Organisation morgen arbeiten wird: in einem Team aus Menschen und Agents, mit klar definierten ABC-Klassen, gemessenen Übergängen und einer Sprache, die nicht zwischen Hype und Hörensagen pendelt. Unsere Standard-Sequenz mit Klienten:

ABC-Mapping (2 Wochen) – Klassifikation der 20–30 wichtigsten Tasks pro Funktion, gemeinsam mit den jeweiligen Owner:innen. Output: ABC-Karte mit Begründungen, Risiken, Verschiebungs-Hypothesen.
Klassen-spezifische Workflow-Designs (4–6 Wochen) – pro Klasse ein eigener Loop: A mit Decision Logs, B mit Trust-Boundaries und Verifikation, C mit Audit-Pipeline.
Pilotierung & Messung (8–12 Wochen) – ein produktiver B-Loop und ein produktiver C-Loop, mit messbarem Outcome statt Vibe-Reporting.
Rollout & Befähigung – Discovery-Teams besetzt, Steward-Rollen definiert, Skill-Pfad für die A-Senioren etabliert.

Wenn ihr das in eurer Organisation aufsetzen wollt, ohne 18 Monate Pilotchaos und ohne in die 95 %-ROI-Statistik zu rutschen, redet mit uns. Schreibt an hello@craid.de oder antwortet auf diesen Artikel auf craid.de.

← Alle Insights

Quellen & Methode

Worauf wir uns stützen.

Jede Kernzahl in diesem Artikel ist durch mindestens zwei unabhängige Quellen gestützt. Hier die wichtigsten, kurz kommentiert.

Primärquellen

Anthropic Economic Index Reports V1–V3 (2024–2026) – Anthropic, laufend. Augmentation/Automation-Verteilung (57/43), zeitliche Verschiebung der direktiven Automation (27 % → 39 %), geographische Adoption. anthropic.com/economic-index
Handa et al., „Which Economic Tasks Are Performed with AI?" – Anthropic, 2025. arXiv:2503.04761. Berufsebenen-Empirie via O*NET-Mapping, 4 Mio. Konversationen. Quelle der Branchen-Verteilungen in Abschnitt 03. arXiv:2503.04761
Tamkin et al., „Clio: Privacy-Preserving Insights into Real-World AI Use" – Anthropic, 2024. Methodische Grundlage der AEI-Analyse.

Akademische Rahmen

Autor, D. (2003, 2013, 2015) – Foundational papers zu Task-Modellen und Komplementarität von Mensch und Maschine; theoretischer Rahmen für ABC.
Acemoglu & Restrepo (2018) – Modell für Automation, Displacement und neu entstehende Tasks.
UCL / SSRN „Human-AI Task Tensor" – akademische Vorlage für mehrdimensionale Task-Taxonomien. SSRN 5134721
SSRN „Automation or Augmentation?" – Modell für Deskilling-Effekte. SSRN 4910282
NIST AI 200-1: Taxonomy for Human-AI Teaming – institutioneller Standard für die Klassifikation von Mensch-KI-Zusammenarbeit. nist.gov

Industrie- und Adoption-Daten

MIT Media Lab (2025) – „95 % der Organisationen sehen keinen messbaren ROI". Sekundär-zitiert in WEF Future of Jobs.
MIT Sloan – „How AI is Reshaping Workflows and Redefining Jobs". Workflow-Redesign als Voraussetzung für Wertschöpfung. mitsloan.mit.edu
WEF Future of Jobs 2025 / Organizational Transformation in the Age of AI – Org-Strukturen, Discovery-Teams, Skill-Verschiebung.
Goldman Sachs: AI Labor Market Impact – ~25 % US-Arbeitsstunden exposed, 300 Mio. Jobs.
Stonebranch Global State of IT Automation – 21 % „at enterprise scale", 79 % darunter.
Cisco Workplace 2026 Index – Shadow AI Use, 80 %+ unapproved AI; Skill-Verschiebung.
Eightfold, Sana Labs, Salesforce, Ruh.ai, UiPath – Industry-Daten zu Hires, Tech-Stack-Adoption, Agent-Plattformen 2025/2026.
Berkeley California Management Review (Juli 2025) – „AI Automation and Augmentation Roadmap". Executive-Brücke.

Methode dieses Artikels

Quellenheuristik: A primär empirisch (Anthropic, MIT) – B akademisch (NIST, SSRN, Autor) – C industry (WEF, Goldman, Stonebranch, Cisco) – D opinion (LinkedIn-Posts, Vendor-Whitepaper). Nur A- und B-Quellen liefern Kernzahlen; C ergänzt Kontext; D wird gegenstand-, nicht autoritätsbezogen genutzt. Jede Aussage in den Stat- und Branchen-Sections ist durch mindestens zwei voneinander unabhängige Quellen belegt.

Vollständige kommentierte Source Library auf Anfrage. Diese Research ist Teil der CRAiD-Reihe „Reports vom agentischen Frontend". Letzter Stand: Mai 2026.

← Zurück zu Insights