Generative KI

Warum 95 % der GenAI-Pilotprojekte scheitern und was Sie anders machen

Sieben Ursachen aus der Replication-Crisis-Diagnose und sieben konkrete Gegenmaßnahmen für CFOs, COOs und CDOs.

Guido Winger

10 Min. Lesezeit

Im August 2025 veröffentlichte das MIT NANDA-Programm den Bericht State of AI in Business 2025. Trotz 30 bis 40 Milliarden US-Dollar an Unternehmensausgaben für generative KI sehen 95 % der Organisationen keinen messbaren P&L-Effekt. Nur 5 % der Pilotprojekte erreichen die versprochene Umsatzbeschleunigung (Fortune, 18.08.2025).

Ein Jahr früher, am 29. Juli 2024, hatte Gartner prognostiziert: mindestens 30 % aller GenAI-Projekte werden bis Ende 2025 nach dem Proof of Concept abgebrochen, wegen schlechter Datenqualität, fehlender Risikokontrollen, eskalierender Kosten oder unklarem Geschäftswert (Gartner-Pressemitteilung).

Beide Zahlen lassen sich auf eine gemeinsame Ursache zurückführen: Die GenAI-Welle wiederholt die methodischen Fehler der Replication-Crisis in der akademischen Forschung - nur diesmal mit Quartals-Budgets und Vorstands-Versprechen statt mit Peer-Review.

1 · Die sieben methodischen Ursachen

Aus der Analyse von 300 öffentlich dokumentierten KI-Einführungen im MIT NANDA-Bericht und aus eigener Praxis-Beobachtung in Mid-Cap-Implementierungen identifizieren wir sieben wiederkehrende Ursachen für das PoC-Versagen.

1.1 Behauptungs-Inflation in der Vorbereitungsphase

Was im PoC-Antrag steht: „Wir steigern die Produktivität um 40 % durch GenAI-Coding-Assistenten." Was nach sechs Monaten messbar ist: eine schwer interpretierbare Mischung aus Werkzeug-Einführung, Aufgaben-Verschiebung und Hawthorne-Effekten. Niemand kann sagen, ob die Produktivitäts-Zahlen aus der Werkzeug-Nutzung kommen oder aus der erhöhten Aufmerksamkeit auf die Messgrößen.

Was Sie anders machen: Vor dem PoC einen schriftlichen, vorab festgelegten Erfolgs-Endpunkt definieren. Nicht „wir verbessern X um Y %", sondern „wir messen Z auf der Population W zwischen Datum A und B, mit Vergleichs-Population V".

1.2 Datenqualitäts-Annahmen ohne Audit

Was im PoC angenommen wird: „Unsere CRM-Daten sind sauber genug für ein LLM-RAG-System." Was tatsächlich der Fall ist: 30-40 % der CRM-Einträge sind veraltet, redundant oder fehlerhaft. Das GenAI-System reproduziert die Datenqualitäts-Probleme als „Halluzinationen", und der PoC scheitert, weil die Antworten nicht stimmen.

Was Sie anders machen: Vor dem PoC ein Daten-Audit beauftragen, das nicht vom selben Team durchgeführt wird, das den PoC vorschlägt. Schriftliches Daten-Qualitäts-Statement inklusive Fehlerrate.

1.3 Vergleich gegen eine schwache Baseline

Was im PoC verglichen wird: „GenAI-Assistent vs. keine Unterstützung". Was im Praxisbetrieb verglichen werden müsste: „GenAI-Assistent vs. vorhandene Werkzeuge". Wer GenAI gegen „kein Werkzeug" testet, hat eine künstlich niedrige Baseline und einen überschätzten Mehrwert.

Was Sie anders machen: Die Baseline ist immer der aktuelle Stand der bewährten Praxis, nicht der Null-Stand. Wenn Sie heute mit einem klassischen ML-Modell oder mit einer regelbasierten Heuristik arbeiten, ist das die Baseline.

1.4 Erfolgs-Metrik nicht in P&L übersetzt

Was die PoC-Team-Präsentation zeigt: „BLEU-Score 0,82", „Faithfulness 0,91", „User Satisfaction 4,2 von 5". Was der CFO braucht: Euro-pro-Quartal, Cash-Flow-Auswirkung, OPEX-Reduktion. Die Lücke zwischen ML-Metrik und P&L-Metrik wird selten geschlossen.

Was Sie anders machen: Vor dem PoC eine schriftliche Übersetzungs-Tabelle: Welche ML-Metrik entspricht welcher Euro-Auswirkung? Ohne diese Tabelle ist kein PoC-Erfolg in einer Vorstands-Sitzung verteidigbar.

1.5 Blindheit für die Gesamtbetriebskosten (Total Cost of Ownership)

Was im PoC kalkuliert wird: die Lizenzkosten des LLM-Anbieters. Was nach sechs Monaten Produktion auftaucht: Token-Kosten skalieren linear mit der Nutzung, der Compliance-Aufwand beim DSGVO-Mapping verdoppelt das Compliance-Team, Latenz-SLAs erfordern den Betrieb in mehreren Regionen, das RAG-Setup verlangt eine Vektordatenbank-Lizenz.

Was Sie anders machen: TCO-Modellierung über zwölf Monate mit drei Nutzungs-Szenarien (niedrig, mittel, hoch), inklusive Compliance-, Infrastruktur- und Personal-Aufwand.

1.6 Keine Fehlerbild-Analyse

Was im PoC nicht passiert: eine systematische Analyse, in welchen Situationen das GenAI-System falsch antwortet, welchen ökonomischen Schaden ein falsches Antwortmuster verursacht, und wie das Fehlerbild in der Produktion erkannt wird.

Was Sie anders machen: die Fehleranalyse vor den Start legen, nicht in den Rückblick. Vor dem Produktivstart mindestens drei realistische Fehlerbilder identifizieren, jeweils mit Erkennungs-Mechanismus und Eskalationspfad.

1.7 Kein unabhängiges Review

Was meistens nicht stattfindet: Eine externe Person außerhalb des PoC-Teams prüft die Erfolgs-Behauptung. Was stattfindet: Das Team, das den PoC durchgeführt hat, schreibt den Abschlussbericht - mit Anreiz zu einem positiven Ergebnis.

Was Sie anders machen: schriftlich vorab festlegen, wer das unabhängige Review durchführt. Diese Person ist nicht in der gleichen Berichtslinie wie das PoC-Team und hat ein Veto auf den Erfolgsbericht.

2 · Was die gemeinsame Ursache ist

Alle sieben Punkte oben haben den gleichen Replication-Crisis-Hintergrund: ein methodischer Fehler in der Vorbereitung, der das Ergebnis verzerrt, ohne dass es jemand im Team merkt, weil das Team die gleiche methodische Blindheit teilt.

In der akademischen Forschung wird dieser Mechanismus seit Ioannidis 2005 dokumentiert (Why Most Published Research Findings Are False) und seit Gelman/Loken 2014 als „Garden of Forking Paths" methodisch zerlegt.

Die Übertragung in die GenAI-Pilotpraxis ist direkt: Ein PoC-Team hat strukturell die gleichen Anreize wie ein Akademiker, ein positives Ergebnis zu produzieren, und die gleichen methodischen Werkzeuge fehlen.

→ Wie myBytes selbst dagegen arbeitet: das Truth-Check-Protokoll

3 · Praktische Konsequenz für Ihre Q3-Q4-2026-KI-Investition

Wenn Sie heute eine Entscheidung über ein GenAI-Pilotprojekt vor sich haben, sind drei Vorab-Fragen wichtiger als die Werkzeug-Auswahl:

Was ist der vorab festgelegte Erfolgs-Endpunkt? Schriftlich, vor dem PoC-Start. Wenn die Antwort „wir definieren das im Verlauf des Pilotprojekts" lautet, ist die Wahrscheinlichkeit des PoC-Versagens hoch.
Wer ist die unabhängige Review-Person? Außerhalb der PoC-Team-Linie. Mit Veto-Recht auf den Erfolgsbericht.
Welche TCO-Modellierung gilt? Drei Nutzungs-Szenarien, Zwölf-Monats-Horizont, alle Aufwands-Komponenten.

Wenn diese drei Fragen nicht innerhalb von zwei Wochen beantwortbar sind, sollten Sie den PoC verschieben - nicht den Anbieter wechseln.

4 · Die stärkste Gegenposition: „Pilotprojekte sind explorativ, 95 % Versagen ist normal"

Plausible Gegenposition: „Pilotprojekte sind explorative Risiko-Investitionen. 95 % Versagensrate ist branchenüblich auch außerhalb von GenAI. Wer 5 % Treffer hat, hat strukturell genug Erfolg."

Drei Antworten:

30-40 Milliarden Dollar bei 5 % Treffer. Selbst bei branchenüblicher Streuung verbraucht das Geld, das in die 95 % Versagens-Pilotprojekte fließt, Liquidität, die anderswo produktiver einsetzbar wäre.
Methodisch verbesserbar. Die sieben Ursachen oben sind alle verbesserbar. Ein PoC, der die methodischen Fehler vermeidet, hat empirisch eine höhere Erfolgsrate.
Reputations-Risiko bei wiederholtem Versagen. Drei abgebrochene PoCs hintereinander erodieren das interne Mandat für die nächste KI-Investition. Das ist ein realer Schaden für die Karriere und die nächste Chance.

5 · Was wir bei myBytes anders machen

myBytes ist klein und arbeitet nicht im GenAI-Rummel. Wir bauen klassische ML- und Geo-Pipelines (Prognose, EUDR-Risikoklassifikation, Bedarfsplanung), die methodisch nach dem Truth-Check-Protokoll geprüft werden. Jede Aussage über unsere Modelle steht mit einem Companion-Repository auf GitHub. Beim Erst-Lauf des Notebooks prüft ein Assert-Block, ob die im Artikel zitierten Werte aus dem Snapshot exakt reproduzieren.

Das ist kein Branchen-Standard, und es ist langsamer als ein normaler PoC. Es ist aber die einzige Methodik, die nach sechs Monaten nicht wegen einer der sieben Ursachen oben gegen die Wand fährt.

→ Truth-Check-Protokoll in der Tiefe

6 · Was dieser Artikel nicht abdeckt

Konkrete Werkzeug-Empfehlungen. Wir nennen keine spezifischen LLM-Anbieter oder MLOps-Werkzeuge, weil die Werkzeug-Wahl von Ihrer Daten-Architektur und Ihrer Compliance-Position abhängt.
GenAI-spezifische Datenschutz-Fragen. Eine eigene Diskussion zur DSGVO-Compliance bei externen LLM-APIs folgt in einem separaten Artikel.
Sektor-spezifische ROI-Beispiele. Wir publizieren keine Sektor-Vergleichszahlen, die nicht aus unserer eigenen Implementierungs-Praxis stammen.

7 · Leseliste

MIT NANDA, State of AI in Business 2025 - die Studie hinter der 95 %-Zahl.
Fortune, 18.08.2025, MIT report 95 % of GenAI pilots - die journalistische Aufbereitung.
Gartner-Pressemitteilung, 29.07.2024 - die 30-%-PoC-Abbruchs-Prognose.
Ioannidis 2005, Why Most Published Research Findings Are False - das methodische Original-Paper.
Gelman/Loken 2014, The Garden of Forking Paths - der mechanische Zerlegungs-Folgepaper.

Zugehörige Artikel

Ein Truth-Check-Protokoll für KI-Forschungs-Ergebnisse - der methodische Tiefenartikel, auf den dieser Artikel aufsetzt.