Generatywna SI

Dlaczego 95% pilotaży GenAI kończy się niepowodzeniem i co możesz zrobić inaczej

Siedem przyczyn z diagnozy kryzysu replikacji i siedem konkretnych środków zaradczych dla dyrektorów finansowych (CFO), operacyjnych (COO) i ds. danych (CDO).

Guido Winger

10 min czytania

W sierpniu 2025 roku program MIT NANDA opublikował raport State of AI in Business 2025. Mimo 30 do 40 miliardów dolarów amerykańskich wydatków przedsiębiorstw na generatywną SI, 95% organizacji nie widzi mierzalnego efektu w rachunku zysków i strat (P&L). Tylko 5% pilotaży osiąga obiecane przyspieszenie przychodów (Fortune, 18.08.2025).

Rok wcześniej, 29 lipca 2024 roku, Gartner prognozował: co najmniej 30% wszystkich projektów GenAI zostanie porzuconych po fazie proof of concept do końca 2025 roku, z powodu słabej jakości danych, braku kontroli ryzyka, rosnących kosztów lub niejasnej wartości biznesowej (komunikat prasowy Gartnera).

Obie liczby sprowadzają się do wspólnej przyczyny: fala GenAI powtarza błędy metodyczne kryzysu replikacji w badaniach akademickich - tylko tym razem z budżetami kwartalnymi i obietnicami zarządu zamiast recenzji naukowej.

1 · Siedem przyczyn metodycznych

Na podstawie analizy 300 publicznie udokumentowanych wdrożeń SI w raporcie MIT NANDA oraz własnych obserwacji praktycznych we wdrożeniach w firmach średniej wielkości (mid-cap) wskazujemy siedem powracających przyczyn niepowodzeń PoC.

1.1 Inflacja deklaracji w fazie przygotowań

Co jest we wniosku PoC: „Zwiększymy produktywność o 40% dzięki asystentom kodowania GenAI". Co jest mierzalne po sześciu miesiącach: trudna do interpretacji mieszanka wdrożenia narzędzia, przesunięcia zadań i efektów Hawthorne'a. Nikt nie potrafi powiedzieć, czy liczby produktywności wynikają z użycia narzędzia, czy ze zwiększonej uwagi poświęconej wskaźnikom.

Co robisz inaczej: przed PoC zdefiniuj pisemny, wcześniej ustalony punkt końcowy sukcesu. Nie „poprawimy X o Y%", lecz „mierzymy Z w populacji W między datą A i B, w porównaniu z populacją odniesienia V".

1.2 Założenia o jakości danych bez audytu

Co zakłada się w PoC: „Nasze dane CRM są wystarczająco czyste dla systemu LLM-RAG". Jak jest naprawdę: 30-40% rekordów CRM jest nieaktualnych, redundantnych lub błędnych. System GenAI odtwarza problemy jakości danych jako „halucynacje", a PoC kończy się niepowodzeniem, ponieważ odpowiedzi są nieprawdziwe.

Co robisz inaczej: przed PoC zleć audyt danych, którego nie przeprowadza ten sam zespół, który proponuje PoC. Pisemne oświadczenie o jakości danych wraz ze wskaźnikiem błędów.

1.3 Porównanie ze słabym punktem odniesienia

Co porównuje PoC: „asystent GenAI vs. brak wsparcia". Co należałoby porównać w realnej eksploatacji: „asystent GenAI vs. istniejące narzędzia". Kto testuje GenAI względem „braku narzędzia", ma sztucznie zaniżony punkt odniesienia i przeszacowaną korzyść.

Co robisz inaczej: punktem odniesienia jest zawsze aktualny stan sprawdzonej praktyki, a nie stan zerowy. Jeśli pracujesz dziś z klasycznym modelem ML lub z heurystyką regułową, to właśnie to jest punktem odniesienia.

1.4 Metryka sukcesu nieprzełożona na P&L

Co pokazuje prezentacja zespołu PoC: „BLEU score 0,82", „faithfulness 0,91", „user satisfaction 4,2 na 5". Czego potrzebuje CFO: euro na kwartał, wpływ na przepływy pieniężne, redukcja OPEX. Luka między metryką ML a metryką P&L jest rzadko domykana.

Co robisz inaczej: przed PoC pisemna tabela przełożeń: która metryka ML odpowiada któremu efektowi w euro? Bez tej tabeli żaden sukces PoC nie jest możliwy do obrony na posiedzeniu zarządu.

1.5 Ślepota na całkowity koszt posiadania (Total Cost of Ownership)

Co kalkuluje PoC: koszty licencji dostawcy LLM. Co pojawia się po sześciu miesiącach produkcji: koszty tokenów rosną liniowo z użyciem, narzut zgodności (compliance) przy mapowaniu RODO podwaja zespół ds. zgodności, umowy SLA dotyczące opóźnień wymagają pracy w wielu regionach, konfiguracja RAG wymaga licencji na bazę wektorową.

Co robisz inaczej: modelowanie TCO na dwanaście miesięcy z trzema scenariuszami użycia (niski, średni, wysoki), wraz z narzutem na zgodność, infrastrukturę i personel.

1.6 Brak analizy scenariuszy awarii

Czego nie ma w PoC: systematycznej analizy tego, w jakich sytuacjach system GenAI odpowiada błędnie, jaką szkodę ekonomiczną powoduje błędny wzorzec odpowiedzi i jak scenariusz awarii jest wykrywany na produkcji.

Co robisz inaczej: analiza przedawaryjna (pre-mortem) zamiast powdrożeniowej. Przed uruchomieniem produkcyjnym zidentyfikuj co najmniej trzy realistyczne scenariusze awarii, każdy z mechanizmem wykrywania i ścieżką eskalacji.

1.7 Brak niezależnej recenzji

Czego najczęściej nie ma: zewnętrzna osoba spoza zespołu PoC sprawdza deklarację sukcesu. Co się dzieje: zespół, który przeprowadził PoC, pisze raport końcowy - z zachętą do pozytywnego wyniku.

Co robisz inaczej: ustal na piśmie, z wyprzedzeniem, kto przeprowadza niezależną recenzję. Ta osoba nie jest w tej samej linii raportowania co zespół PoC i ma prawo weta wobec raportu o sukcesie.

2 · Jaka jest wspólna przyczyna

Wszystkie siedem punktów powyżej ma to samo tło kryzysu replikacji: błąd metodyczny w przygotowaniu, który zniekształca wynik, a nikt w zespole tego nie zauważa, ponieważ zespół podziela tę samą metodyczną ślepotę.

W badaniach akademickich mechanizm ten jest dokumentowany od Ioannidisa 2005 (Why Most Published Research Findings Are False) i rozkładany metodycznie od Gelmana/Lokena 2014 jako „Garden of Forking Paths".

Przeniesienie na praktykę pilotaży GenAI jest bezpośrednie: zespół PoC ma strukturalnie te same bodźce co badacz akademicki, by wytworzyć pozytywny wynik, a brakuje mu tych samych narzędzi metodycznych.

→ Jak myBytes samo działa przeciw temu: Protokół Truth-Check

3 · Praktyczna konsekwencja dla Twojej inwestycji w SI na Q3-Q4 2026

Jeśli stoisz dziś przed decyzją o pilotażu GenAI, trzy pytania wstępne są ważniejsze niż wybór narzędzia:

Jaki jest wcześniej ustalony punkt końcowy sukcesu? Na piśmie, przed startem PoC. Jeśli odpowiedź brzmi „zdefiniujemy to w trakcie pilotażu", prawdopodobieństwo niepowodzenia PoC jest wysokie.
Kto jest niezależnym recenzentem? Spoza linii zespołu PoC. Z prawem weta wobec raportu o sukcesie.
Który model TCO obowiązuje? Trzy scenariusze użycia, dwunastomiesięczny horyzont, wszystkie składniki narzutu.

Jeśli na te trzy pytania nie da się odpowiedzieć w ciągu dwóch tygodni, powinieneś przełożyć PoC - a nie zmieniać dostawcę.

4 · Najmocniejsze stanowisko przeciwne: „pilotaże są eksploracyjne, 95% niepowodzeń jest normalne"

Wiarygodne stanowisko przeciwne: „Pilotaże to eksploracyjne inwestycje ryzykowne. 95% wskaźnika niepowodzeń jest standardem branżowym także poza GenAI. Kto ma 5% trafień, ma strukturalnie wystarczający sukces".

Trzy odpowiedzi:

30-40 miliardów dolarów przy 5% trafień. Nawet przy standardowym branżowym rozrzucie pieniądze płynące do 95% nieudanych pilotaży zużywają płynność, którą można by wykorzystać produktywniej gdzie indziej.
Możliwe do poprawy metodycznie. Siedem przyczyn powyżej da się poprawić. PoC, który unika błędów metodycznych, ma empirycznie wyższy wskaźnik sukcesu.
Ryzyko reputacyjne przy powtarzanym niepowodzeniu. Trzy porzucone PoC z rzędu erodują wewnętrzny mandat do kolejnej inwestycji w SI. To realna szkoda dla kariery i dla kolejnej szansy.

5 · Co robimy inaczej w myBytes

myBytes jest małe i nie działa w atmosferze szumu wokół GenAI. Budujemy klasyczne potoki ML i geoprzestrzenne (prognozowanie, klasyfikacja ryzyka EUDR, planowanie popytu), które są metodycznie sprawdzane według Protokołu Truth-Check. Każde stwierdzenie o naszych modelach jest opatrzone towarzyszącym repozytorium na GitHubie. Przy pierwszym uruchomieniu notatnika blok asercji sprawdza, czy wartości cytowane w artykule odtwarzają się dokładnie z migawki (snapshot).

To nie jest standard branżowy i jest wolniejsze niż zwykły PoC. Jest to jednak jedyna metodyka, która po sześciu miesiącach nie uderza w ścianę z powodu jednej z siedmiu przyczyn powyżej.

→ Protokół Truth-Check w głąb

6 · Czego ten artykuł nie obejmuje

Konkretnych rekomendacji narzędzi. Nie wymieniamy konkretnych dostawców LLM ani narzędzi MLOps, ponieważ wybór narzędzia zależy od Twojej architektury danych i Twojej pozycji w zakresie zgodności.
Pytań o ochronę danych specyficznych dla GenAI. Osobna dyskusja o zgodności z RODO przy zewnętrznych API LLM nastąpi w osobnym artykule.
Przykładów ROI specyficznych dla sektora. Nie publikujemy branżowych liczb porównawczych, które nie pochodzą z naszej własnej praktyki wdrożeniowej.

7 · Lista lektur

MIT NANDA, State of AI in Business 2025 - badanie stojące za liczbą 95%.
Fortune, 18.08.2025, MIT report 95% of GenAI pilots - opracowanie dziennikarskie.
Komunikat prasowy Gartnera, 29.07.2024 - prognoza 30% porzuceń PoC.
Ioannidis 2005, Why Most Published Research Findings Are False - oryginalny artykuł metodyczny.
Gelman/Loken 2014, The Garden of Forking Paths - mechaniczny artykuł kontynuujący.

Powiązane artykuły

Protokół Truth-Check dla wyników badań nad SI - pogłębiony artykuł metodyczny, na którym opiera się ten tekst.