Metodyka badawcza

Protokół Truth-Check dla wyników badań nad AI

Jak w myBytes nie publikujemy niczego, czego nie potrafimy obronić

Guido Winger

11 min czytania

Siedmiostopniowy lejek od twierdzenia AI do publikacji; ze 100 % twierdzeń po wszystkich siedmiu filtrach pozostaje tylko mała publikowalna reszta. Adnotacja nad lejkiem: 95 % pilotaży GenAI bez efektu P&L (MIT NANDA 2025); 30 % porzuconych po PoC (Gartner 2024). — Rysunek 1: Schemat siedmiostopniowego filtra, przez który przechodzi twierdzenie o AI, zanim zostanie opublikowane w myBytes. Wartości procentowe retencji na wykresie są heurystyczne, nie zmierzone. Pokazują rząd wielkości efektu, jaki sekwencja siedmiu kroków wywiera na pozostałą publikowalną resztę.

W sierpniu 2025 program MIT NANDA opublikował raport State of AI in Business 2025. Jedna liczba obiegła prasę gospodarczą: mimo 30 do 40 miliardów dolarów wydatków korporacyjnych na generatywne AI 95 % organizacji nie widzi mierzalnego efektu P&L. Tylko 5 % pilotaży osiąga obiecane przyspieszenie przychodów. Metodycznie oparte na 150 wywiadach z kierownictwem, ankiecie na 350 osobach i analizie 300 publicznie udokumentowanych wdrożeń AI (Fortune, 18 sierpnia 2025).

Rok wcześniej, 29 lipca 2024, Gartner prognozował: co najmniej 30 % wszystkich projektów GenAI zostanie porzuconych po proof of concept do końca 2025, z powodu słabej jakości danych, braku kontroli ryzyka, eskalujących kosztów lub niejasnej wartości biznesowej (komunikat prasowy Gartnera).

Oba badania pracują na różnych definicjach, raz porzucenie, raz brak zwrotu, i pochodzą z różnych zakątków metodycznych. Ekonomicznie sprowadzają się do tego samego wniosku: kto jako nabywca styka się ze stosowanym AI, najczęściej trafia na projekt, który zawodzi. Z tego wynikają efekty widoczne w każdej rozmowie z dostawcą i w każdej dyskusji zarządu. Zarządy stały się ostrożniejsze, działy zakupów żądają pisemnych dowodów zamiast obietnic ze slajdów, a poważni dostawcy są wciągani w ten sam lejek zaufania co niepoważni. Przyczyna leży nie w modelach, lecz przed nimi: branża nie ma wspólnego protokołu tego, co może uchodzić za obronne twierdzenie o AI, a co pozostaje wynikiem marketingowym.

W myBytes zdecydowaliśmy się napisać taki protokół najpierw dla siebie, czyli przed publikacją, a nie po niej. Niniejszy artykuł jest tym protokołem. Opisuje siedem kroków, przez które przechodzi każda z naszych publikacji badawczych, i stosuje je do tekstu, który właśnie czytasz.

1 · Dlaczego większość twierdzeń o AI upada przed audytem

Wskaźniki niepowodzeń z leadu są w naszym odczytaniu nie problemem modelu, lecz problemem walidacji twierdzeń: twierdzenia są wypuszczane na rynek bez sprawdzenia ich przed publikacją względem stałego standardu metodycznego.

Nauki eksperymentalne od lat wiedzą, jak szybko z nieograniczonej swobody badawczej powstają wyniki, które rozpadają się w replikacji. John Ioannidis wykazał w 2005 w PLoS Medicine, że większość opublikowanych wyników badań nie potwierdza się w replikacji, co wywołało tzw. kryzys replikacji (Ioannidis 2005). Andrew Gelman i Eric Loken ukuli w 2014 termin garden of forking paths: nawet bez celowego p-hackingu pozornie istotne wyniki powstają, gdy badacze wyprowadzają wiele prawdopodobnych decyzji analitycznych z danych po fakcie (Gelman & Loken 2014). A American Statistical Association w 2016 swoim Statement on p-Values wyraźnie skrytykowała praktykę interpretacji progowej (Wasserstein & Lazar 2016, The American Statistician).

W stosowanym AI te wzorce trafiają na dwa dodatkowe czynniki, które wzmacniają ryzyko:

Przeszukiwanie hiperparametrów i wybór modelu bez testu spójności. Kto z 13 modeli wybiera „najlepszy” model backtestu, nie kalibruje, lecz szuka. Bez procedury takiej jak Model Confidence Set Hansena, Lundego i Nasona (2011, Econometrica) wybór nie jest chroniony przed inflacją wielokrotnych porównań.
Teatr wyjaśnialności. Wykresy SHAP są przedstawiane jako dowód mechanizmów przyczynowych, choć mierzą to, co robi model, a nie to, co robi świat. Slack i współpracownicy pokazali w 2020, jak łatwo manipulować właśnie SHAP i LIME (Slack i in. 2020).

W efekcie powstają prezentacje PoC, które imponują w wewnętrznym backteście i rozpadają się w produkcji. Same modele są przy tym rzadko błędne. Brakuje wcześniejszego sprawdzenia twierdzeń o modelach. Dokładnie tę lukę kwantyfikują oba badania z leadu: analiza MIT NANDA na poziomie efektu i prognoza Gartnera na poziomie porzucania projektów.

2 · Siedem kroków protokołu Truth-Check myBytes

Czteropoziomowa piramida kotwic dowodowych. Szczyt Tier 1 recenzowany; poniżej Tier 2 instytucjonalny; poniżej Tier 3 branżowy; podstawa Tier 4 badania własne z pełną odtwarzalnością. — Rysunek 2. Które źródło wystarcza dla którego twierdzenia. Tier 3 nigdy nie wystarcza samodzielnie. Tier 4 wystarcza tylko z publicznym kodem, seedem i wersją danych.

Protokół składa się z siedmiu kroków przechodzonych po kolei. Żadnego kroku nie wolno pominąć, bo każdy jest wymierzony w inne źródło błędu.

2.1 Claim Extraction - co artykuł właściwie twierdzi

Każdy szkic artykułu jest rozkładany na twierdzenia atomowe. Atomowe znaczy: pojedyncze, weryfikowalne zdanie. „Nasz model bije baseline” nie jest twierdzeniem atomowym, zawiera trzy: który model, który baseline, która metryka. Dopiero po rozkładzie widać, co faktycznie trzeba obronić, a co jest tylko retoryczną tkanką łączną.

Tryb awarii, który ten krok wyłapuje: stwierdzenia, które w ciągłym tekście brzmią prawdopodobnie, ale przy dosłownym sprawdzeniu zawierają dwa lub trzy niepasujące do siebie podtwierdzenia.

2.2 Claim Classification - typ twierdzenia

Klasyfikujemy każde twierdzenie atomowe do jednego z siedmiu typów. Typologia steruje tym, jaki rodzaj dowodu wystarcza:

Typ	Przykład	Co nie wystarcza
T1 fakt stylizowany	„Stopy zwrotu kakao mają kurtozę ≈ 7”	samo własne obliczenie
T2 porównanie metod	„GJR-GARCH-t bije EGARCH na KC=F”	tabela „najlepszego z wielu”
T3 przyczynowy / ekonomiczny	„Przybycia do portu wyprzedzają cenę”	sama korelacja lub Granger
T4 skuteczność prognozy	„AUC 0,71, wyprzedzenie 5-7 tyg.”	jeden backtest
T5 regulacyjny / prawny	„Termin EUDR 30.12.2026 (duże podmioty)”	źródło wtórne
T6 teledetekcja	„Anomalia NDVI ≥ 3σ ⇒ utrata plonu”	korelacja w 1 sezonie
T7 mechanizm rynkowy	„Spekulacja napędzała kakao 2024”	narracja

Tryb awarii, który ten krok wyłapuje: podpieranie twierdzenia przyczynowego standardem dowodowym statystyki opisowej.

2.3 Anchor Mapping - dowód zewnętrzny

Każde twierdzenie atomowe potrzebuje co najmniej jednej kotwicy zewnętrznej z określonej hierarchii. Rozróżniamy cztery poziomy (tiers):

Tier 1, recenzowane: Journal of Financial Economics, Journal of Finance, Econometrica, Remote Sensing of Environment, Nature, Science, Journal of Commodity Markets, Climatic Change; SSRN i arXiv jako working papers z wyraźnym zastrzeżeniem.
Tier 2, instytucjonalnie autorytatywne: IMF, Bank Światowy, FAO, IFPRI, ICCO, USDA-FAS, EUROSTAT, Komisja Europejska, ESA, NOAA, NASA, JRC, Wageningen UR, MIT (np. NANDA, CSAIL, MIT Sloan), Gartner Research.
Tier 3. Branżowe, szanowane, ale nigdy samodzielnie: Mintec, S&P Global Commodity Insights, Argus, Reuters Commodities, FT, Bloomberg, Risk.net.
Tier 4, badania własne z pełną odtwarzalnością: publiczne repozytorium, stałe seedy, udokumentowane wersje danych, zgodność licencyjna.

Twierdzenia T3 lub T7 nigdy nie akceptujemy z samym Tier 3. Twierdzenia T1 nigdy nie akceptujemy z samym Tier 4.

Tryb awarii, który ten krok wyłapuje: whitepaper dostawcy jako jedyne źródło twierdzenia, które jest pokryte badaniami recenzowanymi.

2.4 Reproducibility Bundle - czy ktoś może przeliczyć stwierdzenie

Dla każdego wyniku liczbowego w chwili publikacji gotowy jest odtwarzalny pakiet: kod źródłowy ze stałym seedem, źródło danych ze znacznikiem wersji, przypięte wersje bibliotek, plik CITATION.cff dla cytowalności. Jeśli źródło danych jest własnościowe, dokumentujemy dostęp publicznie (licencja, droga dostępu) i udostępniamy zanonimizowany zbiór demonstracyjny, na którym działa ta sama analiza.

Tryb awarii, który ten krok wyłapuje: twierdzenia liczbowe, których pół roku po publikacji nikt już nie potrafi zrekonstruować, nawet sami autorzy.

2.5 Steel-Man Counter-Argument - najostrzejszy zarzut

Przed publikacją najsilniejsza wyobrażalna kontrpozycja jest formułowana wprost. Nie chochoł. Steel man: najlepszy argument drugiej strony, uczciwie zrekonstruowany. Podejmujemy ten argument w ciągłym tekście, nie w przypisie.

Tryb awarii, który ten krok wyłapuje: artykuły, które działają tylko dopóki czyta je przychylny czytelnik.

2.6 Limitations - warunki, w których stwierdzenie nie obowiązuje

Obowiązkowa sekcja na końcu każdego artykułu. Ograniczenie sensora, okno danych, dobór próby, bias przeżywalności, przenoszalność dziedzinowa. Nie nazywamy wszystkich wyobrażalnych ograniczeń. Lecz te trzy do pięciu, które kompetentny czytelnik rzeczywiście aktywnie by sprawdził.

Tryb awarii, który ten krok wyłapuje: artykuły, których stwierdzenia są cytowane bez wyraźnych granic ważności w obcych kontekstach, w których nie obowiązują.

2.7 Independent Review - kontrola poza grupą piszącą

Osoba, która nie brała udziału w pierwotnym szkicu, sprawdza artykuł względem kroków 1 do 6 i podpisuje wynik. Osoba ta jest wymieniona z nazwiska. Recenzja jest udokumentowana.

Tryb awarii, który ten krok wyłapuje: martwe pola własnej grupy piszącej.

3 · Co przemawia przeciw naszemu własnemu protokołowi

Uczciwy steel man przeciwko nam samym:

„Siedem kroków tworzy biurokrację. Obniżają szybkość publikacji i odfiltrowują innowację, która drzemie w niepewnych twierdzeniach. Dyscyplina falsyfikacji wobec własnych wyników nie jest odpowiednia dla każdego formatu publikacji; post na LinkedIn z hipotezą nie potrzebuje procesu recenzji jak artykuł recenzowany.”

Zarzut jest słuszny i zmienił nasze stosowanie protokołu. W praktyce protokół skaluje się ze stopniem zobowiązania publikacyjnego danej publikacji. Post hipotetyczny na LinkedIn przechodzi u nas tylko kroki 1, 2 i 6. Artykuł badawczy na stronę przechodzi wszystkie siedem. Wewnętrzny dokument dyskusyjny nie przechodzi żadnego z nich. Czego jednak nigdy nie dopuszczamy, niezależnie od kanału: by wynik z twierdzeniem liczbowym trafił do opublikowanego tekstu bez kroków 3 i 4.

Szybkość publikacji spada przez tę dyscyplinę odczuwalnie. To spowolnienie jest zamierzonym efektem, nie szkodą uboczną metodyki.

4 · Protokół zastosowany do tego artykułu

Heatmapa z dziewięcioma wierszami i pięcioma kolumnami: dla każdego twierdzenia atomowego tego artykułu widać status pięciu kroków truth-check. Poziom kotwicy, pakiet repro, steel-man, ograniczenia, recenzent. Zielony oznacza pass, pomarańczowy partial lub pending, jasnoszary not applicable. — Rysunek 3. Protokół jest stosowany, nie deklarowany. Każde z dziewięciu centralnych twierdzeń tego artykułu jest zmapowane względem pięciu sprawdzalnych pól truth-check.

Wybór centralnych twierdzeń tego artykułu i ich status:

#	Twierdzenie	Typ T	Kotwica	Pakiet	Steel-man	Ograniczenia
1	„95 % pilotaży GenAI bez efektu P&L”	T2	MIT NANDA 2025 via Fortune	n/a	podjęte	udokumentowane
2	„30 % projektów GenAI porzuconych po PoC”	T2	Gartner 2024 PR	n/a	podjęte	udokumentowane
3	„Kryzys replikacji ma przyczyny metodyczne”	T1	Ioannidis 2005; Gelman/Loken 2014	n/a	-	udokumentowane
4	„SHAP nie do interpretacji jako przyczynowy”	T2	Slack i in. 2020	n/a	-	udokumentowane
5	„Model Confidence Set rozwiązuje problem wielokrotnych porównań”	T2	Hansen/Lunde/Nason 2011	n/a	-	-
6	„Tier 3 nie wystarcza dla T1/T3/T6/T7”	T7	konwencja własna	n/a	podjęte	udokumentowane
7	„Siedem kroków skaluje się ze stopniem zobowiązania”	T7	konwencja własna	n/a	podjęte	udokumentowane
8	„Niezależna recenzja wyłapuje martwe pola”	T7	zdrowy rozsądek metodyczny	n/a	-	udokumentowane
9	„Spowolnienie jest zamierzone”	T7	pozycja własna	n/a	podjęte	-

Łącznie dziewięć twierdzeń, każde sprawdzone względem zewnętrznej lub metodyczno-konwencjonalnej kotwicy. Trzy z nich (twierdzenia 6, 7 i 9) opierają się na pozycji własnej, a nie na wyniku badań. Te trzy są otwarcie bronione w sekcji steel-man na początku artykułu, nie udowodnione zewnętrznie, i to należy do logiki protokołu: pozycja własna może się pojawić, dopóki jest oznaczona jako taka i wystawiona na kontrpozycję.

Samoaudyt nie ma tu zadania ładnie wyglądać. Pokazuje na konkretnym przykładzie, co centralne twierdzenie artykułu znaczy w praktyce: że protokół ten jest faktycznie stosowany przed każdą z naszych publikacji, a nie tylko w niej opisany.

5 · Protokół na odwrót, jako narzędzie dla nabywców AI

Siedem kroków działa w ocenie dostawcy tak samo dobrze jak we własnej pracy redakcyjnej. Kto odpowiada w funkcji zakupowej, ryzyka lub zrównoważonego rozwoju, może zastosować następujące siedem pytań jako szablon oceny wobec dostawcy AI, zanim budżet PoC zostanie zwolniony:

Jakie twierdzenia atomowe zawiera pitch dostawcy, dosłownie, nie poskładane z ciągłego tekstu?
Jaki typ ma każde z tych twierdzeń (T1 do T7 z tabeli powyżej)?
Jaka kotwica zewnętrzna jest podana na twierdzenie i czy leży na Tier 1, 2, 3 czy 4?
Jaki pakiet odtwarzalności jest dołączony? Kod, seed, znacznik wersji danych?
Jaki argument steel-man przeciw własnemu rozwiązaniu dostawca formułuje otwarcie?
Jaka sekcja ograniczeń jest zawarta w dokumentach?
Kto niezależnie zrecenzował model i gdzie ta recenzja jest udokumentowana?

Jeśli cztery lub więcej z tych pytań pozostaje bez pisemnie udokumentowanej odpowiedzi, dostawca nie jest w pozycji, w której PoC tworzy wiarygodną podstawę decyzji. Niepowodzenie nie jest przez to gwarantowane. Prawdopodobieństwo, w której z dwóch kohort MIT NANDA ostatecznie wylądujesz, da się jednak z tego wywnioskować z pewną dozą pewności.

6 · Czego ten artykuł nie robi

Nie jest recenzowanym wkładem metodycznym. Jest pozycją, wspartą uznaną literaturą metodyczną. Kto szuka rzetelnego artykułu metodycznego o p-wartościach, czyta wprost Wasserstein/Lazar 2016.
Nie gwarantuje sukcesu PoC. Obniża jedynie prawdopodobieństwo typowego trybu awarii widocznego w liczbach NANDA.
Nie jest specyficzny dla surowca ani branży. Konkretne zastosowanie do pytań commodity-intelligence czy compliance łańcucha dostaw wymaga dodatkowych kotwic dziedzinowych, omawianych w kolejnych artykułach.
Jest metodycznie konserwatywny. Kto chce szybszego workflow, nie znajdzie tu nic nowego. Kto chce wiedzieć, dlaczego celowo publikujemy wolno, znajdzie tu powód.

7 · Lista lektur i repozytorium towarzyszące

Lista lektur (siedem źródeł, w tej kolejności):

Wasserstein & Lazar (2016) „The ASA Statement on p-Values” The American Statistician.
Gelman & Loken (2014) „The Garden of Forking Paths” American Scientist.
Ioannidis (2005) „Why Most Published Research Findings Are False” PLoS Medicine.
Hansen, Lunde & Nason (2011) „The Model Confidence Set” Econometrica.
Slack i in. (2020) „Fooling LIME and SHAP” arXiv 1911.02508.
MIT NANDA (2025) „State of AI in Business 2025” (relacja prasowa Fortune 18 sierpnia 2025).
Gartner (29.07.2024) Predicts 30 % of Generative AI Projects Will Be Abandoned After Proof of Concept by End of 2025.

Repozytorium towarzyszące: github.com/myBytesResearch/truth-check-template. Zawiera szablony dla claim-map, anchor-mapping i reproducibility-bundle, notatnik demo odtwarzający claim-map tego artykułu oraz plik CITATION.cff dla cytowalności. CC BY 4.0 dla treści, MIT dla przykładów kodu. Forki i pull requesty mile widziane. Protokół jest wyraźnie nie wewnętrznym aktywem myBytes, lecz naszym zaproszeniem dla wspólnoty praktyki.

Zakończenie

Protokół powstał nie z metodycznego upodobania, lecz z konkretnych błędów, które popełniliśmy we własnych szkicach, zanim zostały opublikowane. Każdy z siedmiu kroków ma taki błąd na oku. Kto je czyta, widzi więc mniej ideologię metodyczną, a bardziej zobowiązanie wobec samych siebie. Protokół nie odfiltrowuje konkurencji, lecz nasz własny pośpiech.

Jeśli zechcesz przejąć, dostosować lub skrytykować protokół do własnej pracy, cieszy nas to. Repozytorium towarzyszące jest na to otwarte. A jeśli weźmiesz za złe któreś z postawionych tu twierdzeń, bo nie wytrzymuje kontroli według reguł protokołu, to jest dokładnie ten zarzut, na który ten artykuł zasługuje.

Niezależny recenzent: jeszcze nieobsadzony (zostanie wskazana osoba zewnętrzna spoza środowiska myBytes). 48-godzinny cool-down przed publikacją. Repozytorium towarzyszące: github.com/myBytesResearch/truth-check-template. Ta wersja: draft v1.0; truth-check kroków 1-7 nie jest jeszcze zakończony i zostanie udokumentowany przed publikacją.