Metodyka badawcza

Granica pojedynczego GARCH na soft commodities

Klasyczny GJR-GARCH-t przechodzi dyscyplinę VaR na czterech kontraktach ciągłych soft commodities ICE. Wczesnego ostrzegania nie daje: zmienność warunkowa podąża za ruchem, nie wyprzedza go. Oba stwierdzenia są metodycznie udowodnione; z obu wynika to, co budujemy dalej.

Guido Winger

8 min czytania

Modele zmienności dla soft commodities bywają prezentowane w materiałach dostawców jako gotowe rozwiązania, bez sprawdzenia liczb backtestu. My idziemy drogą odwrotną. Budujemy każdy model osobno, dokumentujemy implementację, uruchamiamy backtest walk-forward względem stałego snapshotu i publikujemy wynik. Także wtedy, gdy nie schlebia.

Ten artykuł podsumowuje, co pokazuje nasza pierwsza w pełni zbudowana warstwa modelu: GJR-GARCH(1,1) z innowacjami Studenta-t, identycznie wyspecyfikowany na czterech kontraktach ciągłych ICE (Cocoa, Coffee, Sugar, Cotton), walk-forward od 2019 do końca 2024. To faza 1 wieloletniego programu badawczego nad zmiennością soft commodities.

1 · Model i konfiguracja

Dla wszystkich czterech surowców używamy tej samej specyfikacji: klasycznego GJR-GARCH(1,1) z innowacjami Studenta-t (Glosten/Jagannathan/Runkle 1993). GJR-GARCH-t to branżowy standard asymetrycznego modelowania zmienności. Kto buduje stack modeli, zaczyna tutaj. Inaczej nie ma niczego, względem czego można zmierzyć późniejsze warstwy.

Konkretnie:

Dane: kontrakty ciągłe ICE przez yfinance (CC=F, KC=F, SB=F, CT=F), dzienne ceny zamknięcia, zamrożone na datę końcową snapshotu
Stopy zwrotu: logarytmiczne, skalowane do procentów (×100), konwencja pakietu arch dla stabilności numerycznej
Podział: walk-forward z oknem treningowym rozszerzającym się (początkowo ≈ 10 lat), refit co 21 dni sesyjnych, horyzont prognozy 1 dzień
Śledzenie: jeden run MLflow na refit, z hashem konfiguracji, hashem snapshotu danych, wszystkimi parametrami, wszystkimi metrykami, parquetami prognoz jako artefakt

Wcześniej zarejestrowane. Brak przeszukiwania specyfikacji per aktyw, brak wariacji p/o/q specyficznych dla aktywu. Ta dyscyplina jest świadoma. Przeszukiwanie specyfikacji w backtestach walk-forward to znane źródło data snoopingu.

Pełna implementacja, wszystkie konfiguracje, wszystkie pliki JSON diagnostyki i obszerny notatnik badawczy znajdują się w repozytorium towarzyszącym soft-commodities-forecast-benchmark. Reprodukcja jednym poleceniem: make reproduce.

2 · Co pokazuje dyscyplina VaR

Sprawdzamy model na każdym z czterech surowców względem trzech testów utrwalonych w literaturze zarządzania ryzykiem:

Kupiec POF na 95 % i 99 % (Kupiec 1995)
Christoffersen CC (Christoffersen 1998)

Na zagregowanych okresach testowych 2019-2024 wszystkie cztery surowce przechodzą dyscyplinę VaR: częstości naruszeń nie odbiegają istotnie od poziomu nominalnego na żadnym testowanym poziomie (najmniejsza p-wartość w całej klasie aktywów: 0,115, cotton, Christoffersen CC na 99 %). Efekty ARCH są na okresach treningowych dla wszystkich czterech surowców masowo wykazane z p-wartościami mniejszymi niż 1·10⁻¹⁸. Rodzina GARCH jest tym samym metodycznie jasno uzasadniona.

W skali, którą obejmuje dyscyplina backtestu VaR, baza jest czysta. Co ukrywa widok zagregowany, pokazuje kolejna sekcja.

3 · Czego dyscyplina VaR nie pokazuje

GJR-GARCH to model, który dostosowuje się po kryzysie. Reaguje na pierwszą dużą ujemną stopę zwrotu, podnosząc wariancję warunkową w następnym kroku. Dokładnie ta zdolność reakcji zapewnia mu pokrycie VaR na okresach zagregowanych.

Sprawdzamy to na czterech znanych epizodach stresu, każdorazowo na udokumentowanym początku epizodu (kotwice zewnętrzne w configs/global.yaml repozytorium towarzyszącego):

Surowiec	Epizod stresu	Zmienność warunkowa na początku epizodu
Cocoa	szok podażowy 2023/24 (początek 2023-09)	bez zmian: 1,52 %/dzień (60 dni przed) wobec 1,57 %/dzień (60 dni po); wzrost powyżej 5 %/dzień przychodzi dopiero z dużymi ruchami od lutego 2024
Coffee	susza w Brazylii 2024 (początek 2024-09)	płasko w 30 dniach sesyjnych przed największym ruchem dziennym (stosunek do trendu 60-dniowego: 0,97)
Sugar	ograniczenie eksportu w Indiach 2023 (początek 2023-09)	płasko przed największym ruchem dziennym (0,97); wzrost o czynnik 1,45 dopiero w dniach po
Cotton	szok podażowy 2022 (początek 2022-05)	wzrost o czynnik 3,2 dopiero przy największym ruchu dziennym (2022-06-24), nie wcześniej

Wzorzec jest taki sam dla wszystkich czterech surowców: zmienność warunkowa nadąża, gdy ruch już jest. Nie zapowiada go. Czy z sygnału da się jednak uzyskać wyprzedzenie innymi metodami oceny i gdzie takie metryki czasu wyprzedzenia metodycznie się łamią, omawiamy w całości w artykule następczym o drugiej warstwie modelu.

Cocoa: zmienność warunkowa podąża za ruchem, nie wyprzedza go. — Rysunek 1. Cocoa, wrzesień 2022 do czerwca 2024. U góry: dzienne stopy zwrotu z 1-dniową prognozą VaR modelu (95 % pomarańczowy, 99 % czerwony). U dołu: zmienność warunkowa z modelu GJR-GARCH-t. Na udokumentowanym początku epizodu (linia przerywana, wrzesień 2023) jest bez zmian na poziomie około 1,5 %/dzień; rośnie dopiero od lutego 2024 z dużymi ruchami dziennymi i osiąga ponad 5 %/dzień w okolicy historycznego szczytu (linia kropkowana, 19 kwietnia 2024). Odtwarzalne z repozytorium towarzyszącego przez `make reproduce`.

Zmienność warunkowa wokół każdego z czterech początków epizodów: poziom nie rusza się na początku. — Rysunek 2. Ten sam widok dla wszystkich czterech surowców: zmienność warunkowa od dwunastu miesięcy przed do sześciu miesięcy po udokumentowanym początku epizodu (linia przerywana). Średnie 60-dniowe przed wobec po początku: Cocoa 1,52 wobec 1,57, Coffee 2,33 wobec 2,21, Sugar 1,79 wobec 1,66, Cotton 1,77 wobec 3,41 procent na dzień; dla cotton duży ruch dzienny z 24.06.2022 leży w obrębie 60 dni następujących, więc wzrost przychodzi z ruchem, nie przed nim.

To nie jest zaskoczenie ani porażka i nie jest też nowym odkryciem: reaktywność klasycznych modeli GARCH to wiedza podręcznikowa. Wartość tej pracy leży w tym, że wynik jest tu wcześniej zarejestrowany, zmierzony identycznie na czterech rynkach i w pełni odtwarzalny. To oczekiwany wynik dla klasycznego modelu GARCH bez detekcji reżimów. Kto pracuje z nim operacyjnie, ma obronny kwantyl ryzyka na okresach zagregowanych. Ale nie ma modelu, który reaguje przed początkiem epizodu.

Kolejny rząd wielkości, który należy do uczciwego obrazu: out-of-sample R² względem kwadratów stóp zwrotu leży dla wszystkich czterech surowców między −0,01 a +0,03. To zachowanie znane od Andersen/Bollerslev 1998 i należy do każdej metodycznie uczciwej dyskusji o jakości GARCH. Kwadraty stóp zwrotu to notorycznie zaszumiony proxy zrealizowanej zmienności.

4 · Co z tego wynika i co budujemy dalej

Z wyniku cross-asset wynika jasne stanowisko metodyczne:

Pojedynczy GARCH to składnik konieczny, ale niewystarczający. Dostarcza dyscyplinę VaR, ale nie wczesne ostrzeganie. Kto chce wczesnego ostrzegania, potrzebuje do tego drugiej warstwy. Ten wynik jest spójny na czterech surowcach. Nie jest więc osobliwością pojedynczego przypadku, lecz strukturalną własnością rodziny GARCH.

Literatura zna trzech głównych kandydatów na drugą warstwę:

Markov-switching GARCH (Hamilton/Susmel 1994), jawna detekcja reżimów przez ukryte stany Markowa
Modele ukrytego łańcucha Markowa wprost na stopach zwrotu (Rabiner 1989; ekonometryczna tradycja przełączania reżimów: Hamilton 1989), detekcja reżimów bez jawnego modelowania zmienności
GARCH-MIDAS z egzogenicznymi czynnikami niskiej częstotliwości (Engle/Ghysels/Sohn 2013), integracja danych pogodowych, COT i makro w specyfikację zmienności

Te trzy nurty są zaplanowane w naszym programie badawczym jako kolejne etapy. Oparte na literaturze oczekiwanie co do czasu wyprzedzenia połączonej architektury HMM-plus-GARCH-MIDAS leży w przedziale od jednego do czterech tygodni przed przełączeniem reżimu kryzysowego (Ang/Bekaert 2002, Pan/Wu 2020).

Nie twierdzimy dziś żadnych własnych liczb czasu wyprzedzenia dla tych modeli. Nie istnieją jeszcze w naszych backtestach. Gdy zaistnieją, kolejna warstwa dostanie własne repozytorium towarzyszące, a ten artykuł zostanie rozszerzony o uzupełnienie metodologiczne, w którym opublikujemy rzeczywiste liczby backtestu z hashem odtwarzalności.

5 · Steel-man: „modele fundamentowe zrobiłyby to lepiej”

Prawdopodobna kontrpozycja: „Zamiast budować klasyczny GARCH, powinniście użyć modelu fundamentowego dla szeregów czasowych, np. TimesFM, Chronos czy Moirai.” Odruch jest zrozumiały. Trzy odpowiedzi:

Zmienność to nie prognoza ceny. Modele fundamentowe są trenowane na prognozach poziomu ceny, nie na wariancji warunkowej. Przeniesienie na cele zmienności jest metodycznie nietrywialne i w literaturze wciąż nierozstrzygnięte.
Odtwarzalność jest częścią dyscypliny. Rodziny GARCH są utrwalone w badaniach ryzyka od trzydziestu lat. Kto publikuje backtest GARCH, może odwołać się do spójnej tradycji metod. Przy modelach fundamentowych wiele musimy stabilizować sami.
Oba mają sens, w tej kolejności. Późniejszy etap naszego programu jest wyraźnie poświęcony warstwie modeli fundamentowych, z osobną kontrolą leakage-detection. Baza jest pierwsza.

6 · Czego ten artykuł nie robi

Cztery zastrzeżenia metodyczne, które należą do rzetelnego obrazu:

Jeden epizod stresu na surowiec. Ocena okna pre-crisis opiera się, per surowiec, na pojedynczym epizodzie stresu. Prawdziwa walidacja wymaga kilku epizodów na aktyw. Jeden epizod to nie próba.
Look-ahead w definicji zdarzenia. Wiemy teraz, które epizody były stresem. Model, który ostrzegałby w czasie rzeczywistym, nie znałby daty z góry.
Specyfikacja modelu jest stała. Dla wszystkich czterech surowców używamy GJR(1,1)-t, bez wyszukiwania specyficznego dla aktywu. To dyscyplina przeciw data snoopingowi, nie wada modelu.
Jakość danych przez Yahoo. Kontrakty ciągłe Yahoo są metodycznie wystarczające, ale nie są danymi rynkowymi Tier-1. Do produkcyjnych zastosowań ryzyka preferowany jest licencjonowany komercyjny feed danych.

Pełna lista ograniczeń z dalszymi punktami (mechanika rolowania, zależność optymalizacji od backendu, brak oceny korelacji krzyżowych) znajduje się w docs/limitations.md w repozytorium towarzyszącym.

Dwa punkty doszły w trakcie audytu naukowego z 11 czerwca 2026 i należą trwale do uczciwego obrazu:

Okres kalibracji nie jest wolny od kryzysów. Kalibracja progów używa lat 2019-2020 jako spokojnej referencji; wiosna COVID 2020 leży w nim. Kalibracja jest przez to konserwatywna; stwierdzenia o detekcji są raczej zaniżone niż zawyżone.
Jeden epizod stresu na surowiec. Każde stwierdzenie powiązane z epizodem opiera się na dokładnie jednym zdarzeniu na rynek. Walidacja względem dalszych historycznych epizodów pozostaje otwarta.

7 · Lista lektur

Glosten/Jagannathan/Runkle 1993, Relationship between Expected Value and Volatility, oryginalna praca GJR-GARCH.
Bollerslev 1986, Generalized Autoregressive Conditional Heteroskedasticity, rodzina GARCH.
Andersen/Bollerslev 1998, Answering the Skeptics, metodyczna dyskusja kwestii proxy kwadratów stóp zwrotu.
Kupiec 1995, Techniques for Verifying the Accuracy of Risk Measurement Models, Kupiec POF.
Christoffersen 1998, Evaluating Interval Forecasts, Christoffersen CC.
Hamilton 1989, A New Approach to the Economic Analysis of Nonstationary Time Series, oryginał HMM, kotwica kolejnego etapu badań.
Engle/Ghysels/Sohn 2013, Stock Market Volatility and Macroeconomic Fundamentals, oryginał GARCH-MIDAS.

Powiązane artykuły

Druga warstwa: co model reżimowy naprawdę daje w czasie wyprzedzenia, artykuł następczy realizujący drugą warstwę modelu zapowiedzianą tutaj.
Protokół Truth-Check dla wyników badań nad AI, szablon przeglądu metodycznego, który stosujemy do każdego publikowanego twierdzenia.

Repozytorium towarzyszące

myBytesResearch/soft-commodities-forecast-benchmark, pełny kod, wszystkie cztery konfiguracje surowców, JSON diagnostyki na aktyw, obszerny notatnik badawczy, śledzenie MLflow, pipeline make reproduce. Prywatne w chwili publikacji; przełączenie na publiczne to osobna decyzja.

Disclaimer

Ten artykuł opisuje backtest walk-forward z naszej własnej praktyki badawczej. Nie jest poradą inwestycyjną ani zabezpieczającą. Podane liczby backtestu odnoszą się do konkretnej konfiguracji test-setup i nie są bez zastrzeżeń przenoszalne na inne scenariusze zastosowań.

Niezależny recenzent: otwarte zaproszenie. Repozytorium towarzyszące soft-commodities-forecast-benchmark z pipeline make reproduce, śledzeniem MLflow, JSON diagnostyki na surowiec, obszernym notatnikiem badawczym oraz osobnymi dokumentami metodologii i ograniczeń.