Metodyka badawcza

Druga warstwa: co model reżimowy naprawdę daje w czasie wyprzedzenia

Zapowiedzieliśmy, że drugą warstwę modelu udokumentujemy otwarcie. Oto ona: model ukrytego łańcucha Markowa na tych samych czterech soft commodities, w identycznym, wcześniej ustalonym punkcie pomiaru co baza GARCH. Kolumna z czasem wyprzedzenia wygląda spektakularnie. Właściwym tematem tego artykułu jest pytanie, którym z tych wartości można wierzyć i dlaczego.

Guido Winger

10 min czytania

W artykule bazowym pokazaliśmy, że klasyczny GJR-GARCH-t przechodzi dyscyplinę VaR na ICE Cocoa, Coffee, Sugar i Cotton, ale nie daje wczesnego ostrzegania: zmienność warunkowa podąża za ruchem, nie wyprzedza go. Otwarte pytanie brzmiało, czy warstwa reżimowa to zmienia.

Odpowiedź brzmi: tak, ale z istotnym zastrzeżeniem. Tak, model reżimowy reaguje przed wszystkimi czterema badanymi początkami epizodów, przy kontrolowanym wskaźniku alarmów, a dla kakao oznacza realne zdarzenie rynkowe trzy i pół miesiąca przed początkiem epizodu. Ale: sama metryka czasu wyprzedzenia jest bardziej krucha, niż sugerują liczby, a część tego, co wygląda na potwierdzenie, to mechanika. Pokazujemy otwarcie, co jest czym.

1 · Model i protokół

Druga warstwa jest celowo klasyczna: gaussowski model ukrytego łańcucha Markowa z trzema reżimami (spokojny, podwyższony, stres) na dziennych logarytmicznych stopach zwrotu, czyli klasyczne sformułowanie HMM w linii Bauma-Rabinera (Rabiner 1989), w którym stopy zwrotu przy danym stanie mają niezależny rozkład normalny. Dla rozróżnienia: utrwalone w ekonometrii przełączanie reżimów według Hamiltona 1989 to HMM z autoregresyjną strukturą emisji; nasz wariant to prostsza, za to bardziej odporna postać z emisją i.i.d. Markov-switching GARCH, w którym same parametry GARCH zależą od stanu, to jeszcze trzecia klasa i kolejny zarejestrowany kandydat (§5). Reżim stresu definiujemy jako stan o największej dopasowanej wariancji. Sygnałem jest ściśle przyczynowe, filtrowane prawdopodobieństwo reżimu stresu: każdego dnia wchodzą tylko informacje do tego dnia, bez wygładzania po przyszłości.

Protokół jest identyczny jak w bazie, aby porównanie było wiarygodne:

ten sam snapshot danych, te same cztery kontrakty ciągłe ICE
walk-forward z oknem rozszerzającym się, ponowne oszacowanie co 21 dni sesyjnych (około 179 ponownych oszacowań na surowiec), stały seed
identyczny, wcześniej ustalony punkt pomiaru dla detekcji: odniesienie EMA (lambda 0,94), czuły punkt pracy z tolerowanym wskaźnikiem fałszywych alarmów 10 %, kalibrowany wspólnie na wszystkich czterech rynkach na latach 2019-2020, okno wyprzedzenia 180 dni
brak przeszukiwania specyfikacji per rynek: jedna specyfikacja, cztery surowce

Implementacja, konfiguracja i kompletne pliki wyników znajdują się w repozytorium towarzyszącym soft-commodities-forecast-benchmark (src/benchmark/hmm_regime.py, src/benchmark/hmm_evaluate.py, results/hmm_detection_evaluation.json).

2 · Wynik w wcześniej ustalonym punkcie pomiaru

Surowiec	Epizod	GARCH (warstwa 1)	HMM (warstwa 2)	Dzień detekcji HMM
Cocoa	szok podażowy 2023/24	brak detekcji	171 dni	2023-03-13
Coffee	susza w Brazylii 2024	135 dni	169 dni	2024-03-15
Sugar	ograniczenie eksportu w Indiach 2023	178 dni	142 dni	2023-04-11
Cotton	szok podażowy 2022	50 dni	179 dni	2021-11-02

Trzy wskazówki do tej tabeli, zanim ktoś skopiuje ją do prezentacji sprzedażowej:

Po pierwsze: wskaźnik alarmów jest kontrolowany. W latach testowych 2021-2024 udział dni z alarmem mieści się między 9,6 % a 13,1 %, zgodnie ze skalibrowanym punktem pracy 10 %. Model nie krzyczy więc bez przerwy; gdy reaguje, jest to na tyle rzadkie, by miało znaczenie operacyjne.

Po drugie: wartości bliskie 180 dni zasługują na nieufność. Okno wyprzedzenia ma 180 dni. Czas wyprzedzenia 179 dni (cotton) oznacza, że alarm stał już pierwszego dnia okna, a to nie jest wczesne ostrzeżenie przed tym zdarzeniem, lecz następstwo zwyżki bawełny z 2021 roku z szokiem ukraińskim w tle. Dlatego raportujemy tę wartość jako wynik z krawędzi okna, nie jako detekcję. Ta sama nieufność dotyczy, w słabszej formie, kakao (171) i kawy (169) w punkcie ratio; trudniejszy test następuje w kolejnej sekcji.

Filtrowane prawdopodobieństwo stresu wokół każdego z czterech epizodów, z pierwszym przekroczeniem 0,5. — Rysunek 1. Filtrowane prawdopodobieństwo stresu dla wszystkich czterech surowców, od dwunastu miesięcy przed do sześciu miesięcy po udokumentowanym początku epizodu (linia przerywana). Czerwona linia kropkowana oznacza pierwszy dzień powyżej stałego progu 0,5 w oknie 180 dni: cocoa 2023-05-16 (skok do 0,84), coffee 2024-04-23 (0,61), sugar 2023-05-01 (0,64), cotton 2021-11-02 (0,91, wynik z krawędzi okna). Tabela powyżej raportuje natomiast wcześniej ustalony punkt ratio; oba ujęcia są udokumentowane obok siebie w repozytorium towarzyszącym.

Po trzecie: kolumna warstwy 1 mierzy mechanikę oceny, a nie GARCH jako wczesny ostrzegacz. Udokumentowane stwierdzenie bazowe brzmi: zmienność warunkowa nie rośnie na początkach epizodów, lecz podąża za ruchem. To, że kolumna czasu wyprzedzenia mimo to pokazuje dla tego samego modelu trzy z czterech detekcji, wynika z mechaniki pierwszego przekroczenia w długich oknach, z tymi samymi zastrzeżeniami co do krawędzi okna jak w warstwie 2. Właśnie dlatego pełna dyskusja o czasie wyprzedzenia należy do tego artykułu, a nie do artykułu bazowego: to własność procedury pomiaru, którą da się czysto pokazać tylko w porównaniu dwóch warstw.

3 · Najciekawszy pojedynczy wynik, uczciwie umiejscowiony

Przy stałym progu prawdopodobieństwa 0,5 (zarejestrowanym wcześniej jako ocena wrażliwości) model reżimowy reaguje dla kakao 16 maja 2023: filtrowane prawdopodobieństwo stresu skacze z 0,10 do 0,84. Warstwa GARCH, w swojej kalibracji jednorynkowej, reaguje 17 maja 2023, jeden dzień sesyjny później.

Zanim powstanie z tego legenda, uczciwa mechanika: 16 maja 2023 kontrakt na kakao spadł o 5,4 % w jeden dzień. Obie warstwy pracują na tych samych stopach zwrotu i obie reagują na duże ruchy dzienne, HMM tego samego dnia (filtr widzi wyskok natychmiast), GARCH dzień później (wariancja warunkowa rośnie po szoku). To, że obie oznaczają niemal ten sam dzień, nie jest więc niezależnym potwierdzeniem krzyżowym dwóch metod; to spójna rejestracja tego samego szoku przez dwa różnie bezwładne przyrządy pomiarowe.

Ile ten wynik jest naprawdę wart: trzy i pół miesiąca przed udokumentowanym początkiem epizodu i jedenaście miesięcy przed historycznym szczytem doszło na rynku kakao do realnego, ostrego zdarzenia, w oknie, w którym krążyły pierwsze doniesienia o deficycie sezonu. Obie warstwy czynią to zdarzenie widocznym i datowalnym. Czy był to przyczynowo początek epizodu, czy odosobniony szok, może odpowiedzieć dopiero warstwa fundamentalna (§6).

Cocoa: obie warstwy rejestrują dzienny szok z 16 maja 2023. — Rysunek 2. Cocoa, wrzesień 2022 do czerwca 2024. U góry: zmienność warunkowa warstwy GARCH (procent na dzień). U dołu: filtrowane prawdopodobieństwo stresu modelu reżimowego z linią odniesienia 0,5. Dwie linie kropkowane oznaczają, jak obie warstwy rejestrują dzienny szok 5,4 % z 16 maja 2023 (HMM tego dnia, GARCH dnia następnego); linia przerywana oznacza udokumentowany początek epizodu 1 września 2023. Od lutego 2024 reżim stresu utrzymuje się trwale. Odtwarzalne przez `make reproduce` i `python -m benchmark.hmm_evaluate`.

Dwa dalsze zastrzeżenia również tu należą. Sygnał majowy to krótki, ostry błysk trwający jeden tydzień sesyjny; potem model wraca do stanu spokojnego aż do początku epizodu; między detekcją a początkiem epizodu prawdopodobieństwo stresu przekracza 0,5 tylko w 5 % dni. Kto w maju 2023 zagrałby na ten sygnał, musiałby mieć cierpliwość. I dalej: przy surowszym progu 0,9 z czterech detekcji nie przeżywa żadna poza wynikiem cotton z krawędzi okna. Zdarzenie jest realne, ale jako sygnał to szept, nie alarm.

4 · Kiedy liczby czasu wyprzedzenia zwodzą

Ta sekcja jest powodem, dla którego dyskusja o czasie wyprzedzenia zasługuje na osobny artykuł. Trzy mechanizmy mogą wytworzyć czas wyprzedzenia bez tego, by model cokolwiek przewidywał:

Trafienia z krawędzi okna. Jeśli alarm stoi już pierwszego dnia okna wyprzedzenia, liczba nie mierzy odstępu między sygnałem a zdarzeniem, lecz długość okna. Rozpoznawalne po tym, że czas wyprzedzenia leży blisko maksimum (cotton: 179 ze 180).
Zdarzenia poprzedzające. W latach surowcowych 2022-2024 epizody leżały blisko siebie: szok ukraiński, zwyżka cukru, deficyt kakao. Alarm w oknie wyprzedzenia zdarzenia B może być następstwem zdarzenia A. Detekcja z 11 marca 2022 przed załamaniem bawełny w maju to z dużym prawdopodobieństwem szok ukraiński, nie bawełna.
Kalibracja na latach odniesienia, które nie są spokojne. Nasze progi są skalibrowane na 2019-2020, a wiosna COVID 2020 leży w tym okresie. Progi są przez to konserwatywne; raportowane czasy wyprzedzenia są raczej zaniżone niż zawyżone. Efekt obciąża więc przeciwko nam, nie na naszą korzyść, a mimo to wymaga udokumentowania.

Konsekwencja operacyjna: pojedyncza liczba czasu wyprzedzenia nie jest dowodem zdolności wczesnego ostrzegania. Sygnał staje się wiarygodny dopiero dzięki połączeniu kontrolowanego wskaźnika alarmów, potwierdzenia przez naprawdę niezależną metodę (inne źródło danych, a nie tylko inną klasę modeli) oraz wyjaśnienia, co sygnał zobaczył merytorycznie. Dla kakao maj 2023 wskaźnik alarmów jest kontrolowany, a zdarzenie realne i datowalne; niezależne potwierdzenie i merytoryczne wyjaśnienie pozostają otwarte i są zadaniem warstwy fundamentalnej. Dla bawełny nie jest spełnione żadne z kryteriów.

5 · Steel-man: „trzy reżimy są arbitralne, a HMM są stare”

Najsilniejsza kontrpozycja: liczba reżimów to wybór swobodny, Markov-switching GARCH byłby elegantszy, a nowoczesne podejścia (neuronowe modele przestrzeni stanów, modele fundamentowe) pobiłyby jedno i drugie.

Trzy odpowiedzi:

Wybór trzech reżimów był ustalony przed pierwszym uruchomieniem i nie był dostosowywany na podstawie wyników. To, że nie jest zoptymalizowany, nie jest wadą, lecz warunkiem, by wyniki coś znaczyły. Badanie wrażliwości na liczbę reżimów jest oznaczone jako eksploracyjna praca następcza.
Tu „stare” jest zaletą. Hamilton 1989 to czterdzieści lat historii metody ze znanymi słabościami i właśnie dlatego wiemy, gdzie patrzeć (identyfikacja etykiet, zbieżność EM, oba sprawdzone w audycie). Metoda, której punkty krytyczne są udokumentowane, jest dla warstwy ryzyka warta więcej niż metoda, której punktów krytycznych nikt jeszcze nie zna.
Poprzeczka dla każdego bardziej złożonego kandydata jest teraz ustawiona: identyczny punkt pomiaru, identyczny protokół, i musi on dostarczyć sygnał kakao z maja bez wysadzenia wskaźnika alarmów. Markov-switching GARCH to kolejny zarejestrowany kandydat.

6 · Czego ten artykuł nie robi

Żadnej nowej nauki. Metodycznie nie ma tu nic nowego: reaktywność GARCH to wiedza podręcznikowa, detekcja reżimów przez HMM to Hamilton 1989, a kruchość czasów wyprzedzenia z pierwszego przekroczenia jest znana literaturze o punktach zmian. Wkładem tej pracy jest otwarcie odtwarzalny, wcześniej zarejestrowany układ porównawczy na czterech rynkach z identycznym punktem pomiaru, łącznie z wynikami, które przemawiają przeciwko nam. Kto oczekuje przełomu badawczego, jest w złym miejscu; kto chce zobaczyć, jak uczynić twierdzenia o wczesnej detekcji odpornymi na audyt, jest we właściwym.
Jeden epizod stresu na surowiec. Cztery epizody na czterech rynkach to cztery punkty danych. Każde stwierdzenie tutaj dotyczy tych czterech przypadków, a nie kryzysów soft commodities w ogóle.
Definicje epizodów są retrospektywne. Dziś wiemy, które epizody były stresem. System czasu rzeczywistego nie miałby listy epizodów. Zewnętrzne kotwice (raporty o deficycie ICCO, ograniczenia eksportowe Indii, susza w Brazylii) są udokumentowane, ale nie zastępują walidacji prospektywnej.
Żadnego systemu transakcyjnego. Ani detekcje, ani czasy wyprzedzenia nie są sygnałami kupna, sprzedaży czy zabezpieczenia. Stack jest badawczym stanowiskiem testowym dla pytania, które warstwy sygnału utrzymują się w jakich warunkach.
COVID w oknie kalibracji (zob. §4): obciążenie konserwatywne, udokumentowane, do sprawdzenia w pracy następczej przez alternatywne okno odniesienia.
Sygnał majowy nie jest wyjaśniony, tylko zaobserwowany. Czy modele w maju 2023 zobaczyły pierwsze doniesienia o deficycie, przesunięcia w pozycjonowaniu, czy po prostu wyprzedzający ruch cen, odpowie dopiero warstwa fundamentalna (dane pogodowe, eksportowe i magazynowe), która jest kolejnym etapem programu.

7 · Lista lektur

Rabiner 1989, A Tutorial on Hidden Markov Models, fundament HMM linii Bauma-Rabinera, którą stosuje nasza specyfikacja.
Hamilton 1989, A New Approach to the Economic Analysis of Nonstationary Time Series and the Business Cycle, przełączanie reżimów w ekonometrii (HMM z autoregresyjną strukturą emisji).
Hamilton/Susmel 1994, Autoregressive conditional heteroskedasticity and changes in regime, Markov-switching ARCH, kolejny zarejestrowany kandydat.
Glosten/Jagannathan/Runkle 1993, baza warstwy 1.
Kupiec 1995 i Christoffersen 1998, dyscyplina VaR, względem której mierzono warstwę 1.

Powiązane artykuły

Granica pojedynczego modelu GARCH na soft commodities, baza warstwy 1, której zapowiedź ten artykuł realizuje.
Protokół Truth-Check dla wyników badań nad AI, procedura weryfikacji, przez którą przeszły oba artykuły, łącznie z audytem, który wywołał korektę warstwy 1.

Repozytorium towarzyszące

myBytesResearch/soft-commodities-forecast-benchmark, obie warstwy w jednym repozytorium: baza GJR-GARCH i moduł reżimowy HMM, identyczny protokół walk-forward, wcześniej ustalony punkt pomiaru w configs/global.yaml, kompletne pliki wyników, make reproduce. Prywatne w chwili publikacji; przełączenie na publiczne to osobny, świadomy krok.

Disclaimer

Ten artykuł opisuje porównanie modeli z naszej własnej praktyki badawczej na publicznie dostępnych danych rynkowych. Nie jest poradą inwestycyjną ani zabezpieczającą. Podane wartości detekcji i czasu wyprzedzenia odnoszą się do konkretnej, wcześniej ustalonej konfiguracji oceny i czterech historycznych epizodów; nie są bez zastrzeżeń przenoszalne na inne rynki, okresy czy konfiguracje.

Niezależny recenzent: otwarte zaproszenie. Repozytorium towarzyszące soft-commodities-forecast-benchmark z obiema warstwami modelu, pipeline walk-forward, wcześniej ustalonym punktem pomiaru i kompletnymi plikami wyników.