Forschungsmethodik

Die zweite Schicht: Was ein Regime-Modell wirklich an Vorlaufzeit liefert

Wir hatten angekündigt, die zweite Modell-Schicht offen zu dokumentieren. Hier ist sie: ein Hidden-Markov-Modell auf denselben vier Soft Commodities, am identischen, vorab festgelegten Mess-Endpunkt wie die GARCH-Baseline. Die Vorlaufzeit-Spalte sieht spektakulär aus. Der eigentliche Inhalt dieses Artikels ist die Frage, welchen dieser Werte man glauben darf und warum.

Guido Winger

10 Min. Lesezeit

Im Baseline-Artikel haben wir gezeigt, dass ein klassisches GJR-GARCH-t auf ICE Cocoa, Coffee, Sugar und Cotton die VaR-Disziplin besteht, aber keine Frühwarnung liefert: Die bedingte Volatilität folgt der Bewegung, sie läuft ihr nicht voraus. Die offene Frage war, ob eine Regime-Schicht das ändert.

Die Antwort ist ein Ja mit einem wichtigen Aber. Ja, das Regime-Modell schlägt an den vier untersuchten Episodenbeginnen vorher an, bei kontrollierter Alarmrate, und beim Kakao markiert es dreieinhalb Monate vor dem Episodenbeginn ein reales Markt-Ereignis. Aber: Die Vorlaufzeit-Metrik selbst ist zerbrechlicher, als die Zahlen suggerieren, und ein Teil dessen, was nach Bestätigung aussieht, ist Mechanik. Wir zeigen offen, was wovon ist.

1 · Das Modell und das Protokoll

Die zweite Schicht ist bewusst klassisch gewählt: ein Gaussian-Hidden-Markov-Modell mit drei Regimen (ruhig, erhöht, Stress) auf den täglichen Log-Returns - also die klassische HMM-Formulierung der Baum-Rabiner-Linie (Rabiner 1989), bei der die Returns gegeben dem Zustand unabhängig normalverteilt sind. Zur Abgrenzung: Das in der Ökonometrie etablierte Regime-Switching nach Hamilton 1989 ist ein HMM mit autoregressiver Emissionsstruktur; unsere Variante ist die einfachere, dafür robustere i.i.d.-Emissions-Form. Markov-Switching-GARCH, bei dem die GARCH-Parameter selbst zustandsabhängig sind, ist wieder eine dritte Klasse und der nächste registrierte Kandidat (§5). Das Stress-Regime ist als der Zustand mit der größten gefitteten Varianz definiert. Das Signal ist die strikt kausale, gefilterte Wahrscheinlichkeit des Stress-Regimes: An jedem Tag fließen nur Informationen bis zu diesem Tag ein, keine Glättung über die Zukunft.

Das Protokoll ist mit der Baseline identisch, damit der Vergleich trägt:

gleicher Daten-Snapshot, gleiche vier ICE Continuous Futures
Walk-Forward mit expandierendem Fenster, Re-Schätzung alle 21 Handelstage (rund 179 Re-Schätzungen pro Commodity), fester Seed
identischer, vorab festgelegter Mess-Endpunkt für die Detektion: EMA-Referenz (Lambda 0,94), sensitiver Arbeitspunkt mit 10 % tolerierter Fehlalarmrate, kalibriert über alle vier Märkte gemeinsam auf den Jahren 2019-2020, Vorlauf-Fenster 180 Tage
keine Spezifikations-Suche pro Markt: eine Spezifikation, vier Commodities

Die Implementation, die Konfiguration und die vollständigen Ergebnis-Dateien liegen im Companion-Repository soft-commodities-forecast-benchmark (src/benchmark/hmm_regime.py, src/benchmark/hmm_evaluate.py, results/hmm_detection_evaluation.json).

2 · Das Ergebnis am vorab festgelegten Endpunkt

Commodity	Episode	GARCH (Schicht 1)	HMM (Schicht 2)	HMM-Detektionstag
Cocoa	2023/24er Supply-Shock	keine Detektion	171 Tage	2023-03-13
Coffee	2024er Brazil-Drought	135 Tage	169 Tage	2024-03-15
Sugar	2023er India-Export-Curb	178 Tage	142 Tage	2023-04-11
Cotton	2022er Supply-Shock	50 Tage	179 Tage	2021-11-02

Drei Lesehilfen zu dieser Tabelle, bevor sie jemand in eine Verkaufs-Unterlage kopiert:

Erstens: Die Alarmrate ist kontrolliert. Auf den Test-Jahren 2021-2024 liegt der Anteil der Alarm-Tage zwischen 9,6 % und 13,1 %, konsistent mit dem kalibrierten 10-%-Arbeitspunkt. Das Modell schreit also nicht dauernd; wenn es anschlägt, ist das selten genug, um operativ etwas zu bedeuten.

Zweitens: Werte nahe 180 Tagen verdienen Misstrauen. Das Vorlauf-Fenster ist 180 Tage lang. Eine Vorlaufzeit von 179 Tagen (Cotton) heißt, dass der Alarm schon am ersten Tag des Fensters anstand, und das ist keine Frühwarnung vor diesem Ereignis, sondern die Nachwirkung der Baumwoll-Rally von 2021 mit dem Ukraine-Schock im Rücken. Wir weisen diesen Wert deshalb als Fensterrand-Befund aus, nicht als Detektion. Dasselbe Misstrauen gilt abgeschwächt für Cocoa (171) und Coffee (169) am Ratio-Endpunkt; der härtere Test folgt im nächsten Abschnitt.

Gefilterte Stress-Wahrscheinlichkeit um jede der vier Episoden, mit erster 0,5-Überschreitung. — Abbildung 1. Die gefilterte Stress-Wahrscheinlichkeit für alle vier Commodities, jeweils zwölf Monate vor bis sechs Monate nach dem dokumentierten Episodenbeginn (gestrichelte Linie). Die rote gepunktete Linie markiert den ersten Tag über der festen 0,5-Schwelle im 180-Tage-Fenster: Cocoa 16.05.2023 (Sprung auf 0,84), Coffee 23.04.2024 (0,61), Sugar 01.05.2023 (0,64), Cotton 02.11.2021 (0,91, Fensterrand-Befund). Die Tabelle oben berichtet dagegen den vorab festgelegten Ratio-Endpunkt; beide Sichten sind im Companion-Repository nebeneinander dokumentiert.

Drittens: Die Schicht-1-Spalte misst die Auswerte-Mechanik, nicht das GARCH als Frühwarner. Die belegte Baseline-Aussage lautet: Die bedingte Volatilität steigt an den Episodenbeginnen nicht an, sie folgt der Bewegung. Dass die Vorlaufzeit-Spalte für dasselbe Modell trotzdem drei von vier Detektionen ausweist, liegt an der First-Crossing-Mechanik über lange Fenster, mit denselben Fensterrand-Vorbehalten wie bei Schicht 2. Genau deshalb gehört die vollständige Vorlaufzeit-Diskussion in diesen Artikel und nicht in den Baseline-Artikel: Sie ist eine Eigenschaft des Messverfahrens, die man nur im Zwei-Schichten-Vergleich sauber zeigen kann.

3 · Der interessanteste Einzelbefund, ehrlich eingeordnet

Mit einem festen Wahrscheinlichkeits-Schwellwert von 0,5 (vorab als Sensitivitäts-Auswertung registriert) schlägt das Regime-Modell beim Kakao am 16. Mai 2023 an: Die gefilterte Stress-Wahrscheinlichkeit springt von 0,10 auf 0,84. Die GARCH-Schicht schlägt in ihrer Einzel-Markt-Kalibrierung am 17. Mai 2023 an, einen Handelstag später.

Bevor daraus eine Legende wird, die ehrliche Mechanik: Am 16. Mai 2023 fiel der Kakao-Future um 5,4 % an einem Tag. Beide Schichten arbeiten auf denselben Returns, und beide reagieren auf große Tagesbewegungen - das HMM am Tag selbst (der Filter sieht den Ausschlag sofort), das GARCH einen Tag später (die bedingte Varianz zieht nach dem Schock an). Dass beide fast denselben Tag markieren, ist also keine unabhängige Kreuz-Bestätigung zweier Verfahren; es ist die konsistente Registrierung desselben Schocks durch zwei unterschiedlich träge Mess-Instrumente.

Was der Befund tatsächlich wert ist: Es gab dreieinhalb Monate vor dem dokumentierten Episodenbeginn und elf Monate vor dem Allzeithoch ein reales, scharfes Markt-Ereignis im Kakao - in dem Zeitfenster, in dem die ersten Defizit-Meldungen der Saison zirkulierten. Beide Schichten machen dieses Ereignis sichtbar und datierbar. Ob es kausal der Auftakt der Episode war oder ein isolierter Schock, kann erst die Fundamental-Schicht beantworten (§6).

Cocoa - beide Schichten registrieren den Tagesschock vom 16. Mai 2023. — Abbildung 2. Cocoa, September 2022 bis Juni 2024. Oben: die bedingte Volatilität der GARCH-Schicht (Prozent pro Tag). Unten: die gefilterte Stress-Wahrscheinlichkeit des Regime-Modells mit der 0,5-Referenzlinie. Die beiden gepunkteten Linien markieren, wie beide Schichten den 5,4-%-Tagesschock vom 16. Mai 2023 registrieren (HMM am Tag, GARCH am Folgetag); die gestrichelte Linie den dokumentierten Episodenbeginn am 1. September 2023. Ab Februar 2024 sitzt das Stress-Regime dauerhaft. Reproduzierbar über `make reproduce` und `python -m benchmark.hmm_evaluate`.

Zwei weitere Einschränkungen gehören dazu. Das Mai-Signal ist ein kurzes, scharfes Aufflackern von einer Handelswoche, danach kehrt das Modell bis zum Episodenbeginn in den ruhigen Zustand zurück; zwischen Detektion und Episodenbeginn liegt die Stress-Wahrscheinlichkeit nur an 5 % der Tage über 0,5. Wer im Mai 2023 auf dieses Signal hin gehandelt hätte, hätte also Geduld gebraucht. Und: Beim strengeren Schwellwert von 0,9 überlebt von allen vier Detektionen keine außer dem Cotton-Fensterrand-Befund. Das Ereignis ist real, aber als Signal ist es ein Flüstern, kein Alarmton.

4 · Wann Vorlaufzeit-Zahlen täuschen

Dieser Abschnitt ist der Grund, warum die Vorlaufzeit-Diskussion einen eigenen Artikel verdient. Drei Mechanismen können Vorlaufzeit erzeugen, ohne dass ein Modell etwas vorhersieht:

Fensterrand-Treffer. Steht der Alarm schon am ersten Tag des Vorlauf-Fensters an, misst die Zahl nicht den Abstand zwischen Signal und Ereignis, sondern die Fensterlänge. Erkennbar daran, dass die Vorlaufzeit nahe am Maximum liegt (Cotton: 179 von 180).
Vorgänger-Ereignisse. In den Rohstoff-Jahren 2022-2024 lagen die Episoden dicht: Ukraine-Schock, Zucker-Rally, Kakao-Defizit. Ein Alarm im Vorlauf-Fenster von Ereignis B kann die Nachwirkung von Ereignis A sein. Die Detektion am 11. März 2022 vor dem Baumwoll-Kollaps im Mai ist mit hoher Wahrscheinlichkeit der Ukraine-Schock, nicht die Baumwolle.
Kalibrierung auf nicht-ruhigen Referenzjahren. Unsere Schwellen sind auf 2019-2020 kalibriert, und das COVID-Frühjahr 2020 liegt in diesem Zeitraum. Die Schwellen sind dadurch konservativ; die berichteten Vorlaufzeiten sind eher unter- als überschätzt. Der Effekt verzerrt also gegen uns, nicht für uns, und bleibt trotzdem dokumentationspflichtig.

Die operative Konsequenz: Eine einzelne Vorlaufzeit-Zahl ist kein Beleg für Frühwarn-Fähigkeit. Belastbar wird ein Signal erst durch die Kombination aus kontrollierter Alarmrate, Bestätigung durch ein wirklich unabhängiges Verfahren (andere Datenquelle, nicht nur andere Modellklasse) und einer Erklärung, was das Signal fachlich gesehen hat. Beim Kakao-Mai-2023 sind die Alarmrate kontrolliert und das Ereignis real und datierbar; die unabhängige Bestätigung und die fachliche Erklärung stehen aus und sind die Aufgabe der Fundamental-Schicht. Bei der Baumwolle ist keines der Kriterien erfüllt.

5 · Steel-Man: „Drei Regime sind willkürlich, und HMMs sind alt“

Die stärkste Gegenposition: Die Regime-Anzahl ist eine freie Wahl, Markov-Switching-GARCH wäre eleganter, und moderne Ansätze (neuronale Zustandsraum-Modelle, Foundation-Modelle) würden beides schlagen.

Drei Antworten:

Die Drei-Regime-Wahl stand vor dem ersten Lauf fest und wurde nicht ergebnisbasiert angepasst. Dass sie nicht optimiert ist, ist kein Mangel, sondern die Bedingung dafür, dass die Ergebnisse etwas bedeuten. Eine Sensitivitäts-Prüfung über die Regime-Anzahl ist als explorative Folgearbeit markiert.
Alt ist hier ein Vorzug. Hamilton 1989 ist vierzig Jahre Methodengeschichte mit bekannten Schwächen, und genau deshalb wissen wir, wo wir hinschauen müssen (Label-Identifikation, EM-Konvergenz, beides im Audit geprüft). Ein Verfahren, dessen Bruchstellen dokumentiert sind, ist für eine Risiko-Schicht mehr wert als ein Verfahren, dessen Bruchstellen noch niemand kennt.
Die Messlatte für jeden komplexeren Kandidaten liegt jetzt fest: identischer Endpunkt, identisches Protokoll, und er muss das Kakao-Mai-Signal liefern, ohne die Alarmrate zu sprengen. Markov-Switching-GARCH ist der nächste registrierte Kandidat.

6 · Was dieser Artikel nicht leistet

Keine neue Wissenschaft. Methodisch ist hier nichts neu: Die Reaktivität von GARCH ist Lehrbuchwissen, Regime-Detektion per HMM ist Hamilton 1989, und die Zerbrechlichkeit von First-Crossing-Vorlaufzeiten kennt die Changepoint-Literatur. Der Beitrag dieser Arbeit ist die offen reproduzierbare, vorab registrierte Vergleichsanordnung auf vier Märkten mit identischem Endpunkt, einschließlich der Befunde, die gegen uns sprechen. Wer einen Forschungs-Durchbruch erwartet, ist hier falsch; wer sehen will, wie man Früherkennungs-Behauptungen prüffest macht, richtig.
Eine Stress-Episode pro Commodity. Vier Episoden über vier Märkte sind vier Datenpunkte. Jede Aussage hier ist eine Aussage über diese vier Fälle, nicht über Soft-Commodity-Krisen im Allgemeinen.
Die Episoden-Definitionen sind rückblickend. Wir wissen heute, welche Episoden Stress waren. Ein Echtzeit-System hätte die Episodenliste nicht gehabt. Die externen Anker (ICCO-Defizit-Berichte, Indiens Export-Beschränkungen, Brasilien-Dürre) sind dokumentiert, ersetzen aber keine prospektive Validierung.
Kein Handelssystem. Weder die Detektionen noch die Vorlaufzeiten sind Kauf-, Verkaufs- oder Hedging-Signale. Der Stack ist ein Forschungs-Prüfstand für die Frage, welche Signal-Schichten unter welchen Bedingungen tragen.
COVID im Kalibrierungs-Fenster (siehe §4): konservative Verzerrung, dokumentiert, in Folgearbeiten durch ein alternatives Referenz-Fenster zu prüfen.
Das Mai-Signal ist nicht erklärt, nur beobachtet. Ob die Modelle im Mai 2023 die ersten Defizit-Meldungen, Positionierungs-Verschiebungen oder schlicht eine Vorlauf-Bewegung der Preise gesehen haben, beantwortet erst die Fundamental-Schicht (Wetter-, Export- und Lagerdaten), die als nächste Stufe des Programms ansteht.

7 · Reading List

Rabiner 1989, A Tutorial on Hidden Markov Models - das HMM-Fundament der Baum-Rabiner-Linie, der unsere Spezifikation folgt.
Hamilton 1989, A New Approach to the Economic Analysis of Nonstationary Time Series and the Business Cycle - Regime-Switching in der Ökonometrie (HMM mit autoregressiver Emissionsstruktur).
Hamilton/Susmel 1994, Autoregressive conditional heteroskedasticity and changes in regime - Markov-Switching-ARCH, der nächste registrierte Kandidat.
Glosten/Jagannathan/Runkle 1993 - die Schicht-1-Baseline.
Kupiec 1995 und Christoffersen 1998 - die VaR-Disziplin, an der Schicht 1 gemessen wurde.

Zugehörige Artikel

Das Single-GARCH-Limit auf Soft Commodities - die Schicht-1-Baseline, deren Ankündigung dieser Artikel einlöst.
Ein Truth-Check-Protokoll für AI-Forschungs-Output - das Prüfverfahren, das beide Artikel durchlaufen haben, einschließlich des Audits, das die Schicht-1-Korrektur ausgelöst hat.

Begleit-Repository

myBytesResearch/soft-commodities-forecast-benchmark - beide Schichten in einem Repository: GJR-GARCH-Baseline und HMM-Regime-Modul, identisches Walk-Forward-Protokoll, vorab festgelegter Endpunkt in configs/global.yaml, vollständige Ergebnis-Dateien, make reproduce. Privat zum Veröffentlichungs-Zeitpunkt; der Sichtbarkeits-Flip auf public ist eine eigene Entscheidung.

Disclaimer

Dieser Artikel beschreibt einen Modell-Vergleich aus unserer eigenen Forschungs-Praxis auf öffentlich verfügbaren Markt-Daten. Er ist keine Anlage- und keine Hedging-Empfehlung. Die genannten Detektions- und Vorlaufzeit-Werte beziehen sich auf eine spezifische, vorab festgelegte Auswerte-Konfiguration und vier historische Episoden; sie sind nicht ohne weiteres auf andere Märkte, Zeiträume oder Konfigurationen übertragbar.

Independent Reviewer: offene Einladung. Companion Repository soft-commodities-forecast-benchmark mit beiden Modell-Schichten, Walk-Forward-Pipeline, vorab festgelegtem Endpunkt und vollständigen Ergebnis-Dateien.