Forschungsmethodik
Das Single-GARCH-Limit auf Soft Commodities
Ein klassisches GJR-GARCH-t besteht die VaR-Disziplin auf vier ICE-Soft-Commodity-Continuous-Futures. Eine Frühwarnung liefert es nicht: Die bedingte Volatilität folgt der Bewegung, sie läuft ihr nicht voraus. Beide Aussagen sind methodisch belegt; aus beiden folgt, was als nächstes gebaut wird.
Volatilitäts-Modelle für Soft Commodities werden in Anbieter-Präsentationen gern als fertige Lösungen präsentiert, ohne dass die Backtest-Zahlen geprüft sind. Wir gehen den umgekehrten Weg. Wir bauen jedes Modell einzeln, dokumentieren die Implementation, lassen den Walk-Forward-Backtest gegen einen festen Snapshot laufen und veröffentlichen den Befund. Auch dann, wenn er nicht schmeichelt.
Dieser Artikel fasst zusammen, was unsere erste vollständig gebaute Modell-Schicht zeigt: ein GJR-GARCH(1,1) mit Student-t-Innovationen, identisch spezifiziert auf vier ICE Continuous Futures (Cocoa, Coffee, Sugar, Cotton), Walk-Forward 2019 bis Ende 2024. Sie ist Phase 1 eines mehrjährig angelegten Forschungs-Programms zu Soft-Commodity-Volatilität.
1 · Das Modell und der Aufbau
Wir verwenden für alle vier Commodities dieselbe Spezifikation: ein klassisches GJR-GARCH(1,1) mit Student-t-Innovationen (Glosten/Jagannathan/Runkle 1993). GJR-GARCH-t ist der Branchen-Standard für asymmetrische Volatilitäts-Modellierung. Wer einen Modell-Stack baut, beginnt hier. Sonst hat er nichts, gegen das die späteren Schichten gemessen werden können.
Konkret:
- Daten: ICE Continuous Futures via
yfinance(CC=F, KC=F, SB=F, CT=F), tägliche Schluss-Preise, eingefroren auf einen Snapshot-Endstichtag - Returns: logarithmische Returns, in Prozent skaliert (×100), Konvention des arch-Pakets für numerische Stabilität
- Split: Walk-Forward mit expandierendem Trainings-Fenster (Initial ≈ 10 Jahre), Refit alle 21 Handelstage, 1-Tag-Vorhersage-Horizont
- Tracking: MLflow-Run pro Refit, mit Konfigurations-Hash, Daten-Snapshot-Hash, allen Parametern, allen Metriken, Prognose-Parquets als Artefakt
Pre-registriert. Keine Spezifikations-Suche pro Asset, keine asset-spezifischen p/o/q-Variationen. Diese Disziplin ist bewusst. Spezifikations-Suchen über Walk-Forward-Backtests sind eine bekannte Quelle von Daten-Snooping.
Die vollständige Implementation, alle Konfigurationen, alle Diagnostics-JSONs und ein ausführliches
Forschungs-Notebook liegen im Companion-Repository
soft-commodities-forecast-benchmark.
Reproduktion mit einem Befehl: make reproduce.
2 · Was die VaR-Disziplin zeigt
Wir prüfen das Modell auf jeder der vier Commodities gegen drei in der Risk-Management-Literatur etablierte Tests:
- Kupiec-POF auf 95 % und 99 % (Kupiec 1995)
- Christoffersen-CC (Christoffersen 1998)
Auf den Aggregat-Test-Perioden 2019-2024 bestehen alle vier Commodities die VaR-Disziplin: Verletzungs-Häufigkeiten weichen auf keinem getesteten Niveau signifikant vom nominellen Niveau ab (kleinster p-Wert quer durch die Asset-Klasse: 0,115, Cotton, Christoffersen-CC auf 99 %). ARCH-Effekte sind auf den Trainings-Perioden für alle vier Commodities mit p-Werten kleiner als 1·10⁻¹⁸ massiv nachgewiesen. Die GARCH-Familie ist damit methodisch klar gerechtfertigt.
Auf dem Maßstab, den die VaR-Backtest-Disziplin abdeckt, ist die Baseline sauber. Was die Aggregat-Sicht verbirgt, zeigt der nächste Abschnitt.
3 · Was die VaR-Disziplin nicht zeigt
GJR-GARCH ist ein Modell, das sich nach einer Krise anpasst. Es reagiert auf den ersten großen negativen Return, indem es die bedingte Varianz im nächsten Schritt erhöht. Genau diese Reaktionsfähigkeit ist es, die ihm die VaR-Abdeckung über die Aggregat-Perioden sichert.
Wir prüfen das an den vier bekannten Stress-Episoden, jeweils am dokumentierten Episodenbeginn (externe
Anker in configs/global.yaml des Companion-Repositories):
| Commodity | Stress-Episode | Bedingte Volatilität am Episodenbeginn |
|---|---|---|
| Cocoa | 2023/24er Supply-Shock (Beginn 2023-09) | unverändert: 1,52 %/Tag (60 Tage davor) gegen 1,57 %/Tag (60 Tage danach); der Anstieg auf über 5 %/Tag kommt erst mit den großen Bewegungen ab Februar 2024 |
| Coffee | 2024er Brazil-Drought (Beginn 2024-09) | flach in den 30 Handelstagen vor dem größten Tagesausschlag (Verhältnis zum 60-Tage-Trend: 0,97) |
| Sugar | 2023er India-Export-Curb (Beginn 2023-09) | flach vor dem größten Tagesausschlag (0,97); Anstieg um Faktor 1,45 erst in den Tagen danach |
| Cotton | 2022er Supply-Shock (Beginn 2022-05) | Anstieg um Faktor 3,2 erst am größten Tagesausschlag (2022-06-24), nicht davor |
Das Muster ist über alle vier Commodities dasselbe: Die bedingte Volatilität zieht nach, wenn die Bewegung da ist. Sie kündigt sie nicht an. Ob sich aus dem Signal mit anderen Auswerte-Verfahren dennoch Vorlauf gewinnen lässt, und wo solche Vorlaufzeit-Metriken methodisch brechen, behandeln wir vollständig im Folge-Artikel zur zweiten Modell-Schicht.
make reproduce.
Das ist keine Überraschung und kein Versagen, und es ist auch keine neue Erkenntnis: Die Reaktivität klassischer GARCH-Modelle ist Lehrbuchwissen. Der Wert dieser Arbeit liegt darin, dass der Befund hier vorab registriert, über vier Märkte identisch gemessen und vollständig reproduzierbar vorliegt. Es ist der erwartete Befund für ein klassisches GARCH-Modell ohne Regime-Detektion. Wer mit ihm operativ arbeitet, hat ein verteidigbares Risiko-Quantil über Aggregat-Perioden. Er hat aber kein Modell, das vor dem Episodenbeginn anschlägt.
Eine weitere Größenordnung, die zum ehrlichen Bild gehört: Der Out-of-Sample-R² gegen Squared-Returns liegt für alle vier Commodities zwischen −0,01 und +0,03. Das ist seit Andersen/Bollerslev 1998 bekanntes Verhalten und gehört zu jeder methodisch ehrlichen Diskussion von GARCH-Güte. Squared-Returns sind ein notorisch rauschiger Proxy für realisierte Volatilität.
4 · Was daraus folgt und was als nächstes gebaut wird
Aus dem Cross-Asset-Befund folgt eine klare methodische Position:
Ein einzelnes GARCH ist eine notwendige, aber keine hinreichende Komponente. Es liefert die VaR-Disziplin, aber keine Frühwarnung. Wer eine Frühwarnung will, braucht dafür eine zweite Schicht. Dieser Befund ist über vier Commodities hinweg konsistent. Er ist also keine Eigenheit eines Einzelfalls, sondern eine strukturelle Eigenschaft der GARCH-Familie.
Die Literatur kennt drei Hauptkandidaten für die zweite Schicht:
- Markov-Switching-GARCH (Hamilton/Susmel 1994) - explizite Regime-Detektion über latente Markov-Zustände
- Hidden-Markov-Modelle direkt auf Returns (Rabiner 1989; ökonometrische Regime-Switching-Tradition: Hamilton 1989) - Regime-Detektion ohne explizite Volatilitäts-Modellierung
- GARCH-MIDAS mit exogenen Niedrig-Frequenz-Faktoren (Engle/Ghysels/Sohn 2013) - Integration von Wetter-, COT- und Macro-Daten in die Volatilitäts-Spezifikation
Diese drei Stränge sind in unserem Forschungs-Programm als Folgestufen geplant. Eine literatur-fundierte Erwartung für die Vorlaufzeit einer kombinierten HMM-plus-GARCH-MIDAS-Architektur liegt im Bereich von einer bis vier Wochen vor einem Krisen-Regime-Wechsel (Ang/Bekaert 2002, Pan/Wu 2020).
Wir behaupten heute keine eigenen Vorlaufzeit-Zahlen für diese Modelle. Sie existieren in unseren Backtests noch nicht. Wenn sie existieren, bekommt die nächste Schicht ein eigenes Begleit-Repository, und dieser Artikel wird durch eine methodologische Ergänzung erweitert, in der die echten Backtest-Zahlen mit Reproducibility-Hash veröffentlicht werden.
5 · Steel-Man: „Foundation-Modelle hätten es besser können“
Plausible Gegenposition: „Statt klassisches GARCH zu bauen, sollten Sie ein Time-Series-Foundation-Modell verwenden, etwa TimesFM, Chronos oder Moirai.“ Der Reflex ist verständlich. Drei Antworten:
- Volatilität ist keine Preis-Prognose. Foundation-Modelle sind auf Preis-Niveau-Prognosen trainiert, nicht auf bedingte Varianz. Die Übertragung auf Volatilitäts-Targets ist methodisch nicht trivial und in der Literatur noch ungeklärt.
- Reproduzierbarkeit ist Bestandteil der Disziplin. GARCH-Familien sind seit dreißig Jahren in der Risk-Forschung etabliert. Wer einen GARCH-Backtest publiziert, kann auf eine konsistente Methoden-Tradition verweisen. Bei Foundation-Modellen müssen wir vieles selbst stabilisieren.
- Beides ist sinnvoll, in dieser Reihenfolge. Eine spätere Stufe unseres Programms ist ausdrücklich der Foundation-Modell-Schicht gewidmet, mit einer eigenständigen Leakage-Detection-Prüfung. Die Baseline kommt zuerst.
6 · Was dieser Artikel nicht leistet
Vier methodische Vorbehalte, die zum redlichen Bild gehören:
- Eine Stress-Episode pro Commodity. Die Pre-Crisis-Fenster-Auswertung beruht pro Commodity auf einer einzigen Stress-Episode. Eine echte Validierung verlangt mehrere Episoden pro Asset. Eine Episode ist keine Stichprobe.
- Look-Ahead in der Event-Definition. Wir wissen jetzt, welche Episoden stress waren. Ein Modell, das in Echtzeit gewarnt hätte, hätte das Datum nicht vorab gekannt.
- Modell-Spezifikation ist fest. Wir verwenden für alle vier Commodities GJR(1,1)-t, keine Asset-spezifische Suche. Das ist Disziplin gegen Daten-Snooping, kein Modell-Mangel.
- Datenqualität via Yahoo. Yahoo Continuous Futures sind methodisch ausreichend, aber keine Tier-1-Marktdaten. Für produktive Risk-Anwendungen ist ein lizenzierter kommerzieller Daten-Feed vorzuziehen.
Die vollständige Limitations-Liste mit weiteren Punkten (Roll-Mechanik, Backend-Abhängigkeit der Optimierung,
fehlende Cross-Korrelations-Auswertung) steht in
docs/limitations.md
im Begleit-Repository.
Zwei Punkte sind im Zuge des wissenschaftlichen Audits vom 11. Juni 2026 hinzugekommen und gehören dauerhaft zum ehrlichen Bild:
- Der Kalibrierungs-Zeitraum ist nicht krisenfrei. Die Schwellen-Kalibrierung nutzt die Jahre 2019-2020 als ruhige Referenz; das COVID-Frühjahr 2020 liegt darin. Die Kalibrierung ist dadurch konservativ; Detektions-Aussagen sind eher unter- als überschätzt.
- Eine Stress-Episode pro Commodity. Jede episodenbezogene Aussage stützt sich auf genau ein Ereignis je Markt. Die Validierung gegen weitere historische Episoden steht aus.
7 · Reading List
- Glosten/Jagannathan/Runkle 1993, Relationship between Expected Value and Volatility - die GJR-GARCH-Original-Arbeit.
- Bollerslev 1986, Generalized Autoregressive Conditional Heteroskedasticity - die GARCH-Familie.
- Andersen/Bollerslev 1998, Answering the Skeptics - die methodische Diskussion der Squared-Return-Proxy-Frage.
- Kupiec 1995, Techniques for Verifying the Accuracy of Risk Measurement Models - Kupiec-POF.
- Christoffersen 1998, Evaluating Interval Forecasts - Christoffersen-CC.
- Hamilton 1989, A New Approach to the Economic Analysis of Nonstationary Time Series - HMM-Original, Anker der nächsten Forschungs-Stufe.
- Engle/Ghysels/Sohn 2013, Stock Market Volatility and Macroeconomic Fundamentals - GARCH-MIDAS-Original.
Zugehörige Artikel
- Die zweite Schicht: Was ein Regime-Modell wirklich an Vorlaufzeit liefert - der Folge-Artikel, der die hier angekündigte zweite Modell-Schicht einlöst.
- Ein Truth-Check-Protokoll für AI-Forschungs-Output - die methodische Review-Vorlage, die wir auf jede veröffentlichte Behauptung anwenden.
Begleit-Repository
myBytesResearch/soft-commodities-forecast-benchmark
- vollständiger Code, alle vier Commodity-Konfigurationen, Diagnostics-JSON pro Asset, ausführliches
Forschungs-Notebook, MLflow-Tracking, make reproduce-Pipeline. Privat zum
Veröffentlichungs-Zeitpunkt; der Sichtbarkeits-Flip auf public ist eine eigene Entscheidung.
Disclaimer
Dieser Artikel beschreibt einen Walk-Forward-Backtest aus unserer eigenen Forschungs-Praxis. Er ist keine Anlage- und keine Hedging-Empfehlung. Die genannten Backtest-Zahlen beziehen sich auf eine spezifische Test-Setup-Konfiguration und sind nicht ohne weiteres auf andere Anwendungs-Szenarien übertragbar.make reproduce-Pipeline, MLflow-Tracking, Diagnostics-JSON pro Commodity, ausführlichem
Forschungs-Notebook und eigenständigen Methodologie- und Limitations-Dokumenten.