Forschungsmethodik

Das Single-GARCH-Limit auf Soft Commodities

Ein klassisches GJR-GARCH-t besteht die VaR-Disziplin auf vier ICE-Soft-Commodity-Continuous-Futures. Eine Frühwarnung liefert es nicht: Die bedingte Volatilität folgt der Bewegung, sie läuft ihr nicht voraus. Beide Aussagen sind methodisch belegt; aus beiden folgt, was als nächstes gebaut wird.

Guido Winger

8 Min. Lesezeit

Volatilitäts-Modelle für Soft Commodities werden in Anbieter-Präsentationen gern als fertige Lösungen präsentiert, ohne dass die Backtest-Zahlen geprüft sind. Wir gehen den umgekehrten Weg. Wir bauen jedes Modell einzeln, dokumentieren die Implementation, lassen den Walk-Forward-Backtest gegen einen festen Snapshot laufen und veröffentlichen den Befund. Auch dann, wenn er nicht schmeichelt.

Dieser Artikel fasst zusammen, was unsere erste vollständig gebaute Modell-Schicht zeigt: ein GJR-GARCH(1,1) mit Student-t-Innovationen, identisch spezifiziert auf vier ICE Continuous Futures (Cocoa, Coffee, Sugar, Cotton), Walk-Forward 2019 bis Ende 2024. Sie ist Phase 1 eines mehrjährig angelegten Forschungs-Programms zu Soft-Commodity-Volatilität.

1 · Das Modell und der Aufbau

Wir verwenden für alle vier Commodities dieselbe Spezifikation: ein klassisches GJR-GARCH(1,1) mit Student-t-Innovationen (Glosten/Jagannathan/Runkle 1993). GJR-GARCH-t ist der Branchen-Standard für asymmetrische Volatilitäts-Modellierung. Wer einen Modell-Stack baut, beginnt hier. Sonst hat er nichts, gegen das die späteren Schichten gemessen werden können.

Konkret:

Daten: ICE Continuous Futures via yfinance (CC=F, KC=F, SB=F, CT=F), tägliche Schluss-Preise, eingefroren auf einen Snapshot-Endstichtag
Returns: logarithmische Returns, in Prozent skaliert (×100), Konvention des arch-Pakets für numerische Stabilität
Split: Walk-Forward mit expandierendem Trainings-Fenster (Initial ≈ 10 Jahre), Refit alle 21 Handelstage, 1-Tag-Vorhersage-Horizont
Tracking: MLflow-Run pro Refit, mit Konfigurations-Hash, Daten-Snapshot-Hash, allen Parametern, allen Metriken, Prognose-Parquets als Artefakt

Pre-registriert. Keine Spezifikations-Suche pro Asset, keine asset-spezifischen p/o/q-Variationen. Diese Disziplin ist bewusst. Spezifikations-Suchen über Walk-Forward-Backtests sind eine bekannte Quelle von Daten-Snooping.

Die vollständige Implementation, alle Konfigurationen, alle Diagnostics-JSONs und ein ausführliches Forschungs-Notebook liegen im Companion-Repository soft-commodities-forecast-benchmark. Reproduktion mit einem Befehl: make reproduce.

2 · Was die VaR-Disziplin zeigt

Wir prüfen das Modell auf jeder der vier Commodities gegen drei in der Risk-Management-Literatur etablierte Tests:

Kupiec-POF auf 95 % und 99 % (Kupiec 1995)
Christoffersen-CC (Christoffersen 1998)

Auf den Aggregat-Test-Perioden 2019-2024 bestehen alle vier Commodities die VaR-Disziplin: Verletzungs-Häufigkeiten weichen auf keinem getesteten Niveau signifikant vom nominellen Niveau ab (kleinster p-Wert quer durch die Asset-Klasse: 0,115, Cotton, Christoffersen-CC auf 99 %). ARCH-Effekte sind auf den Trainings-Perioden für alle vier Commodities mit p-Werten kleiner als 1·10⁻¹⁸ massiv nachgewiesen. Die GARCH-Familie ist damit methodisch klar gerechtfertigt.

Auf dem Maßstab, den die VaR-Backtest-Disziplin abdeckt, ist die Baseline sauber. Was die Aggregat-Sicht verbirgt, zeigt der nächste Abschnitt.

3 · Was die VaR-Disziplin nicht zeigt

GJR-GARCH ist ein Modell, das sich nach einer Krise anpasst. Es reagiert auf den ersten großen negativen Return, indem es die bedingte Varianz im nächsten Schritt erhöht. Genau diese Reaktionsfähigkeit ist es, die ihm die VaR-Abdeckung über die Aggregat-Perioden sichert.

Wir prüfen das an den vier bekannten Stress-Episoden, jeweils am dokumentierten Episodenbeginn (externe Anker in configs/global.yaml des Companion-Repositories):

Commodity	Stress-Episode	Bedingte Volatilität am Episodenbeginn
Cocoa	2023/24er Supply-Shock (Beginn 2023-09)	unverändert: 1,52 %/Tag (60 Tage davor) gegen 1,57 %/Tag (60 Tage danach); der Anstieg auf über 5 %/Tag kommt erst mit den großen Bewegungen ab Februar 2024
Coffee	2024er Brazil-Drought (Beginn 2024-09)	flach in den 30 Handelstagen vor dem größten Tagesausschlag (Verhältnis zum 60-Tage-Trend: 0,97)
Sugar	2023er India-Export-Curb (Beginn 2023-09)	flach vor dem größten Tagesausschlag (0,97); Anstieg um Faktor 1,45 erst in den Tagen danach
Cotton	2022er Supply-Shock (Beginn 2022-05)	Anstieg um Faktor 3,2 erst am größten Tagesausschlag (2022-06-24), nicht davor

Das Muster ist über alle vier Commodities dasselbe: Die bedingte Volatilität zieht nach, wenn die Bewegung da ist. Sie kündigt sie nicht an. Ob sich aus dem Signal mit anderen Auswerte-Verfahren dennoch Vorlauf gewinnen lässt, und wo solche Vorlaufzeit-Metriken methodisch brechen, behandeln wir vollständig im Folge-Artikel zur zweiten Modell-Schicht.

Cocoa - die bedingte Volatilität folgt der Bewegung, sie läuft ihr nicht voraus. — Abbildung 1. Cocoa, September 2022 bis Juni 2024. Oben: tägliche Returns mit der 1-Tag-VaR-Prognose des Modells (95 % orange, 99 % rot). Unten: die bedingte Volatilität aus dem GJR-GARCH-t-Modell. Am dokumentierten Episodenbeginn (gestrichelte Linie, September 2023) liegt sie unverändert bei rund 1,5 %/Tag; sie steigt erst ab Februar 2024 mit den großen Tagesbewegungen und erreicht um das Allzeithoch (gepunktete Linie, 19. April 2024) über 5 %/Tag. Reproduzierbar aus dem Companion-Repository über `make reproduce`.

Bedingte Volatilität um jeden der vier Episodenbeginne - das Niveau bewegt sich am Beginn nicht. — Abbildung 2. Dieselbe Sicht für alle vier Commodities: die bedingte Volatilität jeweils zwölf Monate vor bis sechs Monate nach dem dokumentierten Episodenbeginn (gestrichelte Linie). Die 60-Tage-Mittel vor gegen nach dem Beginn: Cocoa 1,52 gegen 1,57, Coffee 2,33 gegen 2,21, Sugar 1,79 gegen 1,66, Cotton 1,77 gegen 3,41 Prozent pro Tag - bei Cotton liegt der große Tagesausschlag vom 24.06.2022 innerhalb der 60 Folgetage, der Anstieg kommt also mit der Bewegung, nicht vor ihr.

Das ist keine Überraschung und kein Versagen, und es ist auch keine neue Erkenntnis: Die Reaktivität klassischer GARCH-Modelle ist Lehrbuchwissen. Der Wert dieser Arbeit liegt darin, dass der Befund hier vorab registriert, über vier Märkte identisch gemessen und vollständig reproduzierbar vorliegt. Es ist der erwartete Befund für ein klassisches GARCH-Modell ohne Regime-Detektion. Wer mit ihm operativ arbeitet, hat ein verteidigbares Risiko-Quantil über Aggregat-Perioden. Er hat aber kein Modell, das vor dem Episodenbeginn anschlägt.

Eine weitere Größenordnung, die zum ehrlichen Bild gehört: Der Out-of-Sample-R² gegen Squared-Returns liegt für alle vier Commodities zwischen −0,01 und +0,03. Das ist seit Andersen/Bollerslev 1998 bekanntes Verhalten und gehört zu jeder methodisch ehrlichen Diskussion von GARCH-Güte. Squared-Returns sind ein notorisch rauschiger Proxy für realisierte Volatilität.

4 · Was daraus folgt und was als nächstes gebaut wird

Aus dem Cross-Asset-Befund folgt eine klare methodische Position:

Ein einzelnes GARCH ist eine notwendige, aber keine hinreichende Komponente. Es liefert die VaR-Disziplin, aber keine Frühwarnung. Wer eine Frühwarnung will, braucht dafür eine zweite Schicht. Dieser Befund ist über vier Commodities hinweg konsistent. Er ist also keine Eigenheit eines Einzelfalls, sondern eine strukturelle Eigenschaft der GARCH-Familie.

Die Literatur kennt drei Hauptkandidaten für die zweite Schicht:

Markov-Switching-GARCH (Hamilton/Susmel 1994) - explizite Regime-Detektion über latente Markov-Zustände
Hidden-Markov-Modelle direkt auf Returns (Rabiner 1989; ökonometrische Regime-Switching-Tradition: Hamilton 1989) - Regime-Detektion ohne explizite Volatilitäts-Modellierung
GARCH-MIDAS mit exogenen Niedrig-Frequenz-Faktoren (Engle/Ghysels/Sohn 2013) - Integration von Wetter-, COT- und Macro-Daten in die Volatilitäts-Spezifikation

Diese drei Stränge sind in unserem Forschungs-Programm als Folgestufen geplant. Eine literatur-fundierte Erwartung für die Vorlaufzeit einer kombinierten HMM-plus-GARCH-MIDAS-Architektur liegt im Bereich von einer bis vier Wochen vor einem Krisen-Regime-Wechsel (Ang/Bekaert 2002, Pan/Wu 2020).

Wir behaupten heute keine eigenen Vorlaufzeit-Zahlen für diese Modelle. Sie existieren in unseren Backtests noch nicht. Wenn sie existieren, bekommt die nächste Schicht ein eigenes Begleit-Repository, und dieser Artikel wird durch eine methodologische Ergänzung erweitert, in der die echten Backtest-Zahlen mit Reproducibility-Hash veröffentlicht werden.

5 · Steel-Man: „Foundation-Modelle hätten es besser können“

Plausible Gegenposition: „Statt klassisches GARCH zu bauen, sollten Sie ein Time-Series-Foundation-Modell verwenden, etwa TimesFM, Chronos oder Moirai.“ Der Reflex ist verständlich. Drei Antworten:

Volatilität ist keine Preis-Prognose. Foundation-Modelle sind auf Preis-Niveau-Prognosen trainiert, nicht auf bedingte Varianz. Die Übertragung auf Volatilitäts-Targets ist methodisch nicht trivial und in der Literatur noch ungeklärt.
Reproduzierbarkeit ist Bestandteil der Disziplin. GARCH-Familien sind seit dreißig Jahren in der Risk-Forschung etabliert. Wer einen GARCH-Backtest publiziert, kann auf eine konsistente Methoden-Tradition verweisen. Bei Foundation-Modellen müssen wir vieles selbst stabilisieren.
Beides ist sinnvoll, in dieser Reihenfolge. Eine spätere Stufe unseres Programms ist ausdrücklich der Foundation-Modell-Schicht gewidmet, mit einer eigenständigen Leakage-Detection-Prüfung. Die Baseline kommt zuerst.

6 · Was dieser Artikel nicht leistet

Vier methodische Vorbehalte, die zum redlichen Bild gehören:

Eine Stress-Episode pro Commodity. Die Pre-Crisis-Fenster-Auswertung beruht pro Commodity auf einer einzigen Stress-Episode. Eine echte Validierung verlangt mehrere Episoden pro Asset. Eine Episode ist keine Stichprobe.
Look-Ahead in der Event-Definition. Wir wissen jetzt, welche Episoden stress waren. Ein Modell, das in Echtzeit gewarnt hätte, hätte das Datum nicht vorab gekannt.
Modell-Spezifikation ist fest. Wir verwenden für alle vier Commodities GJR(1,1)-t, keine Asset-spezifische Suche. Das ist Disziplin gegen Daten-Snooping, kein Modell-Mangel.
Datenqualität via Yahoo. Yahoo Continuous Futures sind methodisch ausreichend, aber keine Tier-1-Marktdaten. Für produktive Risk-Anwendungen ist ein lizenzierter kommerzieller Daten-Feed vorzuziehen.

Die vollständige Limitations-Liste mit weiteren Punkten (Roll-Mechanik, Backend-Abhängigkeit der Optimierung, fehlende Cross-Korrelations-Auswertung) steht in docs/limitations.md im Begleit-Repository.

Zwei Punkte sind im Zuge des wissenschaftlichen Audits vom 11. Juni 2026 hinzugekommen und gehören dauerhaft zum ehrlichen Bild:

Der Kalibrierungs-Zeitraum ist nicht krisenfrei. Die Schwellen-Kalibrierung nutzt die Jahre 2019-2020 als ruhige Referenz; das COVID-Frühjahr 2020 liegt darin. Die Kalibrierung ist dadurch konservativ; Detektions-Aussagen sind eher unter- als überschätzt.
Eine Stress-Episode pro Commodity. Jede episodenbezogene Aussage stützt sich auf genau ein Ereignis je Markt. Die Validierung gegen weitere historische Episoden steht aus.

7 · Reading List

Glosten/Jagannathan/Runkle 1993, Relationship between Expected Value and Volatility - die GJR-GARCH-Original-Arbeit.
Bollerslev 1986, Generalized Autoregressive Conditional Heteroskedasticity - die GARCH-Familie.
Andersen/Bollerslev 1998, Answering the Skeptics - die methodische Diskussion der Squared-Return-Proxy-Frage.
Kupiec 1995, Techniques for Verifying the Accuracy of Risk Measurement Models - Kupiec-POF.
Christoffersen 1998, Evaluating Interval Forecasts - Christoffersen-CC.
Hamilton 1989, A New Approach to the Economic Analysis of Nonstationary Time Series - HMM-Original, Anker der nächsten Forschungs-Stufe.
Engle/Ghysels/Sohn 2013, Stock Market Volatility and Macroeconomic Fundamentals - GARCH-MIDAS-Original.

Zugehörige Artikel

Die zweite Schicht: Was ein Regime-Modell wirklich an Vorlaufzeit liefert - der Folge-Artikel, der die hier angekündigte zweite Modell-Schicht einlöst.
Ein Truth-Check-Protokoll für AI-Forschungs-Output - die methodische Review-Vorlage, die wir auf jede veröffentlichte Behauptung anwenden.

Begleit-Repository

myBytesResearch/soft-commodities-forecast-benchmark - vollständiger Code, alle vier Commodity-Konfigurationen, Diagnostics-JSON pro Asset, ausführliches Forschungs-Notebook, MLflow-Tracking, make reproduce-Pipeline. Privat zum Veröffentlichungs-Zeitpunkt; der Sichtbarkeits-Flip auf public ist eine eigene Entscheidung.

Disclaimer

Dieser Artikel beschreibt einen Walk-Forward-Backtest aus unserer eigenen Forschungs-Praxis. Er ist keine Anlage- und keine Hedging-Empfehlung. Die genannten Backtest-Zahlen beziehen sich auf eine spezifische Test-Setup-Konfiguration und sind nicht ohne weiteres auf andere Anwendungs-Szenarien übertragbar.

Independent Reviewer: offene Einladung. Companion Repository soft-commodities-forecast-benchmark mit make reproduce-Pipeline, MLflow-Tracking, Diagnostics-JSON pro Commodity, ausführlichem Forschungs-Notebook und eigenständigen Methodologie- und Limitations-Dokumenten.