E-Commerce Intelligence
Warum fast perfekte Conversion-Modelle meist den Warenkorb nacherzählen
Auf echten Shop-Daten nachgebaut: Die fast perfekte Conversion-AUC ist zum großen Teil eine Selbstverständlichkeit. Was im Betrieb zählt, ist die ehrliche Frühvorhersage, nicht die Glanzzahl vom Sitzungsende.
Auf Vertriebsfolien taucht regelmäßig dieselbe Zahl auf: ein Modell, das die Kaufwahrscheinlichkeit einer Sitzung mit einer ROC-AUC nahe der Perfektion vorhersagt. Wir haben das auf echten Shop-Daten nachgebaut und die hohe Zahl reproduziert. Sie ist aber zum größten Teil eine Selbstverständlichkeit, und das entscheidet darüber, ob ein solches Modell im Betrieb etwas wert ist.
1 · Die Datenbasis und ein Vorbehalt, der alles rahmt
Grundlage ist der Datensatz des Data Mining Cup 2013, anonymisierte echte Daten eines Online-Shops mit rund 50.000 Sitzungen und 429.000 Klick-Datensätzen. Pro Sitzung ist vermerkt, ob am Ende eine Bestellung stand. Zwei Dinge sind vorab wichtig, damit niemand die Zahlen falsch liest:
Erstens ist das kein Mode-Datensatz. Die Aufgabenbeschreibung spricht von einem allgemeinen Online-Shop ohne Branche. Dieser Artikel ist deshalb eine allgemeine E-Commerce-Studie, deren Methodik auf jeden sitzungsbasierten Shop übertragbar ist.
Zweitens, und das ist der häufigste Fehlschluss: Die Bestellquote im Datensatz liegt bei 46 Prozent. Das ist keine echte Funnel-Conversion. Reale Online-Shops wandeln im niedrigen einstelligen Prozentbereich um. Die 46 Prozent sind eine kuratierte Wettbewerbs-Population, in der bereits stark vorgefilterte Sitzungen stehen. Wer diese Zahl als Conversion-Benchmark zitiert, vergleicht Äpfel mit einer Wettbewerbs-Auswahl.
2 · Die Leakage-Falle, die die schöne Zahl erzeugt
Eine Sitzung besteht aus vielen Klick-Datensätzen, die alle dasselbe Sitzungs-Label tragen. Wer hier zufällig oder zeilenweise in Training und Test aufteilt, hat dieselbe Sitzung auf beiden Seiten. Das Modell lernt dann die Antwort auswendig. Sauber ist nur ein Schnitt entlang der Sitzungen, nicht entlang der Zeilen. Wir teilen nach Sitzungsnummer: die älteren 80 Prozent ins Training, die neueren 20 Prozent in den Test.
Selbst dann erscheint zunächst die beeindruckende Zahl. Ein Gradient-Boosting-Modell auf dem Endzustand der Sitzung erreicht eine AUC von 0,961. Der Haken steckt in den Warenkorb-Merkmalen. Am Ende einer Sitzung verrät der Stand des Warenkorbs fast schon, ob bestellt wurde. Nehmen wir den Warenkorb-Block aus den Merkmalen heraus, fällt dieselbe Vorhersage auf eine AUC von 0,860. Gut zehn AUC-Punkte der Glanzzahl sind also nicht Weitsicht, sondern eine Umformulierung des Ergebnisses.
3 · Was wirklich handlungsfähig ist
Interessant für den Betrieb ist nicht die Vorhersage am Sitzungsende, sondern die frühe Vorhersage: Was lässt sich schon nach der ersten Interaktion sagen, zu einem Zeitpunkt, an dem ein Eingriff, etwa ein Hinweis oder ein Gutschein, noch etwas ändern kann? Genau hier liegt die ehrliche Zahl. Ein Modell allein auf der ersten Transaktion einer Sitzung erreicht eine AUC von 0,848. Das ist solide und brauchbar, und es liegt fast gleichauf mit dem vollen Modell ohne Warenkorb-Block.
Die Botschaft an Entscheider ist damit klar: Die Zahl, auf der man eine Intervention plant, ist die 0,85 der frühen Vorhersage, nicht die 0,96 vom Sitzungsende. Letztere ist auf der Folie schön und im Betrieb wertlos, weil sie erst dann sicher ist, wenn die Entscheidung des Kunden ohnehin gefallen ist.
4 · Die stärkste Gegenposition
Die stärkste Gegenrede: Auch die späte, warenkorbgetriebene Vorhersage hat einen Nutzen, etwa um eine fast fertige Bestellung mit einem Cross-Selling-Vorschlag zu begleiten oder einen ins Stocken geratenen Bezahlvorgang zu retten. Das stimmt, und deshalb verwerfen wir das volle Modell nicht. Der Punkt ist ein anderer: Man darf die warenkorbgetriebene AUC nicht als Beleg für Frühwarnung verkaufen. Zwei verschiedene Aufgaben, zwei verschiedene Zahlen, zwei verschiedene Eingriffszeitpunkte.
5 · Was dieser Artikel nicht abdeckt
Wir nennen bewusst keine Euro-Ersparnis. Der Datensatz enthält keinen sauberen Anker für Marge oder Bestellwert, und eine erfundene Zahl wäre genau der unredliche Schritt, den dieser Artikel kritisiert. Berichtet werden Vorhersagegüte und der Leakage-Abstand, nicht ein konstruierter Geschäftsnutzen. Außerdem gilt: ein einzelner, anonymisierter Shop; eine Wettbewerbs-Population statt eines realen Funnels; und kein Kausalmodell der Intervention.
Reproduzierbarkeit
Sämtliche Zahlen entstehen aus dem öffentlichen DMC-2013-Datensatz über die Skripte und das Notebook im
Companion-Repository
ecommerce-conversion-prediction.
Die Rohdaten werden aus Lizenzgründen nicht mitgeliefert, sondern per Loader aus dem Kaggle-Download
reproduziert.
Hinweis
Dies ist keine Rechts- oder Unternehmensberatung, sondern ein methodischer Forschungsstand auf einem öffentlichen Datensatz (Stand der Recherche: Juni 2026). Die Bestellquote des Datensatzes ist ein Wettbewerbs-Artefakt und kein übertragbarer Conversion-Maßstab; Kennzahlen und Annahmen sind vor einer betrieblichen Entscheidung an den eigenen Zahlen zu prüfen.Quellen
- Data Mining Cup 2013, Aufgabenstellung „Prediction of orders" (prudsys): Szenario, Sitzungs- und Bestellbegriff, Aufgaben 1 und 2 (Aufgaben-PDF im Datensatz).
- Datengrundlage: Data Mining Cup 2013, öffentlicher Kaggle-Spiegel (
oscarm524/prediction-of-orders).