Alle Research-Artikel

E-Commerce Intelligence

Warum fast perfekte Conversion-Modelle meist den Warenkorb nacherzählen

Auf echten Shop-Daten nachgebaut: Die fast perfekte Conversion-AUC ist zum großen Teil eine Selbstverständlichkeit. Was im Betrieb zählt, ist die ehrliche Frühvorhersage, nicht die Glanzzahl vom Sitzungsende.

Auf Vertriebsfolien taucht regelmäßig dieselbe Zahl auf: ein Modell, das die Kaufwahrscheinlichkeit einer Sitzung mit einer ROC-AUC nahe der Perfektion vorhersagt. Wir haben das auf echten Shop-Daten nachgebaut und die hohe Zahl reproduziert. Sie ist aber zum größten Teil eine Selbstverständlichkeit, und das entscheidet darüber, ob ein solches Modell im Betrieb etwas wert ist.

1 · Die Datenbasis und ein Vorbehalt, der alles rahmt

Grundlage ist der Datensatz des Data Mining Cup 2013, anonymisierte echte Daten eines Online-Shops mit rund 50.000 Sitzungen und 429.000 Klick-Datensätzen. Pro Sitzung ist vermerkt, ob am Ende eine Bestellung stand. Zwei Dinge sind vorab wichtig, damit niemand die Zahlen falsch liest:

Erstens ist das kein Mode-Datensatz. Die Aufgabenbeschreibung spricht von einem allgemeinen Online-Shop ohne Branche. Dieser Artikel ist deshalb eine allgemeine E-Commerce-Studie, deren Methodik auf jeden sitzungsbasierten Shop übertragbar ist.

Zweitens, und das ist der häufigste Fehlschluss: Die Bestellquote im Datensatz liegt bei 46 Prozent. Das ist keine echte Funnel-Conversion. Reale Online-Shops wandeln im niedrigen einstelligen Prozentbereich um. Die 46 Prozent sind eine kuratierte Wettbewerbs-Population, in der bereits stark vorgefilterte Sitzungen stehen. Wer diese Zahl als Conversion-Benchmark zitiert, vergleicht Äpfel mit einer Wettbewerbs-Auswahl.

2 · Die Leakage-Falle, die die schöne Zahl erzeugt

Eine Sitzung besteht aus vielen Klick-Datensätzen, die alle dasselbe Sitzungs-Label tragen. Wer hier zufällig oder zeilenweise in Training und Test aufteilt, hat dieselbe Sitzung auf beiden Seiten. Das Modell lernt dann die Antwort auswendig. Sauber ist nur ein Schnitt entlang der Sitzungen, nicht entlang der Zeilen. Wir teilen nach Sitzungsnummer: die älteren 80 Prozent ins Training, die neueren 20 Prozent in den Test.

Selbst dann erscheint zunächst die beeindruckende Zahl. Ein Gradient-Boosting-Modell auf dem Endzustand der Sitzung erreicht eine AUC von 0,961. Der Haken steckt in den Warenkorb-Merkmalen. Am Ende einer Sitzung verrät der Stand des Warenkorbs fast schon, ob bestellt wurde. Nehmen wir den Warenkorb-Block aus den Merkmalen heraus, fällt dieselbe Vorhersage auf eine AUC von 0,860. Gut zehn AUC-Punkte der Glanzzahl sind also nicht Weitsicht, sondern eine Umformulierung des Ergebnisses.

Ohne den Warenkorb-Block fällt die Conversion-AUC von 0,961 auf 0,860, nahe der frühen Vorhersage.
Abbildung 1. Die fast perfekte Endzustands-AUC ist größtenteils Warenkorb-Tautologie: ohne den Warenkorb-Block fällt sie von 0,961 auf 0,860, dort wo die frühe Vorhersage ohnehin schon liegt.

3 · Was wirklich handlungsfähig ist

Interessant für den Betrieb ist nicht die Vorhersage am Sitzungsende, sondern die frühe Vorhersage: Was lässt sich schon nach der ersten Interaktion sagen, zu einem Zeitpunkt, an dem ein Eingriff, etwa ein Hinweis oder ein Gutschein, noch etwas ändern kann? Genau hier liegt die ehrliche Zahl. Ein Modell allein auf der ersten Transaktion einer Sitzung erreicht eine AUC von 0,848. Das ist solide und brauchbar, und es liegt fast gleichauf mit dem vollen Modell ohne Warenkorb-Block.

Die Botschaft an Entscheider ist damit klar: Die Zahl, auf der man eine Intervention plant, ist die 0,85 der frühen Vorhersage, nicht die 0,96 vom Sitzungsende. Letztere ist auf der Folie schön und im Betrieb wertlos, weil sie erst dann sicher ist, wenn die Entscheidung des Kunden ohnehin gefallen ist.

4 · Die stärkste Gegenposition

Die stärkste Gegenrede: Auch die späte, warenkorbgetriebene Vorhersage hat einen Nutzen, etwa um eine fast fertige Bestellung mit einem Cross-Selling-Vorschlag zu begleiten oder einen ins Stocken geratenen Bezahlvorgang zu retten. Das stimmt, und deshalb verwerfen wir das volle Modell nicht. Der Punkt ist ein anderer: Man darf die warenkorbgetriebene AUC nicht als Beleg für Frühwarnung verkaufen. Zwei verschiedene Aufgaben, zwei verschiedene Zahlen, zwei verschiedene Eingriffszeitpunkte.

5 · Was dieser Artikel nicht abdeckt

Wir nennen bewusst keine Euro-Ersparnis. Der Datensatz enthält keinen sauberen Anker für Marge oder Bestellwert, und eine erfundene Zahl wäre genau der unredliche Schritt, den dieser Artikel kritisiert. Berichtet werden Vorhersagegüte und der Leakage-Abstand, nicht ein konstruierter Geschäftsnutzen. Außerdem gilt: ein einzelner, anonymisierter Shop; eine Wettbewerbs-Population statt eines realen Funnels; und kein Kausalmodell der Intervention.

Reproduzierbarkeit

Sämtliche Zahlen entstehen aus dem öffentlichen DMC-2013-Datensatz über die Skripte und das Notebook im Companion-Repository ecommerce-conversion-prediction. Die Rohdaten werden aus Lizenzgründen nicht mitgeliefert, sondern per Loader aus dem Kaggle-Download reproduziert.

Hinweis

Dies ist keine Rechts- oder Unternehmensberatung, sondern ein methodischer Forschungsstand auf einem öffentlichen Datensatz (Stand der Recherche: Juni 2026). Die Bestellquote des Datensatzes ist ein Wettbewerbs-Artefakt und kein übertragbarer Conversion-Maßstab; Kennzahlen und Annahmen sind vor einer betrieblichen Entscheidung an den eigenen Zahlen zu prüfen.

Quellen

  • Data Mining Cup 2013, Aufgabenstellung „Prediction of orders" (prudsys): Szenario, Sitzungs- und Bestellbegriff, Aufgaben 1 und 2 (Aufgaben-PDF im Datensatz).
  • Datengrundlage: Data Mining Cup 2013, öffentlicher Kaggle-Spiegel (oscarm524/prediction-of-orders).
Independent Reviewer: offene Einladung. Companion-Repository ecommerce-conversion-prediction mit EDA, Modell, Leakage-freier Sitzungs-Aufteilung und Notebook; Zahlen reproduzierbar aus dem DMC-2013-Datensatz.