Fashion Intelligence

Was Größen-Empfehlung wirklich gegen Retouren ausrichtet

Das Anbieter-Versprechen „25 Prozent weniger Retouren durch personalisierte Größen-Empfehlung", auf 2,33 Millionen echten Bestellposten ehrlich vermessen: der Mechanismus wirkt, der Hebel ist nur viel kleiner.

Guido Winger

6 Min. Lesezeit

Ein verbreitetes Anbieter-Versprechen lautet: personalisierte Größen-Empfehlung senkt Retouren um 25 Prozent. Wir haben den Mechanismus auf 2,33 Millionen echten Bestellposten nachgerechnet. Er ist real, aber der Hebel ist deutlich kleiner als beworben, und der Grund liegt nicht im Modell, sondern in der Frage, was überhaupt ein Größenproblem ist.

1 · Bracketing ist groß, aber nicht überall ein Größenproblem

Der Mechanismus heißt Größen-Bracketing: Kunden bestellen denselben Artikel in mehreren Größen, behalten eine, schicken den Rest zurück. Im Datensatz sind 16,6 Prozent aller Posten solche Brackets, mit einer Retouren-Quote von 73 Prozent; sie machen 23,5 Prozent aller Retouren aus. Das ist der Topf, den eine Größen-Empfehlung theoretisch adressieren könnte.

Nur ist nicht jeder Bracket ein Größenproblem. Sieht man sich an, wie viele Größen am Ende behalten werden, zerfällt der Topf:

50,5 Prozent der Brackets: nichts behalten. Das ist ein Produkt- oder Geschmacksproblem, das keine Größenlogik löst.
40,5 Prozent: genau eine Größe behalten. Nur das ist überhaupt ein Größenproblem, das eine Empfehlung lösen könnte.
7,5 Prozent behalten zwei, 1,2 Prozent drei Größen.

Erst diese Trennung macht die Rechnung ehrlich. Adressierbar sind allein die Brackets mit genau einer behaltenen Größe, im Test-Zeitraum 17.352 Stück.

2 · Der Empfehler, leakage-frei gebaut

Der personalisierte Größen-Empfehler lernt aus der Vergangenheit: die typische behaltene Größe jedes Kunden je Produktgruppe, nur aus früheren Bestellungen. Fehlt diese Historie, fällt er auf die am häufigsten behaltene Größe des Artikels zurück, danach auf einen globalen Standard. Alles auf einer zeitlichen Aufteilung gebaut, damit nichts aus der Zukunft in die Empfehlung sickert. Die Kunden-Historie deckt 34,8 Prozent der Fälle ab.

Sauber gemessen trifft der personalisierte Empfehler die tatsächlich behaltene Größe in 28,8 Prozent der Fälle, gegenüber 19,1 Prozent bei einer reinen Artikel-Baseline (die immer die am häufigsten behaltene Größe des Artikels empfiehlt). Personalisierung wirkt also nachweisbar, der Abstand ist deutlich.

3 · Was real einfangbar ist, und was nicht

Jetzt die ehrliche Obergrenze. Selbst wenn der Empfehler jeden adressierbaren Bracket richtig träfe, lägen das 6,9 Prozent aller Retouren (die 17.352 adressierbaren Brackets entsprechen 20.607 vermeidbaren Rücksendungen). Das ist die Decke, nicht das Ergebnis.

Realistisch, mit der gemessenen Trefferquote, fängt der personalisierte Empfehler rund 2,0 Prozent aller Retouren ein; die Artikel-Baseline kommt auf 1,3 Prozent. Der Mehrwert der Personalisierung ist real (2,0 gegenüber 1,3), aber die Größenordnung ist eine andere als das 25-Prozent-Versprechen.

25 Prozent sind mit Größen-Empfehlung allein nicht erreichbar, und zwar nicht, weil das Modell zu schwach wäre, sondern weil nur gut 40 Prozent der Brackets überhaupt ein Größenproblem sind und die Hälfte (nichts behalten) keines ist.

4 · Die stärkste Gegenposition

Die stärkste Gegenrede: Mit echten Passform- und Körperdaten ginge mehr. Das stimmt. Unser Empfehler nutzt nur Kauf- und Behalteverhalten, keine Garment-Maße, keine Körperdaten. Ein Passform-Berater mit echten Maßen könnte die Trefferquote heben, und in Premium-Sortimenten mit hohem Retouren-Kostensatz lohnt sich das früher. Was wir zeigen, ist die Grenze dessen, was allein aus Bestelldaten erreichbar ist, sauber gemessen, ohne den 25-Prozent-Aufschlag.

5 · Was dieser Artikel nicht abdeckt

Keine Passform- oder Körperdaten, nur Kauf- und Retouren-Verhalten. Kein gemessener Interventionseffekt: dass die zusätzlichen Retouren verschwinden, wenn die behaltene Größe allein bestellt worden wäre, ist die Bracketing-Logik, kein kausaler Beweis. Ein einzelner Händler-Datensatz (DMC 2016), keine Branchen-Verallgemeinerung.

Reproduzierbarkeit

Sämtliche Zahlen entstehen aus dem öffentlichen DMC-2016-Datensatz über das Companion-Repository fashion-size-fit-prediction (Bracket-Zerlegung auf den Voll-Daten, Empfehler auf der zeitlichen Aufteilung; results/size_metrics.json hält die hier zitierten Werte). Die Rohdaten werden aus Lizenzgründen nicht mitgeliefert, sondern per Loader aus dem Kaggle-Download reproduziert.

→ Die wirtschaftliche Einordnung (was eine Retoure kostet, ab wann Prävention sich lohnt) steht im Schwester-Artikel Was Retouren in Mode wirklich kosten.

Hinweis

Dies ist keine Rechts- oder Unternehmensberatung, sondern ein methodischer Forschungsstand auf einem öffentlichen Datensatz (Stand der Recherche: Juni 2026). Quoten und Annahmen sind vor einer betrieblichen Entscheidung an den eigenen Zahlen zu prüfen.

Quellen

Datengrundlage: Data Mining Cup 2016 (Online-Fashion-Retouren), via Kaggle.
Schwester-Artikel mit der Kostenrechnung: Was Retouren in Mode wirklich kosten.

Independent Reviewer: offene Einladung. Companion-Repository fashion-size-fit-prediction mit Bracket-Zerlegung, leakage-freiem personalisiertem Größen-Empfehler und committeten Metriken; Zahlen reproduzierbar aus dem DMC-2016-Datensatz.