Geo-Holdout Tests: Die smarteste Methode lokale Ads zu messen

Jeder Filialist kennt die Frage: "Bringt unsere Werbung wirklich mehr Kunden in den Laden — oder wären die sowieso gekommen?"

Es ist die wichtigste Frage im lokalen Marketing. Und die meisten können sie nicht beantworten. Denn Store Visit Attribution sagt dir, dass Leute nach einem Ad-Kontakt im Laden waren. Aber nicht, ob die Ad der Grund war.

Geo-Holdout Tests beantworten genau diese Frage. Sie sind die wissenschaftlich sauberste Methode, den echten — den inkrementellen — Impact deiner lokalen Werbung zu messen. Und sie sind einfacher als du denkst.

Das Prinzip: Testgruppe vs. Kontrollgruppe

Die Idee hinter einem Geo-Holdout Test ist bestechend simpel. Du teilst deine Standorte in zwei Gruppen:

Treatment-Gruppe: Diese Standorte bekommen Werbung wie gewohnt. Google Ads, Meta Ads, DOOH — was immer du schaltest.
Holdout-Gruppe: Diese Standorte bekommen keine Werbung. Zero. Nichts. Du schaltest die Ads in diesen Regionen komplett ab.

Nach einer definierten Testperiode vergleichst du die Ergebnisse. Wenn die Treatment-Gruppe 12% mehr Umsatz macht als die Holdout-Gruppe, dann sind diese 12% der inkrementelle Effekt deiner Werbung. Nicht modelliert. Nicht hochgerechnet. Gemessen.

Das ist der Goldstandard der Werbewirkungsmessung. Es ist das Äquivalent einer randomisierten kontrollierten Studie in der Medizin. Nur dass du statt Pillen Werbung testest.

Warum Geo-Holdout besser ist als Attribution

Attribution — egal ob Store Visit Attribution, Last-Click oder Multi-Touch — hat ein fundamentales Problem: Sie zeigt Korrelation, nicht Kausalität.

Jemand sieht deine Anzeige und geht danach in den Laden. War die Anzeige der Grund? Oder hätte die Person sowieso eingekauft? Vielleicht hat sie die Filiale auf dem Weg zur Arbeit gesehen. Vielleicht hat ein Freund sie empfohlen. Vielleicht war sie immer Stammkunde.

Attribution kann diese Frage nicht beantworten. Geo-Holdout Tests schon. Weil du eine Kontrollgruppe hast. Weil du weißt, was ohne Werbung passiert. Und die Differenz — das ist der echte Wert deiner Werbung.

Der Setup-Guide: So planst du einen Geo-Holdout Test

Schritt 1: Gruppen bilden.

Teile deine Standorte in Treatment und Holdout auf. Wichtig: Die Gruppen müssen vergleichbar sein. Nicht alle starken Filialen in Treatment und alle schwachen in Holdout. Bilde Paare: Für jeden Treatment-Standort ein ähnlicher Holdout-Standort (ähnlicher Umsatz, ähnliche Region, ähnliche Größe).

Empfohlener Split:

80/20: 80% Treatment, 20% Holdout. Standard-Split. Genug Holdout-Daten, minimaler Umsatzverlust.
70/30: Wenn du statistisch höhere Sicherheit willst. Mehr Holdout-Daten, aber auch mehr entgangener Umsatz.
50/50: Maximal belastbar, aber du verlierst die Hälfte deines Werbeumsatzes für den Testzeitraum. Nur für große Budgets und mutige CMOs.

Schritt 2: Baseline messen.

Bevor du den Test startest: Miss 4-8 Wochen die Performance aller Standorte ohne Veränderung. Du brauchst eine Baseline. Wie viel Umsatz macht jeder Standort normalerweise? Gibt es saisonale Schwankungen? Unterschiede zwischen Wochentagen?

Die Baseline ist entscheidend. Wenn du keine saubere Baseline hast, weißt du nicht, ob die Differenz während des Tests von der Werbung kommt — oder von einem Zufallseffekt.

Schritt 3: Test starten.

Schalte die Werbung in den Holdout-Regionen komplett ab. Wirklich komplett. Kein "wir reduzieren das Budget auf 50%". Keine halbherzigen Maßnahmen. Holdout heißt Holdout.

In den Treatment-Regionen läuft alles wie gewohnt. Ändere nichts an den Kampagnen, am Budget, an den Creatives. Du willst den Effekt der Werbung messen, nicht den Effekt von Kampagnen-Änderungen.

Schritt 4: Laufzeit definieren.

Mindestens 4 Wochen. Idealerweise 6-8 Wochen. Warum so lange?

Woche 1-2: Nachholeffekte. Kunden die schon Ads gesehen hatten, kaufen noch ein. Die Holdout-Gruppe hat noch "Restimpulse".
Woche 3-4: Der echte Unterschied zeigt sich. Die Holdout-Gruppe normalisiert sich auf das Niveau ohne Werbung.
Woche 5-8: Statistische Signifikanz wird erreicht. Du hast genug Datenpunkte für belastbare Aussagen.

Wichtig: Vermeide Tests über Saisonwechsel, Feiertage oder besondere Aktionen (Black Friday, Weihnachten). Diese Störfaktoren verfälschen die Ergebnisse.

Schritt 5: Ergebnisse auswerten.

Vergleiche den Umsatz (oder die Store Visits, oder die Neukunden) der Treatment-Gruppe mit der Holdout-Gruppe. Berechne den Lift:

Inkrementeller Lift = (Treatment-Umsatz pro Standort - Holdout-Umsatz pro Standort) / Holdout-Umsatz pro Standort

Beispiel: Treatment-Standorte machen im Schnitt 142.000 Euro Umsatz pro Monat. Holdout-Standorte machen 128.000 Euro. Inkrementeller Lift: (142.000 - 128.000) / 128.000 = 10,9%. Deine Werbung generiert also 10,9% mehr Umsatz als du ohne Werbung hättest.

Die statistische Absicherung

Ein Lift von 10,9% klingt gut. Aber ist er real — oder Zufall?

Dafür brauchst du einen Signifikanztest. Die gängigste Methode: Ein zweiseitiger t-Test auf die Umsatzdifferenz pro Standort zwischen Treatment und Holdout.

Die Faustregeln:

p-Wert unter 0,05: Das Ergebnis ist mit 95% Wahrscheinlichkeit kein Zufall. Standard in der Branche.
p-Wert unter 0,10: Immer noch brauchbar als Indikation. Nicht perfekt, aber besser als Bauchgefühl.
p-Wert über 0,10: Nicht signifikant. Du brauchst entweder mehr Standorte, einen längeren Testzeitraum oder einen größeren Effekt.

Wie viele Standorte brauchst du für Signifikanz? Es hängt vom erwarteten Effekt ab. Als Orientierung:

Erwarteter Lift 5%: Du brauchst mindestens 50-60 Standorte.
Erwarteter Lift 10%: Du brauchst mindestens 25-30 Standorte.
Erwarteter Lift 20%+: 15-20 Standorte können reichen.

Die häufigsten Fehler

Fehler 1: Holdout-Gruppe ist nicht vergleichbar. Wenn alle deine besten Standorte in Treatment und alle schwachen in Holdout sind, misst du den Standort-Effekt, nicht den Werbe-Effekt. Lösung: Stratified Randomization — bilde Paare aus ähnlichen Standorten.

Fehler 2: Testperiode zu kurz. 2 Wochen reichen nicht. Du brauchst mindestens 4, besser 6-8 Wochen. Geduld ist der Preis für valide Ergebnisse.

Fehler 3: Holdout ist nicht sauber. Jemand im Team "vergisst", die Ads für die Holdout-Region auszuschalten. Oder eine nationale Kampagne läuft weiter und strahlt in die Holdout-Region aus. Lösung: Klare Dokumentation, tägliches Monitoring.

Fehler 4: Zu viele Variablen gleichzeitig. Während des Tests änderst du auch noch das Creative, erhöhst das Budget und launchst eine neue Promo. Jetzt weißt du gar nichts mehr. Ein Test, eine Variable.

Was du mit den Ergebnissen machst

Ein valider Geo-Holdout Test gibt dir die mächtigste Zahl im lokalen Marketing: den inkrementellen Wert deiner Werbung. Damit kannst du:

Budget rechtfertigen: "Unsere Werbung generiert 10,9% mehr Umsatz. Bei einem Gesamtumsatz von 12 Mio. Euro sind das 1,3 Mio. Euro inkrementeller Umsatz. Unser Werbebudget: 200.000 Euro. Inkrementeller ROAS: 6,5x."
Budget optimieren: Teste verschiedene Budget-Levels. Wie viel inkrementeller Lift kommt bei 50% mehr Budget? Gibt es einen Sättigungspunkt?
Kanäle vergleichen: Teste Google Ads vs. Meta Ads in separaten Geo-Holdout Tests. Welcher Kanal liefert mehr inkrementellen Lift pro Euro?
Agenturen und Tools evaluieren: Schaltet Anbieter A wirklich bessere lokale Kampagnen als Anbieter B? Ein Geo-Holdout Test zeigt es dir — objektiv und unbestechlich.

Geo-Holdout Tests sind der ehrlichste Blick auf den Wert deiner lokalen Werbung. Kein Dashboard kann dir das geben. Keine Attribution. Kein Modell. Nur ein sauberes Experiment. Und genau das braucht das kaputte lokale Marketing, über das wir immer wieder schreiben: Weniger Meinungen. Mehr Messungen.

Quellen

IAB — State of Incrementality: 71% der Advertiser halten Incrementality für die wichtigste Messmethode neben ROAS.
Google Research — Geo Experiments: Googles wissenschaftlicher Ansatz für Geo-basierte Kausalitätstests in der Werbemessung.
Meta — Incrementality Testing: Metas Dokumentation zu Conversion Lift Studies und Geo-basierten Tests auf Facebook und Instagram.

Dieser Artikel ist Teil der Filialhelden-Serie. Lies auch: Lokales Marketing ist kaputt (Das Manifest) · Incrementality Testing (Tracking) · ROAS für lokale Kampagnen: Warum der klassische ROAS lügt (Tracking)

Häufig gestellte Fragen

Was ist ein Geo-Holdout Test?

Ein Geo-Holdout Test ist ein Experiment, bei dem du bestimmte Regionen oder Standorte von deiner Werbekampagne ausschließt (Holdout-Gruppe) und andere normal bewirbst (Treatment-Gruppe). Die Differenz im Umsatz oder in den Ladenbesuchen zwischen beiden Gruppen zeigt dir den echten inkrementellen Effekt deiner Werbung.

Wie viele Standorte brauche ich für einen Geo-Holdout Test?

Als Faustregel brauchst du mindestens 20 Standorte insgesamt, aufgeteilt in 15 Treatment und 5 Holdout. Je mehr Standorte, desto statistisch belastbarer das Ergebnis. Ideal sind 40+ Standorte mit einem 80/20-Split.

Wie lange muss ein Geo-Holdout Test laufen?

Mindestens 4 Wochen, idealerweise 6-8 Wochen. Du brauchst genug Zeit, damit die Daten statistisch signifikant werden. Der Testzeitraum sollte keine saisonalen Verzerrungen enthalten.