CUPED — null/objects/statistics

вывод · №004

CUPED

Controlled-experiment Using Pre-Experiment Data · снижение дисперсии · быстрее находить эффект

расшифровка	Controlled-experiment Using Pre-Experiment Data
тип	техника снижения дисперсии · A/B тестирование
ввели	Deng, Xu, Kohavi, Walker · Microsoft · KDD · 2013
формула	Y_cuped = Y_post − θ × Y_pre θ = Cov(Y_post, Y_pre) / Var(Y_pre) Var(Y_cuped) = σ²_post × (1 − ρ²)
эффект	ρ = 0.6 → дисперсия −36% · выборка −36% ρ = 0.8 → дисперсия −64% · выборка −64%
требования	данные до эксперимента (pre-period) · та же или коррелирующая метрика
применение	Booking.com · Airbnb · Microsoft · Яндекс · любой A/B с историей
связано	дисперсия · A/B тестирование · p-value · EV

эссе · ~500 слов · 3 мин

Как ускорить A/B тест не добавляя пользователей.

размер выборки зависит от дисперсии. снизь дисперсию — нужно меньше пользователей.

Размер выборки в A/B тесте зависит от дисперсии метрики. n ∝ σ² / δ². Вдвое снизить дисперсию = вдвое меньше нужно пользователей. CUPED делает именно это — используя данные до эксперимента.

Идея: у каждого пользователя есть поведение до теста. Это поведение коррелирует с поведением во время теста. Если пользователь активен до теста — скорее всего активен и во время. Эта корреляция — «шум», который можно убрать.

Скорректированная метрика: Y_cuped = Y_post − θ × Y_pre, где θ = Cov(Y_post, Y_pre) / Var(Y_pre). θ — оптимальный коэффициент2. Он минимизирует дисперсию скорректированной метрики. При θ = 0 — обычный A/B. При оптимальном θ — дисперсия снижается в (1 − ρ²) раз.

E[Y_cuped] = E[Y_post]. Математическое ожидание не меняется — только дисперсия снижается. Тест остаётся несмещённым.

Ключевое свойство: E[Y_cuped] = E[Y_post]. Математическое ожидание не меняется. Только дисперсия снижается. Это значит: тест по-прежнему несмещён. CUPED не искажает результат — только делает его точнее.

Практически: ρ = 0.5 → дисперсия −25% · на 25% меньше пользователей. ρ = 0.6 → дисперсия −36%. ρ = 0.7 → дисперсия −49% · почти вдвое быстрее. ρ = 0.8 → дисперсия −64% · в 2.8× быстрее. Для большинства продуктовых метрик ρ между 0.4 и 0.7. Это даёт 20–50% ускорение при той же мощности теста.

Что брать как pre-period? Та же метрика за предыдущий период — идеально. Другая коррелирующая метрика — тоже работает. Важно: pre-period должен быть до рандомизации. Иначе нарушается causality.

CUPED — частный случай более общего метода ANCOVA (analysis of covariance)3. Но CUPED проще в реализации и интерпретации. Booking.com, Airbnb, Microsoft, Netflix используют CUPED или его варианты как стандарт.