A/B-тесты: подход и проверка на репрезентативность
Необходимо проверять выборки пользователей пред тем как браться анализировать результаты сплит теста. Есть определенные метрики, которые покажут, на сколько адекватны собранные данные.
Аналитика а/б-тестов не самая простая задача для начинающего специалиста. Важно знать, как определить «достаточную выборку» для исследований, когда и как проводить тестирование, по каким критериям оценивать результаты, как относится к результатам теста, когда разница в показателях не значительна.
Следует разделить подход к анализу игры, как продукта, от анализа маркетинга, трафика, рекламных материалов, иконок и баннеров. Это разделение справедливо и для A/B тестов на игровые и маркетинговые.
Сплит тестирование игры
Первый тип аналитики — это тестирование игры, её отдельных компонентов, функционала, баланса. Такие тесты делаются для определения сильных и слабых сторон с продуктовой точки зрения. Заказчиками этих тестов чаще выступают гейм дизайнеры и продюсеры.
Для оценки результатов продуктовых тестов наряду с основными показателями из дашборда чаще всего служат специальные индивидуальные метрики, ориентированные на проверку именно того компонента, который тестируется. Это может быть даже ничтожная мелочь, вроде 2х минутного увеличения сессии, которая покажет полезность функционала, которую трудно будет опознать на общих показателях.
Колебания базовых метрик (ARPU, Retention и pU) может зависеть от многих факторов, как внутренних так и внешних, поэтому всегда следует проверять тот или иной игровой функционал дополнительной метрикой, которая наилучшим образом покажет результат его работы. Тестируете новую скриптовую заставку — проверьте на сколько изменилась средняя длина сессии, их количество и частота. Базовое вовлечение (активация, возвраты и отвал) слишком многогранно, чтобы оценить только ролик. Незначительные колебания вниз могут скрыть его полезность, или, наоборот — вверх, дать ошибочные показатели роста, которые будут чистым совпадением.
Сплит тестирование маркетинга
Анализ экспериментов с трафиком требует более комплексного подхода. Следует учитывать множество компонентов и их динамику в течении жизни пользователя. Я использую специальный отчет, символично названный «Marketing Lab», который включает в себя набор базовых метрик, расширенные данные по первой сессии и первому дню жизни пользователя, ключевые точки воронки, определение типа пользователя, собранного на основе бихевиористических данных, игровую динамику на 2, 3, 7, 14 и 30 дни жизни пользователя, разделенную на накопительную и разделенную на периоды.
При активной работе с трафиком (от 25k в неделю) этот отчет крайне важен, и помогает не тратить десятки тысяч на бесполезные компании, позволяет смелее экспериментировать с графической составляющей, максимально снизив расходы. Крайне важно обновление таких отчетов — максимальный период — раз в сутки, лучше чтобы отчет собирался и обновлялся в реальном времени.
Репрезентативность
Когда выборку мы считаем репрезентативной? Когда когорты равны, исследования проводились в равных условиях (желательно в одно и тоже время), когда данных достаточно, чтобы исключить статистическую погрешность.
Скажем, если в вашей игре хорошее вовлечение: активируется более 40% инсталлов, а Retention 14 дня у вас более 25%, для когортного анализа рекомендую использовать не менее 10 000 пользователей для каждой когорты. Чем больше выборка — тем меньше вероятность погрешности. Такой подход поможет вам принимать верные решения на основе сплит тестирования.
Проверка выборки
Наверняка бывали такие эксперименты, когда по настройкам сплиты абсолютно идентичны, однако показывают резко отличающиеся результаты. Или вы тестируете новый компонент, который ни как не связан с монетизацией (например социальный компонент), а у вас резко в одной из когорт ниже ARPU и pU. Как быть?
Важно, перед тем, как приступить к построению отчетов, убедиться, что ваши данные, собранные за период теста пригодны для анализа. Для начала следует взвесить когорты и посмотреть на следующие параметры, которые не могут быть следствием, а скорее будут причиной изменений:
- половой признак
- территориальное расположение (страна, штат, часовой пояс…)
- возрастной набор
- активность пользователей в когорте (как ее измерять, зависит от игры)
Важно, чтобы когорты были похожи, иначе результату доверять будет нельзя. Исключение составляют случаи, когда вы тестируете функционал, который направлен на активность. В этом случае придется сделать отчет, который будет декомпозировать игровую активность пользователя и замерять её по нескольким признакам.
JOIN NOW
Репрезентативность выборочных данных | Loginom
Репрезентативность — важнейшее свойство данных, используемых для построения аналитических моделей. Независимо от того, в какой предметной области и какими методами производятся выборочные исследования, отсутствие репрезентативности выборки приводит к некорректным результатам. В статье рассказываем подробнее об этом важном свойстве.
- Обеспечение репрезентативности
- Качественная репрезентативность
- Количественная репрезентативность
- Методы оценки репрезентативности
- Статистические методы
- Нестатистические методы
- Ремонт выборки
Репрезентативность — важнейшее свойство данных, используемых для построения аналитических моделей. Оно отражает способность данных представлять зависимости и закономерности исследуемой предметной области, которые должна обнаружить и научиться воспроизводить построенная модель. Иными словами, репрезентативность показывает, содержат ли анализируемые данные достаточно информации для построения качественной модели, а так же, может ли эта информация быть использована алгоритмом построения модели.
Репрезентативность генеральной совокупности отражает способность совокупности описывать существенные свойства, зависимости и закономерности объектов, процессов и явлений предметной области. Она достигается за счёт правильной организации сбора и консолидации первичных данных.
Репрезентативность выборки описывает способность выборочных данных отражать структурные свойства совокупности, из которой они были извлечены. Т.е. даёт ответ на вопрос: можно ли в исследовании заменить совокупность на выборку без значимого ухудшения результатов анализа. Репрезентативность выборки достигается с помощью правильного выбора метода сэмплинга.
Таким образом, репрезентативность выборки касается только воспроизведения характеристик совокупности. Если сама исходная совокупность плохо представляет предметную область, то, даже если полученная из неё выборка будет репрезентативной, построить на её основе корректную с точки зрения предметной области модель будут невозможно.
Например, пусть компания собирается вывести на рынок новый продукт. При этом она хочет провести маркетинговые исследования в виде опроса клиентов о желаемых характеристиках и параметрах продукта. Число клиентов компании насчитывает сотни тысяч человек (генеральная совокупность), поэтому опросить их всех не представляется возможным физически, не является целесообразным экономически.
Поэтому компания формирует выборку клиентов для проведения опроса. Если мнение клиентов из выборки отражает мнение большинства клиентов и может быть использовано для принятия решений о параметрах и характеристиках нового продукта, то такая выборка будет репрезентативной.
Независимо от того, в какой предметной области и какими методами производятся выборочные исследования, отсутствие репрезентативности выборки приводит к некорректным результатам. Поэтому в процессе анализа необходимо убедиться, что сформированная выборка репрезентативна.
Таким образом, репрезентативная выборка — это такая выборка, в которой представлены все подгруппы, важные для исследования. Помимо этого, характер распределения рассматриваемых параметров в выборке должен быть таким же, как в генеральной совокупности.
Особенно важным является обеспечение репрезентативности в машинном обучении, для построения моделей классификации и регрессии используется несколько выборок: обучающая, тестовая и валидационная, которые тем или иным способом отбираются из исходного набора данных. И все эти выборки должны быть репрезентативными.
Обеспечение репрезентативности
В основе построения репрезентативной выборки лежит правильный выбор используемого алгоритма сэмплинга. При этом размер выборки, хотя и является важным, сам по себе не гарантирует ее репрезентативности. Например, интернет-опрос может показать, что 100% людей пользуется интернетом, хотя это не соответствует действительности (т.е. репрезентативность нарушена).
Выделяют качественную (структурную) и количественную репрезентативность.
Рисунок 1. Количественная и качественная репрезентативность
Качественная репрезентативность
Качественная репрезентативность показывает, что все группы, присутствующие в совокупности, будут представлены и в выборке. Для этого каждый элемент совокупности должен иметь равную вероятность, быть выбранным, а сама выборка должна производиться из однородных групп.
Наиболее оптимальным способом формирования репрезентативной выборки является простой случайный сэмплинг, поскольку в этом случае у любого представителя генеральной совокупности будет одинаковая вероятность попасть в выборку.
Например, при формировании выборки клиентов для опроса, в нее попадут люди из различных социальных групп пропорционально их долям в генеральной совокупности. В результате, выборка будет представлять собой уменьшенную копию генеральной совокупности.
Случайность отбора респондентов в выборку может обеспечивается различными методами. Например, для опроса клиентов берутся номера клиентских карт, которые случайным образом отбираются компьютерной программой с использованием генератора случайных чисел.
Однако, на практике применить простой случайный сэмплинг не всегда представляется возможным. Это связано с тем, что генеральная совокупность может быть неоднородной и будет содержать группы объектов.
Например, если опрос будет проводиться по телефону, то большинство откликов будет получено от пенсионеров, как людей менее занятых и более склонных идти на контакт. Очевидно, что если опрос проводится о продукте, ориентированном на молодёжь, то ценность мнения пенсионеров вряд ли будет высокой.
Чтобы решить эту проблему, можно использовать случайный стратифицированный сэмплинг, когда исходная совокупность сначала разделяется на слои (страты) по некоторому признаку. Например, клиенты могут быть стратифицированы по возрасту. Тогда страты могут быть сформированы пропорционально доле объектов в группах, что позволит уменьшить или увеличить долю той или иной группы, сохранив репрезентативность.
Другой вариант — использовать кластерный (групповой) сэмплинг, когда клиенты предварительно разбиваются на качественно однородные группы — кластеры, и отбор производится из каждого кластера независимо. При этом вероятность отбора может быть одинаковой для всех кластеров, или различной. Можно некоторые кластеры вообще исключить из отбора. В нашем примере клиенты могут быть разбиты на кластеры по социальному статусу — студенты, работающие, пенсионеры, военнослужащие и т.д. Таким образом, долю, пенсионеров в выборке, можно уменьшить или совсем исключить.
Количественная репрезентативность
Количественная репрезентативность показывает, является ли достаточным число элементов выборки для представления характеристик генеральной совокупности с заданной погрешностью. {2}\cdot 0,25\cdot 0,75}\approx 188 клиентов.
Таким образом, необходимый объем выборки при безвозвратном отборе меньше, чем при возвратном (соответственнo, 188 и 300).
В целом, число наблюдений, требуемое для получения репрезентативной выборки, изменяется обратно пропорционально квадрату допустимой ошибки.
Методы оценки репрезентативности
Формально, выборку называют репрезентативной, когда результат оценки определенного параметра по данной выборке совпадает с результатом, оцененным по генеральной совокупности с учетом допустимой погрешности (ошибки репрезентативности). Если выборочная оценка отличается от оценки по генеральной совокупности более, чем на заданный уровень погрешности, то такая выборка считается нерепрезентативной.
Репрезентативность оценивается по отдельным параметрам выборки и совокупности. При этом выборка может оказаться репрезентативной по одним параметрам и нерепрезентативной по другим. Поэтому говорить о репрезентативности как о дихотомическом свойстве выборки (репрезентативна или нерепрезентативна) было бы не верно: выборка может одни параметры генеральной совокупности воспроизводить более точно, а другие — менее. Поэтому правильнее говорить о мере репрезентативности определённой выборки по конкретным параметрам.
Основным моментом в определении репрезентативности выборки является обоснование погрешности, в пределах которой выборка признается репрезентативной. Одна и та же выборка может быть достаточно репрезентативной для одной задачи и недостаточно для другой. Кроме этого, нужно проверять репрезентативность выборки по параметрам, имеющим существенное значение для предметной области исследования. Например, в маркетинговых исследованиях для анализа клиентов важны пол, возрасту, образование и пр.
Следует отметить, что далеко не все задачи бизнес-аналитики требуют строгого статистического подтверждения репрезентативности выборок. Как правило, это задачи точного прогнозирования. Что касается обычных задач, связанных, например, с определением предпочтений действующих и потенциальных клиентов, то они решаются охватом типичной клиентуры, которую можно найти непосредственно в торговых центрах.
Статистические методы
Данные, полученные в результате выборочных обследований, являются реализациями случайных величин (возраст, стаж работы, доход и т.д.). Обычно, на практике считают, что выборка является репрезентативной, если её статистические параметры (среднее значение, дисперсия, среднеквадратичное отклонение и т.д.) отличаются от параметров совокупности не более, чем на 5%.
Однако, данный подход применим только при условии, что вся генеральная совокупность известна и для неё можно вычислить статистические характеристики. Но на практике такое встречается редко, поскольку часть потенциально интересных для исследования объектов оказывается недоступной для наблюдения.
В этом случае прибегают к формированию двух независимых выборок, вычисляют и сравнивают их характеристики, и если они совпадают (не различаются значимо), то выборки считаются репрезентативными. В теоретическом плане такой подход является достаточно привлекательным, однако, на практике сложно реализуем. Во-первых, формирование нескольких выборок ведёт к дополнительным затратам, а во-вторых, если параметры выборок значимо различаются, то невозможно сказать, какая из них репрезентативна.
Для сравнения двух выборок используются два вида критериев: непараметрические и параметрические. Первые не используют в расчётах значений параметров статистических распределений, а оперируют частотами и рангами. К числу наиболее популярных непараметрических критериев можно отнести критерий Уилкоксона и U-критерий Манна-Уитни. Второй рекомендуется использовать, если число наблюдений превышает 30. К числу популярных параметрических критериев относится t-критерий Стьюдента, критерий однородности Смирнова, Q-критерий Розенбаума и др.
Нестатистические методы
Статистические методы оценки репрезентативности выборочных данных, хотя и являются строго обоснованными, но довольно сложны в использовании (особенно для пользователей, не имеющих достаточной математической подготовки). Кроме этого они могут иметь ограничения (например, независимость выборок), удовлетворить которым достаточно сложно.
Статистические подходы к оценке репрезентативности выборок имеет смысл использовать, если для анализа данных используются статистические методы. Методы машинного обучения, которые является эвристическими и в большинстве случаев не обеспечивают точного и единственного решения, вообще говоря, не нуждаются в точной оценке репрезентативности обучающих выборок. Поэтому в них используются свои техники для определения того, насколько обучающая или тестовая выборка хорошо представляют исходную совокупность.
Ещё одной особенностью выборок, используемых в машинном обучении, является то, что объём исходной совокупности, из которой формируются обучающее, тестовое, а при необходимости, и валидационное множество, известен, поскольку данные содержатся в консолидированных таблицах источника данных.
Обычно нестатистические меры репрезентативности используют расстояния между векторами наблюдений в пространстве признаков. Рассмотрим, например, такой показатель как индекс ближайшего соседа (Nearest Neighbours Index — NNI). {n}D_{i}
где D_i — расстояние от i-го объекта до остальных объектов выборки, n — число объектов выборки.
Затем вычислим величину:
\overline{D}_{total}=\sqrt{\frac{D_{_{total}}}{N}}
где D_{_{total}} — общее расстояние по всей совокупности, N — число наблюдений совокупности.
Тогда индекс ближайшего соседа будет:
NNI=\frac{\overline{D}_{sample}}{\overline{D}_{total}}
Если значение данного показателя близко к 1, то точки выборки имеют равномерное пространственное распределение. Если меньше 1, то пространственное распределение точек неоднородно. Если NNI больше 1, то имеет место значительная дисперсия значений внутри выборки.
Очевидно, что наилучшим вариантом с точки зрения репрезентативности будет первый случай, когда пространственное распределение точек данных в совокупности и выборке примерно одинаковое. Второй случай показывает, что внутри выборки могут присутствовать некоторое локальные особенности, нехарактерные для всей совокупности.
В литературе можно найти больше количество разнообразных алгоритмов и методов оценки репрезентативности выборок для машинного обучения, разработанных для различных предметных областей исследования и типов задач анализа. Большинство их них являются эвристическими и не гарантируют получения наилучшего результата. Поэтому самым надёжным критерием репрезентативности выборки, на основе которой строилась определённая обучаемая модель, является точность и обобщающая способность самой модели.
Ремонт выборки
Возникает вопрос: а что делать в ситуации, когда аналитику доступна только выборка «как есть», а её репрезентативность неудовлетворительная? При этом доступ к генеральной совокупности для формирования более репрезентативной выборки у него отсутствует (например, из-за проблем с сетью, невозможности повторных исследований из-за высоких затрат и т.д.). В этом случае улучшить ситуацию может специальная процедура, которая называется «ремонт выборки».
Все действия аналитика, связанные с репрезентативностью, можно разделить на два этапа: контроль и ремонт.
- Контроль выборки — процедура сравнения генеральной совокупности и выборки, выявление степени их расхождения, обнаружение причин отклонений и разработка возможных способов их устранения.
- Ремонт выборки — процесс устранения расхождения генеральной совокупности и выборки.
Контроль и ремонт выборки рассматриваются как обязательные этапы любого выборочного исследования. Хотя, некоторые авторы не разделяют эти два этапа, а включают ремонт в общую процедуру контроля выборки. Ряд вопросов, связанных с контролем выборки был рассмотрен выше.
Основной целью ремонта является повышение качества выборки в смысле отражения ею зависимостей и закономерностей исследуемых процессов и явлений, которые требуется обнаружить в процессе анализа. При этом не следует путать ремонт выборки с повышением качества данных вообще.
Ремонт выборки, обычно, включает следующие задачи:
- Коррекция выборки. Заключается в замене ранее выбранных объектов совокупности. Коррекция может потребоваться, например, если в выборке произошло искажение распределения объектов относительно исходной совокупности, например, получился избыток пенсионеров, мужчин, женщин или людей с определённым уровнем образования. Замена может быть произвольной (например, следующий клиент по списку) или эквивалентной (подыскивается клиент с теми же параметрами — пенсионера меняем на пенсионера и т.д.).
- Расширение основы выборки. Позволяет включить в выборку большее разнообразие наблюдений. Основа выборки — это подмножество элементов генеральной совокупности, из которого будет формироваться выборка. Использование основы выборки позволяет сделать отбор более целевым, исключив обработку данных, не относящихся к задаче анализа, лучше сфокусироваться на целевой группе. В анализе клиентской базы основой выборки могут быть только мужчины, только женщины, люди в возрасте от 30 до 60 и т.д. Если выборка получилась недостаточно репрезентативной, то решить проблему можно расширяя границы основы выборки. Например, если изначально основой выборки являлась только люди пенсионного возраста, то при необходимости она может быть расширена и на людей предпенсионного возраста.
- Взвешивание. При взвешивании объектам выборки могут присваиваться весовые коэффициенты, которые могут учитываться в алгоритме анализа. Например, повышенные весовые коэффициенты могут присваиваться клиентам, которые наиболее активно пользовались услугами компании (купили товаров и услуг на сумму выше некоторого порога). Логично предположить, что мнение таких клиентов будет более значимым.
Следует отметить, что единого, строго обоснованного подхода к ремонту выборок, вообще говоря, не существует, хотя в литературе можно встретить некоторые общие рекомендации. В большинстве практических случаев аналитику приходится самостоятельно выбирать, какие преобразования следует применить к выборке для повышения её репрезентативности.
Другие материалы по теме:
Обработка пропусков в данных
Loginom Data Quality. Очистка клиентских данных. Деморолик
распределений — проверьте, является ли выборка репрезентативной для большей выборки
спросил
Изменено
4 года, 10 месяцев назад
Просмотрено
17 тысяч раз
$\begingroup$
Из большей выборки табличных данных я выбрал определенные строки, которые соответствуют определенному условию (это условие не связано с фактическими данными в строках).
Теперь я хочу знать, похоже ли распределение этого подмножества, которое я создал, на распределение исходной, большей выборки.
Какие тесты можно использовать для этой цели?
Спасибо! Я ценю помощь.
- распределения
- t-критерий
- набор данных
- образец
- представитель
$\endgroup$
3
$\begingroup$
Можно проверить, совпадают ли несколько статистических данных, описывающих распределение, в подвыборке и в оставшейся выборке. Например, вы можете провести тесты для:
- разности средних
- средняя разница
- стохастическое доминирование
- разная дисперсия
- форма
Пока вы этим занимаетесь, поскольку вас интересует сходство , я бы также изучил тесты на эквивалентность всех таких мер (например, используя tost), возможно, комбинируя выводы из тестов на различия и эквивалентности.
Что-то еще, что вы можете рассмотреть: почему вас интересует это сходство? Ответ на этот вопрос может помочь вам решить, какие такие тесты, если таковые имеются, вы хотели бы изучить. Например, если размер вашей выборки невелик, у вас может не хватить мощности для теста Колмогорова-Смирнова, упомянутого Сокли, хотя у вас все еще может быть достаточно мощности, чтобы делать выводы, скажем, о среднем значении выборки. Если вас интересует только сравнение выборочных средних значений, это может подойти для ваших целей.
$\endgroup$
3
$\begingroup$
Поскольку вы хотите сравнить все дистрибутивы, я бы порекомендовал два примера теста Колмогорова-Смирнова.
Более подробную информацию можно найти здесь:
http://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test
$\endgroup$
1
Зарегистрируйтесь или войдите в систему
Зарегистрируйтесь с помощью Google
Зарегистрироваться через Facebook
Зарегистрируйтесь, используя электронную почту и пароль
Опубликовать как гость
Электронная почта
Требуется, но никогда не отображается
Опубликовать как гость
Электронная почта
Требуется, но не отображается
Нажимая «Опубликовать свой ответ», вы соглашаетесь с нашими условиями обслуживания, политикой конфиденциальности и политикой использования файлов cookie
.
Проверка гипотез
— как проверить, является ли выборка репрезентативной для совокупности по нескольким критериям.
спросил
Изменено
4 года, 3 месяца назад
Просмотрено
3к раз
$\begingroup$
Всего у меня несколько сотен домов, разных размеров, цен и возраста.
Я хочу иметь возможность выбрать случайную выборку из нескольких десятков или около того домов и проверить, насколько они репрезентативны для всего портфолио. Критически важно, чтобы сравнение проводилось по всем переменным, а не только по ценам, например. Есть ли какой-то тест, который даст мне значение P, насколько я уверен, что моя случайная выборка репрезентативна для портфеля?
Я уверен, что это, возможно, тривиальный вопрос, но я начинающий статистик и надеялся получить совет о том, как лучше всего это сделать.
Большое спасибо.
- проверка гипотез
- выборка
- популяция
- репрезентативная
$\endgroup$
$\begingroup$
У вас есть несколько вариантов: могут работать многомерный дисперсионный анализ (MANOVA), логистическая регрессия и дискриминантный анализ. Используя любой из них, вы можете проверить, насколько хорошо характеристики (размер, цена, возраст и т. д.) могут различать каждое подмножество домов. Вы сможете получить p — значение, указывающее, в какой степени существуют групповые различия, необычные, учитывая тот факт, что обе группы были выбраны случайным образом из одной и той же совокупности.
[РЕДАКТИРОВАТЬ] Дело не в том, что это p -значение поможет вам решить , был ли в игре шанс — вы будете знать, что это было, выбрав случайным образом. Но в вашем случае р косвенно что-то скажет о величине различий.