Калькулятор достоверности а b тестирования: Калькулятор достоверности A/B-тестирования — Яндекс.Директ

Содержание

Калькулятор достоверности A/B-тестирования — Яндекс.Директ

Калькулятор позволяет быстро сравнить результаты A/B-тестов нескольких рекламных стратегий, а значит — определить наиболее эффективный набор инструментов и форматов.

Сегмент

Размер сегмента

Расходы в сегменте

Конверсии

Клики

A

%

B

%

Внедряем?

Как пользоваться калькулятором

В таблице выше укажите:

данные тестируемых сегментов — размер в процентах, расходы в любой валюте, количество конверсий и кликов. В строку А введите значения сегмента, с которым хотите сравнить результаты других тестов. Следующие строки заполните данными оставшихся сегментов, их количество не ограничено. Пустые поля заполнятся автоматически.

целевой уровень значимости (p-value) — значение, отражающее степень вашей уверенности в результатах эксперимента. Мы рекомендуем указать 80%. Слишком высокое значение p-value, например — 99%, повысит уверенность в результатах эксперимента, но снизит количество возможных улучшений.

максимальный коэффициент жесткости дополнительных инвестиций — значение того, во сколько раз вы готовы увеличить инвестиции в рекламу для получения большего числа конверсий, по сравнению с сегментом А. Если вы готовы увеличить бюджет на продвижение, введите значение больше единицы.

Как читать результаты

Показатель «Да» — результаты данного сегмента лучше результатов сегмента A. Вариант настроек на этом сегменте сработал эффективнее по сравнению с сегментом A.

Показатель «Нет» — результаты данного сегмента хуже результатов сегмента A.

Показатель «?» («Не определено») означает, что между A и сравниваемым сегментом нет статистически значимой разницы и определить лучший не получится. Причины такого результата могут быть разными — от размера сегмента до количества кликов, но сказать точно почти невозможно.

Пример

Калькулятор выделил зелёным цветом результаты A/B-теста в сегменте B.

Вывод: показатели сегмента B лучше данных сегмента A с вероятностью 86,04%.

Экспериментируйте с новыми A/B-тестами в Директе

Сценариев для экспериментов бесконечное множество — от смены настроек в кампании до тестирования разных медиапланов.

С помощью A/B-экспериментов в Директе вы можете разделить аудиторию на сегменты и протестировать разные стратегии, например — оптимизацию количества кликов или среднюю рентабельность инвестиций. А калькулятор подскажет, какая стратегия выгоднее именно для вашей кампании.

Подробнее про возможности A/B-тестирования мы рассказывали в материале.

A/B Testing Calculator for Statistical Significance

Ваши результаты статистически значимы?

Подписка на профессиональный тарифный планБесплатная регистрация

Рассчитайте статистическую значимость

Посетители

Конверсии

Коэффициент конверсии

A

1,00 %

B

1,14 %

Гипотеза

Двусторонняя гипотеза учитывает вероятность того, что ваш вариант может оказать негативное влияние на ваш результат.

Односторонняя гипотеза

Двусторонняя гипотеза

Степень достоверности

Степень достоверности того, что ваши результаты соответствуют действительности, а не обусловлены случайными факторами.

Статистически значимый результат!

Коэффициент конверсии варианта B (1,14 %) на 14 % выше, чем коэффициент конверсии варианта A (1,00 %). Вы можете со степенью достоверности 95 % сказать, что вариант B будет работать лучше, чем вариант A.

Уверенность

86,69 %

Значение вероятности

0,0157

Что такое статистическая значимость?

При экспериментах с A/B-тестированием статистическая значимость определяет, насколько вероятно, что различие между контрольной версией и тестовой версией экспериментальных данных не вызвана ошибкой или случайностью.

Например, если Вы провели тестирование с уровнем значимости 95%, Вы можете быть на 95% уверены, что различия реальны.

В бизнесе статистическая значимость часто используется для наблюдения за влиянием экспериментов на коэффициент конверсии бизнеса. В сфере опросов статистическая значимость обычно позволяет измерить, насколько можно доверять результатам опроса. Например, если в опросе спрашивается, какую из двух рекламных концепций предпочитают участники, Вам надо убедиться, что различие в результатах статистически значимо, прежде чем решить, какую из этих концепций использовать.

Как определить статистическую значимость

Все начинается с формирования гипотезы. В любом эксперименте существует нулевая гипотеза, которая утверждает, что никакой связи между сравниваемыми фактами нет, и альтернативная гипотеза. Альтернативная гипотеза обычно пытается доказать, что связь существует, и это утверждение Вы пытаетесь подтвердить экспериментом. Если говорить о A/B-тестировании коэффициента конверсии, гипотеза предполагает, что добавление кнопки, изображения или какого-то текста на страницу влияет на коэффициент конверсии. Если использовать опросы для проверки концепций, как в примере выше, Ваша гипотеза может включать тестирование различных вариантов рекламы на привлекательность для потребителей.

Иногда после формулирования нулевых и альтернативных гипотез статистики проводят тесты для проверки состоятельности своих гипотез. Мерой состоятельности нулевой гипотезы является Z-оценка. Она может показать вам, что между сравниваемыми фактами на самом деле нет никакой связи. P-значение показывает, достаточны ли доказательства, которые у Вас имеются, для подтверждения альтернативной гипотезы.

При проведении тестов на статистическую значимость полезно выбрать, каким будет тест: односторонним или двусторонним (или, как еще говорят, одновыборочным или двухвыборочным). В одностороннем тесте предполагается, что Ваша альтернативная гипотеза будет иметь направленный эффект, тогда как двусторонний тест предусматривает, что гипотеза также может оказать негативное влияние на результаты. Как правило, двусторонний тест дает более консервативные выводы.

Даже профессиональные статистики используют для расчета значимости и подтверждающих ее тестов специальные программы для статистического моделирования, поэтому мы здесь не будем подробно рассматривать этот механизм. Однако, проводя A/B-тестирование, Вы можете использовать калькулятор, приведенный вверху этой страницы, для вычисления статистической значимости результатов. Если Вам нужно рассчитать значимость результатов опроса, SurveyMonkey может сделать это автоматически.

Хотите знать, почему Вы не получаете значимых результатов?

Попробуйте направить Вашим клиентам опрос, чтобы узнать, что они ищут.

Бесплатная регистрация

Калькулятор статистической значимости A/B-тестирования

Создан на основе ❤️ для тестирования, оптимизации, UX, CRO и дизайнерских команд.

Количество посетителей

Количество переходов

Контроль

Количество посетителей

Количество переходов

Вариант

Количество посетителей

Количество переходов

Р-значение

0

Значительно?

Да

Значение P равно x.xx Следовательно, ваши результаты статистически значимы!

Как вы думаете, что это значит?

Вы опровергли нулевую гипотезу (т. е. нет никакой разницы между вариацией и контролем).

Вероятность того, что нулевая гипотеза верна, равна .

Вы не доказали свою экспериментальную гипотезу (о том, что вариант лучше контроля).

Вероятность того, что вариант окажется лучше контроля, равна
%.

% шанс увидеть такую ​​крайнюю разницу при условии отсутствия разницы в контроле и вариации.

Потрясающе , вы понимаете, что означает значение p! К сожалению, большинство людей не могут правильно интерпретировать p-значения. Поэтому мы создали VWO SmartStats, байесовский статистический движок, который вообще не нуждается в p-значении.

К сожалению, , это не то, что на самом деле означает p-значение. Не волнуйтесь, большинство людей не могут правильно интерпретировать p-значения. Поэтому мы создали VWO SmartStats, байесовский статистический движок, который вообще не нуждается в p-значении.

Вариации

Коэффициент конверсии

Улучшение

Вероятность
быть лучшим

Абсолютная
потенциальная потеря

Конверсии/
посетителей

С
Контроль
Базовый уровень
В
Вариация
Перекрытие неопределенности

Р-значение

(диапазон от 0 до 1)

0,334

Значение

Нет

Почему мы используем байесовскую статистику?

Отчеты об интуитивных тестах

Мы поняли, что наши пользователи, не имеющие отношения к статистике, часто (и ошибочно) интерпретировали частотное p-значение как байесовскую апостериорную вероятность (вероятность того, что вариация лучше, чем контроль). Поэтому мы создали первую в отрасли байесовскую статистическую машину, которая дает вам легко понятный результат. Интуитивно понятный результат гарантирует, что вы не совершите ошибку при A/B-тестировании дохода или других важных KPI.

Размер выборки не требуется

VWO SmartStats использует байесовский вывод, который, в отличие от частотного подхода, не требует минимального размера выборки. Это позволяет вам запускать A/B-тесты для тех частей вашего веб-сайта или приложений, которые могут не получать много трафика, чтобы улучшить их. Тем не менее, получение большего трафика на ваших тестах позволяет VWO с большей уверенностью определять ваши коэффициенты конверсии, что позволяет вам быть более уверенным в результатах ваших тестов.

Практические результаты, быстрее

VWO SmartStats был разработан с учетом одного ключевого показателя: скорости. Мы пожертвовали некоторой точностью ради скорости, не много, совсем чуть-чуть, достаточно, чтобы получить более быстрые результаты, не влияя на вашу прибыль. Это освобождает ваше время, позволяя вам тестировать больше. Кроме того, на случай, если вы захотите быть абсолютно и полностью уверенным, мы рассчитываем максимальный потенциальный убыток, который вы можете понести, и вы можете решить, соответствует ли размер убытка вашему аппетиту к риску.

Часто задаваемые вопросы

Нулевая гипотеза утверждает, что нет никакой разницы между контролем и вариацией. По сути, это означает, что коэффициент конверсии варианта будет аналогичен коэффициенту конверсии контроля.

Значение p определяется как вероятность получения результатов, по крайней мере столь же экстремальных, как те, которые вы наблюдали, при условии, что нулевая гипотеза верна, где нулевая гипотеза в A/B-тестировании состоит в том, что вариант и контроль являются тем же.

Статистическая значимость определяет, является ли полученный результат результатом случайности или некоторого интересующего фактора. Когда результат значителен, это, по сути, означает, что вы можете быть уверены в том, что разница реальна, а не в том, что вам просто повезло (или не повезло) с выбором образца.

Статистическая мощность — это вероятность обнаружения эффекта, когда эффект реален. Таким образом, статистическая мощность 80% означает, что из 100 тестов, в которых варианты различаются, 20 тестов придут к выводу, что варианты одинаковы и никакого эффекта не существует.

Это средний коэффициент конверсии, который вы можете ожидать от варианта. Показатели конверсии «наилучший случай» и «наихудший случай» представляют собой 99-процентный достоверный интервал, в котором, вероятно, будет содержаться коэффициент конверсии.

Это среднее улучшение, которое можно ожидать по сравнению с базовым уровнем, если вы внедрите вариант. Значения «наилучшего случая» и «наихудшего случая» представляют собой 99-процентный достоверный интервал, в котором, вероятно, будет сдерживаться улучшение.

Вероятность того, что вариант будет работать лучше, чем все другие варианты, включая контроль.

Отношение количества конверсий к общему количеству посетителей.

В области, где варианты перекрываются, мы не уверены, какой вариант работает лучше. Если ваш наиболее эффективный вариант имеет много перекрытий неопределенностей, мы настоятельно рекомендуем вам запустить тест на более длительный срок.

Насколько еще можно улучшить коэффициент конверсии. Если ваш абсолютный потенциальный убыток составляет 2 %, а ожидаемый коэффициент конверсии — 10 %, это означает, что у вас все еще есть шанс улучшить этот коэффициент конверсии и увеличить его до 12 %.

Указывает на уверенность, что вариант работает лучше, чем контрольный. Чем выше уровень значимости, тем выше вероятность того, что вариант будет работать лучше, чем контроль (исходная версия). Например, 95%-й шанс победить контроль означает, что у вас есть уровень уверенности 9.5%, что вариант будет конвертировать лучше, чем контрольный. Однако имейте в виду, что существует 5%-ная вероятность того, что вариация может оказаться не такой, как вы предполагали. На уровень значимости варианта влияют несколько факторов, в том числе продолжительность теста, количество вовлеченных посетителей и т.  д.

Потрясающий! Ваша встреча подтверждена по телефону

Спасибо, что поделились своими данными.

Шаг 1/4

Привет 👋 Давайте запланируем вашу демонстрацию

, чтобы начать, расскажите нам немного о себе

Имя

Инвалидное имя

Последняя название

Инвалидная последняя имя

Работа Электронная почта

Неважно Электронная почта

Телефон

Invalid. Номер телефона

VWO может отправлять соответствующие электронные письма, пока я не откажусь от подписки.

Продолжая, вы соглашаетесь с нашими Условиями и Политикой конфиденциальности

Хотя мы предоставим демоверсию, которая охватывает всю платформу VWO, поделитесь с нами некоторыми подробностями, чтобы

персонализировал демо для вас.

Выберите возможности, на которые вы хотели бы обратить внимание во время демонстрации.

A/B-тестирование

Сплит-тестирование

Опросы

Многовариантное тестирование

Тестирование многоруких бандитов

Персонализация

Анализ формы

Анализ поведения посетителей

Воронкообразный анализ

Тестирование мобильных приложений

Тестирование на стороне сервера

Записи сеансов

Тепловые карты

Развертывание/развертывание

Сегментация пользователей

Управление функциями

Управление данными клиентов

Что из этого похоже на вас?

Я новичок в использовании продуктов для оптимизации и экспериментов.

Я использовал другие продукты для оптимизации и экспериментов.

Я использовал VWO в прошлом и хорошо знаю пространство.

Пожалуйста, поделитесь примерами использования, целями или потребностями, которые вы пытаетесь решить.

, все готово для знакомства с демонстрацией VWO.

Я не могу дождаться встречи с вами по телефону

Менеджер по работе с клиентами

, спасибо, что поделились подробностями. Ваш специальный представитель VWO свяжется с вами в ближайшее время, чтобы назначить время для этой демонстрации.

Мы довольны и рады, что выбрали VWO. Мы получаем ROI от наших экспериментов.

Кристофер Чельберг
CRO-менеджер

VWO очень помог нам в наших усилиях по оптимизации. Возможности тестирования безграничны, и это позволило нам легко определять, настраивать и запускать несколько тестов одновременно.

Елизавета Левитан
Специалист по цифровой оптимизации

Мне, как руководителю проекта нашего экспериментального процесса, нравится, как функциональность VWO позволяет нам быстро приступить к работе, но также дает нам гибкость для более сложного тестирования.

Тара Роу
Менеджер по маркетинговым технологиям

Вам не нужен опыт разработки веб-сайтов, чтобы VWO работал на вас. Команда поддержки VWO потрясающая

Элизабет Романски
Менеджер по потребительскому маркетингу и аналитике

Нам доверяют тысячи ведущих брендов
Есть вопрос или индивидуальный запрос? Спросите здесь

Мы понимаем, что вы, возможно, не захотите просматривать весь сайт, чтобы получить ответы или узнать, предлагаем ли мы определенную функцию, поэтому мы упростили для вас

Имя: *

Недействительное имя

Фамилия: *

Неверная фамилия

Рабочий адрес электронной почты: *

Неверный адрес электронной почты

Вопрос:

VWO может отправлять соответствующие электронные письма, пока я не откажусь от подписки.

Отправляя сообщение, вы соглашаетесь с нашими Условиями и Политикой конфиденциальности

Спасибо за ваш вопрос!

Менеджер по работе с клиентами VWO свяжется с вами в ближайшее время.

Калькулятор надежности A/B-тестирования

Расчет объема выборки

Этот калькулятор поможет вам определить, сколько людей вам понадобится для надежного результата. Используйте его при тестировании коэффициентов открытия, рейтинга кликов, коэффициентов конверсии и т. д.

Номер
вариантов

уменьшить

добавить

Текущий
базовый

Ожидаемый
подъем

Размер выборки, количество людей

Всего: Итого:

5 400

за сегмент: Перестра

5 400

По сегментам:

2 700

Текущий базовый уровень  — текущее среднее значение показателя (например, коэффициента конверсии), который вы хотите улучшить. Вы можете рассчитать это, используя данные, которые вы ранее собрали.

Ожидаемый прирост  — это минимальный прирост, которого вы хотели бы достичь в тестируемом показателе. Например, вы можете увеличить текущую базовую конверсию на 3 %. Если ваш ожидаемый прирост слишком низкий (например, 0,1%), вам потребуется намного больше людей для теста. Если это значение слишком велико (например, 15 %), а фактическое повышение окажется ниже, это будет означать, что тест не привел к желаемому росту и результаты не являются статистически значимыми.

Уровень значимости — также известный как «уровень достоверности». Вот насколько вы можете быть уверены, что результаты теста действительны, если между вариантами есть разница.

Статистическая мощность — это уровень уверенности, который вы можете иметь в отношении достоверности результатов теста, если между переменными нет различий. Если вы не уверены в этом шаге, оставьте значение по умолчанию.

Размер выборки  — это покажет вам, сколько людей нужно подвергнуть воздействию каждого варианта, чтобы сделать результаты теста надежными. Это также поможет вам определить наилучшее время для теста (т. е. поможет вам убедиться, что вы не закончили тест слишком рано или слишком поздно).

Например: одна из ваших цепочек триггеров отправляет 100 электронных писем в день. Калькулятор определил, что для проведения эксперимента с двумя вариантами вам потребуется размер выборки 500 человек для каждого варианта. Это означает, что вам нужно будет отправить в общей сложности 1000 электронных писем в течение 10 дней.

Оценка после тестирования

Это поможет вам понять, какой вариант показал наилучшие результаты и можно ли разницу между ними считать статистически значимой.

Номер
вариантов

уменьшить

добавить

Номер
преобразования

Размер выборки

Преобразование

Уверенность
Интервал

Группа A

Номер конверсий

Размер выборки

Конверсия

0,0 %

Достоверный интервал

0,0 %

. 0003

0,0 — 0,0 %

Группа B

Количество конверсий

Размер выборки

Преобразование

0,0 %

Достоверный интервал

0,0 — 0,0 %

Группа С.

Количество конверсий

Размер выборки

Преобразование

0,0 %

Достоверный интервал

0,0 — 0,0 %

Группа D

Номер преобразования

Размер выборки

0002 0,0 %

Доверительный интервал

0,0 — 0,0 %

Группа E

Количество конверсий

Размер выборки

Конверсия

0,0 %

Доверительный интервал

0,03

0,0 %

. – 0,0 %

Заключение

Надежность

Заключение

Конверсия  — коэффициент конверсии для каждой группы при показателе надежности 100%.

Доверительный интервал — это преобразование в соответствии с введенной вами оценкой надежности. Оценка надежности – 9.5 % по умолчанию, то есть это означает, что конверсия с вероятностью 95 % будет находиться в диапазоне доверительного интервала.

This entry was posted in Популярное