Эта методика называется A/B-тестирование – отличный способ повысить эффективность работы онлайн-продукта с помощью компьютера. Методика получила такое название потому, что сравнивается как минимум два варианта – A и B.



A/B-тестирование показывает как минимум два варианта одного и того же элемента (A и B), сравнивая соответствующие значения, чтобы выяснить, какой вариант показать всем пользователям. В данном случае – вариант А, с более высоким коэффициентом выполнения требуемых действий пользователей (или «кликов»). Источник: VWO


Не знаете, какой слоган заставит людей покупать? Вместо бесконечных дебатов просто проведите A/B-тестирование! Не знаете, какая кнопка «зарегистрироваться» будет более популярна среди пользователей – зеленая или красная? Проведите тестирование! (К слову, в ходе одного эксперимента на красную кнопку кликнули на 34 % больше респондентов.) Не знаете, какой аватар в Tinder больше свайпнут? Сервис позволяет запустить A/B-тестирование, чтобы выяснить, какие фотографии, если они есть в основных изображениях профиля, помогут получить больше свайпов вправо.

Все новости, которые прошли тест

Вернемся к вопросу: почему же в каждой статье Washington Post предлагается две версии каждого заголовка? Это часть системы A/B-тестирования, которая называется Bandito. Она тестирует разные версии заголовка, чтобы понять, какой из них более кликабельный, чтобы потом чаще его показывать.

A/B-тестирование очень широко используется новостными агентствами. С помощью него BuzzFeed ищет самые кликабельные заголовки. Upworthy, конкурент BuzzFeed, обычно проверяет до 25 версий одного заголовка, стараясь найти идеальный вариант. A/B-тестирование играет очень важную роль: согласно Upworthy, разница между хорошим и идеальным заголовком – тысяча против миллиона просмотров.

Многие другие приложения и веб-сайты также проводят A/B-тестирование. Например, Facebook постоянно внедряет новые функции для «ограниченной группы испытуемых». Snapchat позволяет рекламодателям проводить A/B-тестирование своей рекламы, чтобы выбрать наиболее популярную. Даже обычные магазины могут проводить такое тестирование: на основании его результатов магазин может поменять фоновую музыку в торговом зале, чтобы покупатель максимально увеличил свои расходы.

Проверка достоверности

Есть один важный момент, который необходимо учитывать при статистическом тестировании: нужно проверить, полученный результат реален или это просто случайность. Допустим, если подбросить монетку шесть раз и пять из них выпадет орел. В этом случае нельзя однозначно утверждать, что монетка действительно перевешивает в сторону орла – это может быть просто случайность. Но если подбросить монетку шестьсот раз и пятьсот из них выпадет орел, это уже о чем-то говорит.

Когда компании проводят A/B-тестирование, экспериментаторы представляют отчет о том, как изменились определенные показатели двух версий. Они также предоставляют статистику, называемую p-значение, показывающую вероятность того, что полученная разница значений обусловлена случайностью. Обычно если p < 0,05 (то есть вероятность того, что разница будет случайной, составляет менее 5 %), можно предположить, что изменение было значимым, или «статистически достоверным». В противном случае нельзя быть уверенным, что полученные данные – это не случайность.

Предположим, что для половины своих пользователей Amazon немного увеличила размер кнопок «Добавить в корзину», в результате продажи выросли на 2 %, при p = 0,15. И хотя кнопка большего размера кажется хорошим решением, есть 15 %-ная вероятность, что увеличение продаж произошло совершенно случайно, а не благодаря изменению кнопки. 0,15 больше, чем 0,05, поэтому тестировщики Amazon не будут вводить кнопку большего размера.