Предиктивная аналитика в performance-маркетинге: почему, зачем и как

Прогнозирование сегодня — один из важных элементов успеха компании, но как сделать его максимально точным? Ольга Вязовская, исполнительный директор в performance-агентстве DV Group, рассказывает, как и зачем использовать предиктивную аналитику в performance-маркетинге, а также какую пользу получит от нее бизнес. Материал будет полезен тем, кто занимается маркетингом и digital-маркетингом, а также e-commerce директорам.

Итак, предиктивная аналитика — это когда мы пытаемся предсказать будущее, используя научные методы и дисциплины: теорию игр, статистику, машинное обучение. Сфера применения подхода широка: начиная от логистики и банковского дела, заканчивая маркетингом.

Представим, что нам нужно узнать, с какой вероятностью человек совершит покупку — но как это сделать, ведь мы же не знаем его вкусов и нужд. Нам и не обязательно это знать, достаточно использовать статические и аналитические методы, с помощью которых можно найти закономерности в исторических данных и предугадать дальнейшие действия пользователя. 

В этой статье я расскажу, как и зачем мы применяем предиктивную аналитику: как рассчитываем вероятность совершения покупки определенной категории или бренда в онлайн-магазинах, а также — как формируем сегменты на основе полученных данных для дальнейшей закупки трафика.

Источники данных: чеки и cookies

Практическое применение предиктивной аналитики — в оптимальном использовании маркетингового бюджета при проведении performance-кампаний.

Обычно для расширения первого этапа воронки продаж закупка трафика происходит на основе пользовательских интересов, но если они получены не на основе анализа потребительской корзины,то это может привести к отрицательному ROI и высокому CPO.

Поэтому мы и используем «продвинутую» сегментацию, для дифференцирования ставок в рекламном кабинете в зависимости от ценности пользователя.

Источники данных и для каких типов товаров они подойдут

В качестве источника информации мы используем данные чеков и cookies интернет-магазинов. Если первый тип источника — данные ОФД — достаточно распространены на рынке и имеют обширное покрытие, то данные cookies получить намного сложней из-за закрытости инфраструктур электронной коммерции в России. 

Во-первых, важно отметить, что данные чеков можно использовать в математических моделях только для товаров повседневного спроса и высокой периодичности, например: товары для красоты и ухода за собой, для уборки дома, детские товары, продукты питания и другие.

Для товаров с длинным жизненным циклом подойдут только данные cookies, которые показывают действия пользователя до совершения покупки на сайте.

Во-вторых, для получения корректного прогноза важна давность и объем обрабатываемых данных.

При использовании чеков — это набор данных не менее чем за один год при условии, что количество транзакций не менее трех тысяч штук. При использовании cookies — не менее трех месяцев, и количество транзакций от десяти тысяч событий. 

В-третьих, формат получаемых данных.

Например, для чеков мы используем только сырые исходные данные без категоризации, которая происходит на стороне ОФД на основе ключевых запросов. Из-за этого получается высокая степень погрешности при формировании сегментов.

Чтобы минимизировать погрешность, мы производим категоризацию каждого SKU (артикул) на основе фасетной классификации ритейлера, что практически исключает ошибки атрибуции товара к определенной категории.

Процесс моделирования

Сам процесс моделирования делится на несколько частей:

  • Препроцессинг — оценка данных объектной модели;
  • Построение baseline и основной модели — запуск кода и тестирование нескольких моделей;
  • Ассемблирование — корректировка и оценка качества модели.

Для построения основной модели мы используем два подхода:

1. Решение регрессионной задачи с помощью нейронной сети на основе LSTM

Рекуррентные нейронные сети (РНС) — сети, учитывающие предшествующую информацию. LSTM (long short-term memory) — тип рекуррентной нейронной сети, способный обучаться долгосрочной зависимости. Их специализация — запоминание информации в течение длительных периодов времени. Все рекуррентные нейронные сети имеют форму цепочки повторяющихся модулей нейронной сети.

В стандартных РНС этот повторяющийся модуль имеет простую структуру, а модуль LSTM состоит из четырех взаимодействующих слоев. Благодаря этому не происходит разрыва связи между информацией, что позволяет нам определить вероятность совершения покупки пользователем в течение 21 дня.

Для чего это нужно: предположим, что вам нужно купить шампунь для волос, вам удобнее всего сделать это в интернет-магазине.

Вы заходите в онлайн-магазин и начинаете поиски: вбиваете в строке поиска «шампунь», проваливаетесь в категорию «уход за волосами», сортируете товары по рейтингу и смотрите карточки товаров, читаете отзывы, характеристики продукта и в итоге совершаете покупку.

На выбор шампуня вы потратили, скажем, две минуты. Магия в том, что две минуты потратили не только вы, но и большинство пользователей, которые покупали шампунь. А дальше с помощью математических моделей можно предсказать вероятность совершения покупки пользователем и даже повторного приобретения товара.

Повторяющийся модуль LSTM

2. Латентный анализ с помощью факторизации матриц

Латентный анализ (Latent semantic analysis) — метод обработки информации на естественном языке, анализирующий взаимосвязь между библиотекой документов и терминами, которые в них встречаются.

С помощью анализа можно выявить характерные факторы, присущие всем документам и терминам. Иными словами, данный подход позволяет заполнить «пробелы» в ячейках в новом объекте на основе исторических значений. По итогу применения данных моделей мы анализируем вероятность события.

3. Используемые скриптовые языки

Все наши модели написаны на Python, обработка данных происходит внутри контура собственной DMP-платформы, с дальнейшей отгрузкой сегментов в рекламные кабинеты по API. В ближайшем будущем мы планируем переход на CDP платформу, которая позволит объединить все процессы в одном месте.

Как мы использовали предиктивную аналитику при запуске рекламной кампании для подгузников

Давайте на конкретном примере рассмотрим, как работает предиктивная аналитика. Проект под NDA, поэтому мы не используем название бренда. 

Перед нами стояла задача увеличить продажи подгузников на основных маркетплейсах: Vprok, Утконос и Ozon за счет привлечения новой аудитории молодых мам с детьми до 2 лет.

Особое внимание необходимо было уделить аудитории беременных женщин, начиная с 7 месяца беременности, и мам с детьми до 6 месяцев, так как именно в этот период формируется потребительское предпочтение на оставшийся срок потребления.

Для формирования сегментов мы разбили исходные данные на несколько частей:

  • Сегмент 1: Текущие покупатели подгузников и трусиков размера NB, S, M;
  • Сегмент 2: Текущие покупатели размера L;
  • Сегмент 3: Текущие покупатели XL;
  • Сегмент 4: Текущие покупатели товаров для беременных (по всем SKU, попадающим в фасетную выгрузку данной категории в онлайн-ритейлерах).

На основе получившихся выборок данных и тестирования гипотез были использованы следующие стратегии:

  1. Использование сегментов без дополнительных фильтров и обработок: текущие покупатели подгузников и товаров для беременных.
  2. Построение LAL (Look-a-like) на описанные выше сегменты.
  3. Построение LAL (Look-a-like) на пользователей из данных сегментов, которые с наибольшей вероятностью приобретут товар в течение 21 дня.

При этом важно отметить, выбранные стратегии были использованы внутри каждого из сегментов. Это было необходимо нам для дальнейшего дифференцирования ставок в рекламных кабинетах, т.к. CPO (стоимость оформления заказа) для нового клиента из сегмента 1 и 4 может быть в три раза выше показателей в сегментах 2 и 3. 

Мы размещали рекламу на Facebook, Mytarget и Яндекс (РСЯ). Средний ROI при использовании стратегии с предиктивным моделирование составил 7,5 при том, что сегменты текущих покупателей без дополнительной обработки отработали с показателем ROI=2,1. 

Конечно, при выборе стратегии необходимо учитывать и емкость полученных сегментов, которая снижается из-за дополнительных фильтров, поэтому мы рекомендуем использовать комбинированную схему работы с использованием нескольких гипотез одновременно для достижения оптимального ROI.

Ценность от использования предиктивной аналитики

Предиктивное моделирование позволяет разделить пользователей на точные сегменты, в итоге клиенты получают возможность увеличить продажи брендов на маркетплейсах и в собственных интернет-магазинах.

Можно собрать сегмент не просто потенциальных покупателей магазина, категории или бренда, но и пользователей, которые купят с наибольшей вероятностью конкретный продукт, а еще найти похожих на них в интернет-пространстве, таким образом расширив на входе воронку продаж.