Как построить модель атрибуции на основе машинного обучения
Введение
Традиционные модели атрибуции (First Click, Last Click, Linear) часто искажают реальную картину эффективности каналов. Машинное обучение (ML) позволяет построить data-driven модель, которая автоматически определяет вклад каждого касания в конверсию. Это даёт возможность оптимизировать бюджет на рекламу, повысить ROI и улучшить стратегию продвижения.
Этапы построения модели
1. Сбор и подготовка данных
Для обучения модели необходимы данные о пути клиента:
- Источники трафика (SEO, SMM, контекстная реклама, email-маркетинг).
- Типы взаимодействий (клики, просмотры, заполнение форм).
- Временные метки и порядок касаний.
- Финальная конверсия (покупка, лидогенерация).
Источники данных: CRM, аналитика (Google Analytics, Яндекс.Метрика), системы трекинга рекламы. Важно очистить данные от дубликатов и аномалий.
2. Выбор модели машинного обучения
Для атрибуции чаще всего используют:
- Shapley Value — распределяет ценность между каналами на основе вклада в конверсию.
- Логистическая регрессия — оценивает вероятность конверсии от последовательности касаний.
- Случайный лес или XGBoost — для нелинейных зависимостей.
Для простоты начните с Shapley Value, так как он интерпретируем и не требует сложной настройки.
3. Разработка признаков (Feature Engineering)
Создайте признаки для модели:
- Каналы касаний (one-hot encoding).
- Время между касаниями (часы, дни).
- Порядковый номер касания.
- Частота взаимодействий с каналом.
Пример: для пользователя, который пришёл через SEO (1-е касание), затем через SMM (2-е) и совершил конверсию, модель оценит вклад каждого канала.
4. Обучение и валидация
Разделите данные на обучающую и тестовую выборки (70/30). Обучите модель предсказывать конверсию. Затем примените технику атрибуции — для каждого пути клиента рассчитайте вклад каналов. Используйте метрики: precision, recall, ROC-AUC.
5. Внедрение и интерпретация
После обучения модель можно интегрировать в систему аналитики. Результаты представьте в виде таблицы с долями каждого канала. Например:
| Канал | Вклад в конверсию |
|---|---|
| SEO | 35% |
| Реклама | 45% |
| SMM | 20% |
Практические рекомендации
- Начните с малого: используйте готовые библиотеки (Python:
,shap
).scikit-learn - Учитывайте офлайн-конверсии: интегрируйте данные из CRM.
- Тестируйте гипотезы: сравнивайте результаты ML-модели с традиционными.
- Автоматизируйте: настройте регулярное обновление модели по новым данным.
Кейс из практики
Интернет-магазин использовал Last Click и считал, что основной канал — контекстная реклама. После внедрения ML-атрибуции выяснилось, что SEO и email-маркетинг играют ключевую роль на ранних этапах. Перераспределение бюджета увеличило ROI на 30% за 2 месяца.
Инструменты
- Python: библиотеки
,pandas
,numpy
,scikit-learn
.shap - Платформы: Google Analytics 4 (с поддержкой ML), Mixpanel, Amplitude.
- CRM: интеграция данных для полной картины.