Инфраструктура озера данных и алгоритмы матчинга: разбор Data Garage #4
Четвёртый выпуск Data Garage Артём и Анна из PrimeGate посвятили теме, которая выросла из их же материалов по инфраструктуре и сквозной аналитике. «Сквозная аналитика — это маленькая часть озера данных», — формулирует Артём. Данные мало хранить: их нужно определённым образом собирать и сопоставлять между собой. Именно здесь, по словам спикеров, «зарыто очень много собак» — и агентства, и клиенты до сих пор впадают в ступор, когда им объясняют, что кнопку WhatsApp нельзя просто так поставить на сайт.
«Нужно ставить кнопочку так, чтобы у вас матчились сессии — для того, чтобы всё это класть в единый реестр данных, в базу данных, в озеро данных».
— Артём, PrimeGate
Доклад был записан в двух частях: запись прервалась на технических неполадках, и вторая часть продолжает разговор с того же места — с интеграции с ERP и определения того, что вообще считать озером данных. Ниже — единый разбор по обеим частям.
Кому вообще нужно озеро данных
Анна предлагает начать с аудитории. Есть прослойка дата-маркетологов, дата-сайентистов и аналитиков, которые сами делают запросы к базе данных. Но эта прослойка появляется только там, где есть Data Lake и колоссальные объёмы данных — у Ozon, МТС, Авито. Для 95% обычных компаний картина другая.
«По нашему срезу мы видим, что в основном всё озеро данных сводится к двум вещам: наличие какой-то CRM, не всегда облачной, и наличие какой-то ERP, которая связана с производством».
— Анна, PrimeGate
На примере условного завода квадроциклов и снегоходов: у него может быть кастомизированная 1С, датасет по продажам, дистрибьюторам, городам, моделям. На этом можно построить BI. «Да, можно построить BI, но это не Data Lake. Это просто база данных», — подчёркивает Артём.
Зачем озеро строится вокруг пользователя
Смысл Data Lake — иметь собственную базу данных пользователей, некий цифровой профиль, вокруг которого можно делать рекламу на вовлечение и удержание. Это позволяет дата-сайентисту, аналитику или CRM-маркетологу влиять на юнит-экономику: повышать средний чек, увеличивать retention, доводить до повторной покупки.
Анна приводит кейс снегоходов. Утилитарные снегоходы — выносливые рабочие машины для нефтяников, охотников, фермеров; спортивные и «выходного дня» — другая аудитория. Если в озере аккумулируются данные не только по дистрибуции и объёму продаж, но и вокруг пользователя, можно собрать сегмент покупателей утилитарных моделей и предложить им, например, сани.
Из чего состоит инфраструктура
Понятий о хранилищах много: Data Warehouse, Data Base, Data Lake. Спикеры сознательно не разделяют их строго, а подразумевают под Data Lake хранилище, которое аккумулирует данные из многих источников. Prime в этой схеме — прослойка перед базой данных: с одной стороны визуализатор, с другой — инфраструктура, которая эту базу наполняет.
«Мы уже давно называемся all-in-one, а недавно написали на сайте, что являемся операционной системой. Не как Windows или macOS, а операционная система — это та, в которой мы оперируем. Наш бизнес оперирует, и CRM — только часть того, где мы оперируем каждый день».
— Артём, PrimeGate
Аналогия с банками: сначала все говорили, что бухгалтерия и банк — разные вещи, а потом банковский модуль подтянул и бухгалтерию, и юристов, сформировав экосистему для бизнеса. PrimeGate, по словам Анны, тоже экосистема — но маркетингово-продажная.
Счётчик: главное, что наполняет озеро сессией
Чтобы что-то положить в базу, это нужно сначала получить. Отсюда набор трекингов: своя телефония либо интеграция с внешними (около 120 телефоний — Мегафон, ОТС, МГТС, ТТК, полный список у техподдержки), и формы сайта. За формы отвечает счётчик Prime.
Можно просто передать данные с формы в CRM как обращение. А можно «смачивать в сессии». Счётчик трекает источник, город по IP, устройство, браузер — то, что позволяет потом матчить пользователя, даже если он пришёл с другого устройства, и склеивает это с сессией Яндекса, VK или Mail.
«Счётчик выполняет самую главную роль с точки зрения Data Lake — он наполняет озеро именно сессией. Практически ни одна CRM-система на данный момент не имеет счётчика, и из-за этого нет того самого цифрового профиля, нет матчинга данных».
— Артём, PrimeGate
В хороших CRM всегда есть профиль клиента, но он лишён маркетинговых данных, если их туда не передать. Передать их может только сквозная аналитика — и если она заморачивается точностью, то при создании лида в стороннюю CRM передаются IP-адрес, PG-визитор как идентификатор, Яндекс-визитор и Яндекс.ClientID. В едином цифровом профиле тогда есть вся история: не только звонки и письма, но и каждый заход на сайт, поведенческие характеристики, сколько времени проходило на каждом этапе сделки.
Триггеры и сегменты
Для рекламных кампаний вне Яндекса и Google нужны события — триггеры. Триггером может быть переход клиента за границу трёх месяцев жизни (три оплаты) или за порог в 10 000 рублей. Это и есть сегменты — отдельный модуль, который в новом Prime позволит сегментировать пользователей как угодно.
Подход к базе принципиально иной, чем «у нас есть CRM, и мы в неё что-то накладываем». Наоборот: есть база данных, и в неё что-то кладут. CRM кладёт сделки и их статусы, колл-трекинг — связанную сессию, матчит «офлайновый» факт звонка с сессией пользователя, который был на сайте и позвонил по определённому номеру.
Карточка вашего бизнеса теряет клиентов?
AI-аудит RecPlace по 34 параметрам — бесплатно
Интеграция со сторонней CRM и ERP
В эфире пришёл вопрос про российский вендор «Галактика» (по сути ERP). Соединить можно, но нужно «немного заморочиться». Главный принцип — Prime должен инициировать создание лида в сторонней системе, а не наоборот. И тут спикеры выходят на ключевую проблему инфраструктуры данных: кто первым создаёт лид.
«Мы ни в коем случае не можем брать лиды из CRM-системы, потому что они без сессии. Матчить по счётчику бесплатной веб-аналитики мы никогда не делали и не будем — там сэмплирование, данные не структурированы и не точны. Зачем нам делать этот матчинг постфактум, если мы можем делать его на лету, когда данные поступают нам?»
— Артём, PrimeGate
При интеграции с ERP важно понимать, какими данными обмениваться. Если ERP контролирует внутренний процесс (отправка договора, расчёт зарплаты) — это одна интеграция. Если ERP расширена функциями CRM (этапы сделки, контакты, обороты, прибыльность) — тогда в интеграции есть смысл.
Таблица соответствия: что такое матчинг на практике
Во второй части Артём раскрывает механику. Если у клиента сторонняя CRM, Prime работает как операционная система и перехватывает любой тип лида: email, звонок, сообщение из почты — выступает коннектором и корректно отправляет обращение в CRM.
«В момент создания сделки в сторонней CRM происходит очень важный процесс матчинга: мы создаём связку в таблице соответствия между нашим идентификатором — PrimeGate Visitor ID — и идентификатором в сторонней CRM или ERP».
— Артём, PrimeGate
Отсюда же решение классической проблемы дублей: когда виртуальная АТС (Мегафон и десятки других) интегрирована с CRM напрямую и создаёт своё обращение параллельно с Prime. Решается просто — создание лида в сторонней системе отключается, и Prime создаёт его первым, корректно.
Кастомные поля как колонки базы
В новом Prime появляется возможность добавлять произвольное количество полей. Любое поле — это новая колонка в базе данных, причём поле может быть текстовым, числовым или формулой.
Как это работает с прибылью
- Поле «прибыль» уже есть сейчас. Не нужно дожидаться нового Prime — для AmoCRM поле тянется без доработок, для Битрикса — при небольших доработках.
- Формула. Можно задать формулу, которая по набору операторов высчитывает именно вашу прибыль (например, процент от оборота).
- Дефолт + ручное значение. Дефолтная прибыльность считается от оборота, но если для конкретной сделки указать свою сумму — к расчёту средней стоимости лида пойдёт она. Два метода одновременно.
- Сегменты по полю. Дальше можно взять всех пользователей с прибыльностью выше 40% — и это готовый сегмент для рекламы или retention.
Нет сессии — закрыт канал удержания
Если данных по сессиям нет, нет и таблицы соответствия между идентификатором сессии и клиента. А значит, закрывается огромный канал — триггерные чаты, пуши на сайте, ремаркетинг. Это особенно критично на фоне тренда, о котором PrimeGate говорили в передаче про MaaS: рынок постепенно уходит от привлечения первичного трафика к удержанию.
«Все ставят кнопочки „написать в WhatsApp“, которые перекидывают сразу в мессенджер. Там трекинга, сессии нет. Будет у вас номер WhatsApp в CRM, но автоматизацию по триггерному событию вы толком не сделаете, и целей в рекламные системы не отправите. То есть вы сами себе роете яму».
— Анна, PrimeGate
Без сессий остаётся костыльная автоматизация только внутри диджитал-воронки CRM по этапам сделки. Полный путь — это когда вы получаете не только контакт, но и все доступные переменные о пользователе.
Взгляд в будущее: VR-очки и веб-звонки
Артём проводит параллель с появлением iPhone в 2006–2008: тогда тоже был «хейт», а через несколько лет кнопочные телефоны исчезли. Он считает, что через пять лет интерфейсы перейдут в очки дополненной реальности — самостоятельное устройство с отдельным процессором, новую ось.
«Следующий PrimeGate 3.0 будет уже полностью в этих очках. Приходит лид — я вижу, откуда он пришёл, его профиль клиента, всё то, что сейчас есть в Data Lake, и могу прямо в чате начать общаться. Голосом добавить данные в поля, без клавиатуры».
— Артём, PrimeGate
Отсюда вывод: операционная система, BI и CRM никуда не уйдут, но методы коммуникации станут цифровыми — больше голоса и видео. PrimeGate включает веб-видеозвонки в продукт к середине следующего года. И поэтому Data Lake нужно внедрять уже сейчас: каждый новый вид коммуникации придётся трекать и обогащать данными о сессии.
Единая база данных «из коробки»
Артём приводит анти-пример с рынка: компания позиционирует себя как колл-трекинг и отдельно продаёт виджет обратного звонка — но базы данных у них разные, связки между ними нет, пользователи внутри собственной системы не матчатся, данные никуда не передаются.
«Мы, по сути, единственная система на рынке, которая при проектировании себя учитывает требования аналитики и CRM сразу. Не надо спорить, кто главный — главный бизнес, а всё остальное обслуживает бизнес-процессы».
— Анна, PrimeGate
Сейчас Prime объединяет 10 модулей, сегменты — 11-й, надстройка над базой. И PrimeGate первыми на рынке дали историю пользователя в колл-трекинге — скрещённые данные маркетинга и продаж, а в перспективе ещё логистики, банка, производства. Команда активно идёт к интеграции с банк-клиентом, чтобы привязывать поступивший платёж к сделке (особенно важно для SaaS и подписочных приложений без своего биллинга).
Алгоритмы матчинга колл-трекинга
Почему PrimeGate так заморачиваются точностью? Корни — в системе Prime Context, прародителе Prime: это был биддер, система управления ставками, где всё должно быть точно. Этот подход перекочевал в колл-трекинг. А на рынке колл-трекинга «всё было очень плохо».
Изначально подмена номера происходила один раз — при заходе на сайт. Продления сессии не было.
«Вы открыли сайт, вам назначился номер, ушли на обед, вернулись — а к этому моменту этот номер мог быть назначен другим пользователям ещё 10 раз. Колл-трекинг сопоставляет телефонный номер с сессией; когда происходит звонок, считается, что он от той сессии, которой назначен номер. Но продления сессии не происходило».
— Артём, PrimeGate
7 отраслевых алгоритмов, которые выпустил PrimeGate
- Продление сессии по движению мышки. Номер закреплён за пользователем, пока есть активность, плюс «фристайм» — промежуток после того, как сессия перестала жить.
- Объединение сессий. Вместо «internal» и пустого перехода источник звонка берётся из предыдущей сессии, а не из новой, в которую пользователя «переназначили».
- Гео-подмена. Пул номеров подменяется по региону: 8-800 для всех, отдельные пулы для Москвы и Питера. На рынке этого не было ни у кого.
«Мы единственные по сей день, кто открыто на сайте пишет, что такое колл-трекинг. По факту мы всем рассказали, как это должно быть».
Цена ошибки атрибуции и мультиканальность
Классическая ошибка: «поставлю колл-трекинг на месяц и отключу неработающие каналы». Отключают — и общий оборот падает. В реальных случаях не на 5–7%, а на 30–40–50%, потому что некорректно отключили рекламные кампании.
«Пользователь приходит из Яндекса по платному трафику, не звонит. Возвращается завтра по брендовому запросу, звонит и покупает. Маркетологи говорят: это SEO, это брендовый запрос. Но этот брендовый запрос сгенерировал платный трафик — об этом никто не думает».
— Артём, PrimeGate
Отсюда вывод про лидогенерацию: у всех это «пришёл и сразу оставил лид с того канала, с которого перешёл». На деле есть мультиканальность — лид не обязательно появляется в течение 5–7 минут и не обязательно с того же канала.
История пользователя вместо сессий
В парадигме PrimeGate нет понятия «сессия» и «хиты» — есть история пользователя. Если человек пришёл спустя два часа, два обращения склеиваются (если это «internal» и не новый рекламный канал). Если канал новый — добавляется новое обращение, и это ещё не звонок, а просто переход.
Это же логика распространяется на приложения: трекинг до установки (переходы на сайт, чтобы скачать), и пост-инсталл-аналитика — сколько живёт клиент, активировал ли доп. функции, что показать в рекламе, чтобы он перешёл на вышестоящий тариф. Если воспринимать всё это разрозненно — отдельно сквозная аналитика, отдельно колл-трекинг, отдельно CRM, отдельно реклама приложения — технологического лидерства не получить.
Преимущество all-in-one и «иллюзия коннекторов»
«Пока вы будете мыслить в парадигме „я натыркаю разные решения“ — колл-трекинг отсюда, CRM оттуда, сервис, который передаёт данные из WhatsApp и Google Play, — это никогда не будет Data Lake. Можно прокинуть, но Data Lake не будет. А не будет Data Lake — не будет вашего технологического лидерства следующие 10 лет».
— Артём, PrimeGate
Артём честно предупреждает: инфраструктура была сложной и остаётся сложной. «Сквозная аналитика на бесплатной российской веб-аналитике» всё равно потребует постоянной поддержки. Если вы не IT-компания, без своего штата и айтишной культуры — туда лучше не идти; даже большой завод не станет айтишной компанией, а только потеряет деньги. Сам Prime Артём создал как раз потому, что прошёл через эти проблемы ещё в тюнинг-ателье 2005 года — «связать сайт с CRM, биддер, формы, и чтобы это всё не отваливалось».
Что забрать с собой
- База данных — это ещё не озеро. CRM + ERP с продажами дают BI, но не цифровой профиль. Озеро строится вокруг пользователя.
- Счётчик обязателен. Озеро данных = хранилище + счётчик + алгоритм. Без счётчика нет сессии, а без сессии — нет матчинга.
- Лид создаём первыми. Лиды из чужой CRM приходят без сессии. Матчинг — это таблица соответствия между Visitor ID и ID в сторонней системе, построенная на лету.
- Нет сессии — нет retention. Триггерные чаты, пуши и ремаркетинг работают только при наличии связки сессия ↔ клиент.
- Матчинг колл-трекинга — это алгоритмы. Продление сессии, фристайм, гео-подмена, объединение вместо «internal».
- Лидогенерация мультиканальна. История пользователя важнее одной 30-минутной сессии; отключать каналы по «прямой» атрибуции опасно.
- All-in-One вместо зоопарка сервисов. Иначе технологического лидерства на горизонте 10 лет не будет.