Data Lake Матчинг данных Сквозная аналитика Инфраструктура

Data Garage #4. Инфраструктура озера данных и алгоритмы матчинга данных

Артём и Анна из PrimeGate разбирают, из чего складывается инфраструктура Data Lake и почему «озеро данных» — это не просто база данных. Счётчик, трекинги, своя телефония, единый цифровой профиль, таблица соответствия между ID и алгоритмы матчинга колл-трекинга: продление сессии, гео-подмена, объединение обращений. Доклад записан в двух частях — ниже оба видео и единая статья по всему разговору.

⏱ ~75 мин · 2 части · Артём и Анна, PrimeGate
Часть 1

⏱ Навигация — часть 1

Часть 2

⏱ Навигация — часть 2

Артём и Анна

Команда PrimeGate · ведущие Data Garage

Артём — основатель PrimeGate, прошёл путь от системы управления ставками Prime Context (биддер) до операционной системы бизнеса all-in-one. Анна отвечает за продукт и сквозную аналитику. В четвёртом выпуске Data Garage они подробно разбирают, из чего реально состоит инфраструктура озера данных, почему счётчик — неотъемлемая часть Data Lake и как работает матчинг данных в колл-трекинге.

3кита Data Lake: хранилище, счётчик, алгоритм
120+телефоний на интеграции
7отраслевых алгоритмов колл-трекинга
11модулей в единой базе данных

Ключевые инсайты

6 выводов про инфраструктуру озера данных

🌊

База данных ≠ Data Lake

CRM + ERP с данными по продажам — это просто база данных. Озеро данных собирает данные вокруг пользователя: цифровой профиль, на котором можно строить рекламу на вовлечение и удержание.

🔢

Счётчик — неотъемлемая часть озера

«Озеро данных — это и хранилище, и счётчик, и алгоритм». Именно счётчик наполняет Data Lake сессией: IP, устройство, браузер, источник — и матчит пользователя с сессиями Яндекса, VK, Mail.

🔗

Лид нужно создавать первым

Лиды из чужой CRM приходят без сессии. Поэтому Prime первым создаёт лид и строит таблицу соответствия между своим Visitor ID и ID в сторонней CRM/ERP — это и есть момент матчинга.

📥

Нет сессии — закрыт retention

Без таблицы соответствия между сессией и клиентом не работают триггерные чаты, пуши и ремаркетинг. Кнопка WhatsApp без трекинга «роет вам яму»: целей в рекламные системы не передать.

🎯

Матчинг колл-трекинга — это алгоритмы

Продление сессии по движению мышки, фристайм, гео-подмена пула номеров, объединение сессий вместо «internal». Без этих 7 алгоритмов телефонный номер успевает «прокрутиться» между десятком пользователей.

📊

Лидогенерация мультиканальна

Человек пришёл из контекста, а вернулся завтра по брендовому запросу и купил. Отрубив «неработающий» канал, теряют 30-50% оборота. История пользователя важнее одной 30-минутной сессии.

Ваша карточка на Яндекс.Картах теряет клиентов?

AI-аудит RecPlace по 34 параметрам — бесплатно. Покажет, где упускаете трафик и деньги

Получить аудит →
Data Lake Матчинг Сквозная аналитика

Инфраструктура озера данных и алгоритмы матчинга: разбор Data Garage #4

Четвёртый выпуск Data Garage Артём и Анна из PrimeGate посвятили теме, которая выросла из их же материалов по инфраструктуре и сквозной аналитике. «Сквозная аналитика — это маленькая часть озера данных», — формулирует Артём. Данные мало хранить: их нужно определённым образом собирать и сопоставлять между собой. Именно здесь, по словам спикеров, «зарыто очень много собак» — и агентства, и клиенты до сих пор впадают в ступор, когда им объясняют, что кнопку WhatsApp нельзя просто так поставить на сайт.

«Нужно ставить кнопочку так, чтобы у вас матчились сессии — для того, чтобы всё это класть в единый реестр данных, в базу данных, в озеро данных».

— Артём, PrimeGate

Доклад был записан в двух частях: запись прервалась на технических неполадках, и вторая часть продолжает разговор с того же места — с интеграции с ERP и определения того, что вообще считать озером данных. Ниже — единый разбор по обеим частям.

Кому вообще нужно озеро данных

Анна предлагает начать с аудитории. Есть прослойка дата-маркетологов, дата-сайентистов и аналитиков, которые сами делают запросы к базе данных. Но эта прослойка появляется только там, где есть Data Lake и колоссальные объёмы данных — у Ozon, МТС, Авито. Для 95% обычных компаний картина другая.

«По нашему срезу мы видим, что в основном всё озеро данных сводится к двум вещам: наличие какой-то CRM, не всегда облачной, и наличие какой-то ERP, которая связана с производством».

— Анна, PrimeGate

На примере условного завода квадроциклов и снегоходов: у него может быть кастомизированная 1С, датасет по продажам, дистрибьюторам, городам, моделям. На этом можно построить BI. «Да, можно построить BI, но это не Data Lake. Это просто база данных», — подчёркивает Артём.

Зачем озеро строится вокруг пользователя

Смысл Data Lake — иметь собственную базу данных пользователей, некий цифровой профиль, вокруг которого можно делать рекламу на вовлечение и удержание. Это позволяет дата-сайентисту, аналитику или CRM-маркетологу влиять на юнит-экономику: повышать средний чек, увеличивать retention, доводить до повторной покупки.

Анна приводит кейс снегоходов. Утилитарные снегоходы — выносливые рабочие машины для нефтяников, охотников, фермеров; спортивные и «выходного дня» — другая аудитория. Если в озере аккумулируются данные не только по дистрибуции и объёму продаж, но и вокруг пользователя, можно собрать сегмент покупателей утилитарных моделей и предложить им, например, сани.

Из чего состоит инфраструктура

Понятий о хранилищах много: Data Warehouse, Data Base, Data Lake. Спикеры сознательно не разделяют их строго, а подразумевают под Data Lake хранилище, которое аккумулирует данные из многих источников. Prime в этой схеме — прослойка перед базой данных: с одной стороны визуализатор, с другой — инфраструктура, которая эту базу наполняет.

«Мы уже давно называемся all-in-one, а недавно написали на сайте, что являемся операционной системой. Не как Windows или macOS, а операционная система — это та, в которой мы оперируем. Наш бизнес оперирует, и CRM — только часть того, где мы оперируем каждый день».

— Артём, PrimeGate

Аналогия с банками: сначала все говорили, что бухгалтерия и банк — разные вещи, а потом банковский модуль подтянул и бухгалтерию, и юристов, сформировав экосистему для бизнеса. PrimeGate, по словам Анны, тоже экосистема — но маркетингово-продажная.

Счётчик: главное, что наполняет озеро сессией

Чтобы что-то положить в базу, это нужно сначала получить. Отсюда набор трекингов: своя телефония либо интеграция с внешними (около 120 телефоний — Мегафон, ОТС, МГТС, ТТК, полный список у техподдержки), и формы сайта. За формы отвечает счётчик Prime.

Можно просто передать данные с формы в CRM как обращение. А можно «смачивать в сессии». Счётчик трекает источник, город по IP, устройство, браузер — то, что позволяет потом матчить пользователя, даже если он пришёл с другого устройства, и склеивает это с сессией Яндекса, VK или Mail.

«Счётчик выполняет самую главную роль с точки зрения Data Lake — он наполняет озеро именно сессией. Практически ни одна CRM-система на данный момент не имеет счётчика, и из-за этого нет того самого цифрового профиля, нет матчинга данных».

— Артём, PrimeGate

В хороших CRM всегда есть профиль клиента, но он лишён маркетинговых данных, если их туда не передать. Передать их может только сквозная аналитика — и если она заморачивается точностью, то при создании лида в стороннюю CRM передаются IP-адрес, PG-визитор как идентификатор, Яндекс-визитор и Яндекс.ClientID. В едином цифровом профиле тогда есть вся история: не только звонки и письма, но и каждый заход на сайт, поведенческие характеристики, сколько времени проходило на каждом этапе сделки.

Триггеры и сегменты

Для рекламных кампаний вне Яндекса и Google нужны события — триггеры. Триггером может быть переход клиента за границу трёх месяцев жизни (три оплаты) или за порог в 10 000 рублей. Это и есть сегменты — отдельный модуль, который в новом Prime позволит сегментировать пользователей как угодно.

Подход к базе принципиально иной, чем «у нас есть CRM, и мы в неё что-то накладываем». Наоборот: есть база данных, и в неё что-то кладут. CRM кладёт сделки и их статусы, колл-трекинг — связанную сессию, матчит «офлайновый» факт звонка с сессией пользователя, который был на сайте и позвонил по определённому номеру.

Карточка вашего бизнеса теряет клиентов?

AI-аудит RecPlace по 34 параметрам — бесплатно

Получить аудит →

Интеграция со сторонней CRM и ERP

1Кейс: интеграция с «Галактикой»

В эфире пришёл вопрос про российский вендор «Галактика» (по сути ERP). Соединить можно, но нужно «немного заморочиться». Главный принцип — Prime должен инициировать создание лида в сторонней системе, а не наоборот. И тут спикеры выходят на ключевую проблему инфраструктуры данных: кто первым создаёт лид.

«Мы ни в коем случае не можем брать лиды из CRM-системы, потому что они без сессии. Матчить по счётчику бесплатной веб-аналитики мы никогда не делали и не будем — там сэмплирование, данные не структурированы и не точны. Зачем нам делать этот матчинг постфактум, если мы можем делать его на лету, когда данные поступают нам?»

— Артём, PrimeGate

При интеграции с ERP важно понимать, какими данными обмениваться. Если ERP контролирует внутренний процесс (отправка договора, расчёт зарплаты) — это одна интеграция. Если ERP расширена функциями CRM (этапы сделки, контакты, обороты, прибыльность) — тогда в интеграции есть смысл.

Таблица соответствия: что такое матчинг на практике

Во второй части Артём раскрывает механику. Если у клиента сторонняя CRM, Prime работает как операционная система и перехватывает любой тип лида: email, звонок, сообщение из почты — выступает коннектором и корректно отправляет обращение в CRM.

«В момент создания сделки в сторонней CRM происходит очень важный процесс матчинга: мы создаём связку в таблице соответствия между нашим идентификатором — PrimeGate Visitor ID — и идентификатором в сторонней CRM или ERP».

— Артём, PrimeGate

Отсюда же решение классической проблемы дублей: когда виртуальная АТС (Мегафон и десятки других) интегрирована с CRM напрямую и создаёт своё обращение параллельно с Prime. Решается просто — создание лида в сторонней системе отключается, и Prime создаёт его первым, корректно.

Кастомные поля как колонки базы

В новом Prime появляется возможность добавлять произвольное количество полей. Любое поле — это новая колонка в базе данных, причём поле может быть текстовым, числовым или формулой.

Как это работает с прибылью

  • Поле «прибыль» уже есть сейчас. Не нужно дожидаться нового Prime — для AmoCRM поле тянется без доработок, для Битрикса — при небольших доработках.
  • Формула. Можно задать формулу, которая по набору операторов высчитывает именно вашу прибыль (например, процент от оборота).
  • Дефолт + ручное значение. Дефолтная прибыльность считается от оборота, но если для конкретной сделки указать свою сумму — к расчёту средней стоимости лида пойдёт она. Два метода одновременно.
  • Сегменты по полю. Дальше можно взять всех пользователей с прибыльностью выше 40% — и это готовый сегмент для рекламы или retention.

Нет сессии — закрыт канал удержания

Если данных по сессиям нет, нет и таблицы соответствия между идентификатором сессии и клиента. А значит, закрывается огромный канал — триггерные чаты, пуши на сайте, ремаркетинг. Это особенно критично на фоне тренда, о котором PrimeGate говорили в передаче про MaaS: рынок постепенно уходит от привлечения первичного трафика к удержанию.

«Все ставят кнопочки „написать в WhatsApp“, которые перекидывают сразу в мессенджер. Там трекинга, сессии нет. Будет у вас номер WhatsApp в CRM, но автоматизацию по триггерному событию вы толком не сделаете, и целей в рекламные системы не отправите. То есть вы сами себе роете яму».

— Анна, PrimeGate

Без сессий остаётся костыльная автоматизация только внутри диджитал-воронки CRM по этапам сделки. Полный путь — это когда вы получаете не только контакт, но и все доступные переменные о пользователе.

Взгляд в будущее: VR-очки и веб-звонки

Артём проводит параллель с появлением iPhone в 2006–2008: тогда тоже был «хейт», а через несколько лет кнопочные телефоны исчезли. Он считает, что через пять лет интерфейсы перейдут в очки дополненной реальности — самостоятельное устройство с отдельным процессором, новую ось.

«Следующий PrimeGate 3.0 будет уже полностью в этих очках. Приходит лид — я вижу, откуда он пришёл, его профиль клиента, всё то, что сейчас есть в Data Lake, и могу прямо в чате начать общаться. Голосом добавить данные в поля, без клавиатуры».

— Артём, PrimeGate

Отсюда вывод: операционная система, BI и CRM никуда не уйдут, но методы коммуникации станут цифровыми — больше голоса и видео. PrimeGate включает веб-видеозвонки в продукт к середине следующего года. И поэтому Data Lake нужно внедрять уже сейчас: каждый новый вид коммуникации придётся трекать и обогащать данными о сессии.

Единая база данных «из коробки»

2Кейс: разные базы для колл-трекинга и обратного звонка

Артём приводит анти-пример с рынка: компания позиционирует себя как колл-трекинг и отдельно продаёт виджет обратного звонка — но базы данных у них разные, связки между ними нет, пользователи внутри собственной системы не матчатся, данные никуда не передаются.

«Мы, по сути, единственная система на рынке, которая при проектировании себя учитывает требования аналитики и CRM сразу. Не надо спорить, кто главный — главный бизнес, а всё остальное обслуживает бизнес-процессы».

— Анна, PrimeGate

Сейчас Prime объединяет 10 модулей, сегменты — 11-й, надстройка над базой. И PrimeGate первыми на рынке дали историю пользователя в колл-трекинге — скрещённые данные маркетинга и продаж, а в перспективе ещё логистики, банка, производства. Команда активно идёт к интеграции с банк-клиентом, чтобы привязывать поступивший платёж к сделке (особенно важно для SaaS и подписочных приложений без своего биллинга).

Алгоритмы матчинга колл-трекинга

Почему PrimeGate так заморачиваются точностью? Корни — в системе Prime Context, прародителе Prime: это был биддер, система управления ставками, где всё должно быть точно. Этот подход перекочевал в колл-трекинг. А на рынке колл-трекинга «всё было очень плохо».

Изначально подмена номера происходила один раз — при заходе на сайт. Продления сессии не было.

«Вы открыли сайт, вам назначился номер, ушли на обед, вернулись — а к этому моменту этот номер мог быть назначен другим пользователям ещё 10 раз. Колл-трекинг сопоставляет телефонный номер с сессией; когда происходит звонок, считается, что он от той сессии, которой назначен номер. Но продления сессии не происходило».

— Артём, PrimeGate

7 отраслевых алгоритмов, которые выпустил PrimeGate

  1. Продление сессии по движению мышки. Номер закреплён за пользователем, пока есть активность, плюс «фристайм» — промежуток после того, как сессия перестала жить.
  2. Объединение сессий. Вместо «internal» и пустого перехода источник звонка берётся из предыдущей сессии, а не из новой, в которую пользователя «переназначили».
  3. Гео-подмена. Пул номеров подменяется по региону: 8-800 для всех, отдельные пулы для Москвы и Питера. На рынке этого не было ни у кого.

«Мы единственные по сей день, кто открыто на сайте пишет, что такое колл-трекинг. По факту мы всем рассказали, как это должно быть».

Цена ошибки атрибуции и мультиканальность

3Кейс: отключили рекламу — упал оборот

Классическая ошибка: «поставлю колл-трекинг на месяц и отключу неработающие каналы». Отключают — и общий оборот падает. В реальных случаях не на 5–7%, а на 30–40–50%, потому что некорректно отключили рекламные кампании.

«Пользователь приходит из Яндекса по платному трафику, не звонит. Возвращается завтра по брендовому запросу, звонит и покупает. Маркетологи говорят: это SEO, это брендовый запрос. Но этот брендовый запрос сгенерировал платный трафик — об этом никто не думает».

— Артём, PrimeGate

Отсюда вывод про лидогенерацию: у всех это «пришёл и сразу оставил лид с того канала, с которого перешёл». На деле есть мультиканальность — лид не обязательно появляется в течение 5–7 минут и не обязательно с того же канала.

История пользователя вместо сессий

В парадигме PrimeGate нет понятия «сессия» и «хиты» — есть история пользователя. Если человек пришёл спустя два часа, два обращения склеиваются (если это «internal» и не новый рекламный канал). Если канал новый — добавляется новое обращение, и это ещё не звонок, а просто переход.

Это же логика распространяется на приложения: трекинг до установки (переходы на сайт, чтобы скачать), и пост-инсталл-аналитика — сколько живёт клиент, активировал ли доп. функции, что показать в рекламе, чтобы он перешёл на вышестоящий тариф. Если воспринимать всё это разрозненно — отдельно сквозная аналитика, отдельно колл-трекинг, отдельно CRM, отдельно реклама приложения — технологического лидерства не получить.

Преимущество all-in-one и «иллюзия коннекторов»

«Пока вы будете мыслить в парадигме „я натыркаю разные решения“ — колл-трекинг отсюда, CRM оттуда, сервис, который передаёт данные из WhatsApp и Google Play, — это никогда не будет Data Lake. Можно прокинуть, но Data Lake не будет. А не будет Data Lake — не будет вашего технологического лидерства следующие 10 лет».

— Артём, PrimeGate

Артём честно предупреждает: инфраструктура была сложной и остаётся сложной. «Сквозная аналитика на бесплатной российской веб-аналитике» всё равно потребует постоянной поддержки. Если вы не IT-компания, без своего штата и айтишной культуры — туда лучше не идти; даже большой завод не станет айтишной компанией, а только потеряет деньги. Сам Prime Артём создал как раз потому, что прошёл через эти проблемы ещё в тюнинг-ателье 2005 года — «связать сайт с CRM, биддер, формы, и чтобы это всё не отваливалось».

Что забрать с собой

  1. База данных — это ещё не озеро. CRM + ERP с продажами дают BI, но не цифровой профиль. Озеро строится вокруг пользователя.
  2. Счётчик обязателен. Озеро данных = хранилище + счётчик + алгоритм. Без счётчика нет сессии, а без сессии — нет матчинга.
  3. Лид создаём первыми. Лиды из чужой CRM приходят без сессии. Матчинг — это таблица соответствия между Visitor ID и ID в сторонней системе, построенная на лету.
  4. Нет сессии — нет retention. Триггерные чаты, пуши и ремаркетинг работают только при наличии связки сессия ↔ клиент.
  5. Матчинг колл-трекинга — это алгоритмы. Продление сессии, фристайм, гео-подмена, объединение вместо «internal».
  6. Лидогенерация мультиканальна. История пользователя важнее одной 30-минутной сессии; отключать каналы по «прямой» атрибуции опасно.
  7. All-in-One вместо зоопарка сервисов. Иначе технологического лидерства на горизонте 10 лет не будет.

Вопросы и ответы

FAQ по озеру данных и матчингу

Чем Data Lake отличается от обычной базы данных или CRM?

+
База данных (CRM + ERP) хранит сделки, продажи, дистрибьюторов — на этом можно построить BI. Но «это просто база данных». Озеро данных аккумулирует данные вокруг пользователя: цифровой профиль с сессиями, источниками, поведением. В формулировке Артёма, Data Lake — это и хранилище, и счётчик, и алгоритм сбора и сопоставления данных. Без счётчика и матчинга получается просто база, а не озеро.

Почему PrimeGate не берёт лиды из сторонней CRM, а создаёт их первым?

+
Лиды в CRM приходят без сессии. Матчить их постфактум по бесплатной веб-аналитике некорректно — там сэмплирование и неструктурированные данные. Поэтому Prime первым создаёт лид в сторонней системе: в этот момент строится таблица соответствия между PrimeGate Visitor ID и ID в чужой CRM/ERP. Матчинг делается «на лету», когда данные поступают, а не восстанавливается потом.

Зачем нужен счётчик, если в CRM уже есть профиль клиента?

+
В хороших CRM профиль клиента есть, но он лишён маркетинговых данных. Счётчик трекает источник, город по IP, устройство, браузер и матчит пользователя с сессиями Яндекса, VK, Mail — даже если он пришёл с другого устройства. Именно счётчик наполняет озеро сессией. Практически ни одна CRM счётчика не имеет, поэтому без сквозной аналитики цифрового профиля не получится.

Что будет, если поставить кнопку WhatsApp без трекинга?

+
Кнопка, которая сразу перекидывает в мессенджер, не передаёт сессию. Номер попадёт в CRM, но без сессии не будет таблицы соответствия — а значит, не сработают триггерные чаты, пуши и ремаркетинг, и цели не уйдут в рекламные системы. Анна формулирует прямо: «вы сами себе роете яму». Канал удержания (retention) закрывается, остаётся только костыльная автоматизация внутри воронки CRM.

Какие алгоритмы матчинга есть в колл-трекинге?

+
Ранний колл-трекинг подменял номер один раз — при заходе на сайт, без продления сессии: за обед номер мог «прокрутиться» между десятком пользователей. PrimeGate выпустили около 7 отраслевых алгоритмов: продление сессии по движению мышки плюс «фристайм», объединение сессий (источник берётся из предыдущей сессии вместо пустого «internal»), гео-подмена пула номеров по региону (8-800 для всех, отдельные пулы для Москвы и Питера).

Почему опасно отключать «неработающий» рекламный канал по колл-трекингу?

+
Лидогенерация мультиканальна. Пользователь приходит из платного контекста, не звонит, а возвращается завтра по брендовому запросу и покупает — но этот брендовый запрос сгенерировал именно платный трафик. Если отключить «неработающий» контекст по прямой атрибуции, падает общий оборот — в реальных кейсах на 30–50%. PrimeGate работает с историей пользователя, а не с одной 30-минутной сессией, и склеивает обращения.

Можно ли просто соединить разные сервисы коннекторами и получить Data Lake?

+
Артём называет это «иллюзией рынка». Пока вы натыркиваете разрозненные решения — колл-трекинг отсюда, CRM оттуда, сервис передачи данных из WhatsApp и Google Play, — это никогда не станет Data Lake, потому что данные идут без сессии. Инфраструктура была и остаётся сложной. Если вы не IT-компания без своего штата и айтишной культуры, лучше брать готовую операционную систему all-in-one, а не строить озеро из коннекторов.
Ваш бизнес теряет клиентов на картах? — Проверьте за 90 секунд Бесплатный аудит
Получите бесплатный аудит прямо сейчас!
Введите название Вашей компании так, как оно указано на Яндекс.Картах (без «ООО»), и город. Затем выберите из списка.
*как на Яндекс Картах + город, без ООО. И выберите свою компанию из списка
Получить бесплатный аудит
Куда прислать аудит? (Ожидание около 3 минут)
Ваша роль в компании
Предприниматель
Маркетолог

Благодарим Вас!

Пришлём результаты аудита в течение 3х минут в мессенджер.

А пока ждёте, посмотрите короткий обзор лучших практик по выводу Вашего бизнеса в ТОП на картах.