Руководство для начинающих по аналитике данных (часть первая)
Опубликовано: 2017-10-14Это первая серия из двух частей.
Оглавление
Часть первая — Создание хранилища данных
В настоящее время все хотят построить хранилище данных. Но нужно ли это человеку? Даже если вам это нужно, как вы узнаете, что строите правильную вещь и когда вы действительно начнете пожинать первые плоды?
Но обо всем по порядку: что такое хранилище данных? Проще говоря, это единое место, где вы можете хранить данные из всех источников. Это помогает ответить на вопросы, требующие сложного анализа с использованием данных из нескольких источников. Вы также можете создать хранилище данных таким образом, чтобы быстро удовлетворять самые частые потребности в данных.
Год назад мы в UpGrad бились над этим вопросом — строить или не строить хранилище данных?
Чтобы ответить на этот и многие другие подобные вопросы, мы поговорили со многими другими людьми, которые делали это раньше. Первое, что мы заметили, это то, что для создания хранилища данных (или DW) вам нужна правильная команда инженеров данных, архитекторов, аналитиков и менеджеров по продуктам. Первый вопрос, который мы задали, был — действительно ли это стоит таких вложений?
Чтобы найти правильный ответ, нам нужно задать себе правильный набор вопросов. Эти вопросы могут занять много времени и энергии, но как только вы закончите с ними, вы будете гораздо более уверены в том, стоит ли двигаться дальше с DW или нет. Здесь мы предоставим ответы, которые мы получили в результате нашего собственного упражнения, чтобы улучшить ваше понимание и, надеюсь, помочь вам в этом процессе принятия решения о том, создавать ли собственное хранилище данных.

Вопрос №1: Какие ответы вы хотите получить от аналитики/данных? И на какой частоте?
Как вы, должно быть, уже заметили, это самый важный вопрос из всех. Вы должны привлечь другие команды (продажи, маркетинг, бизнес), отвечая на эти вопросы, чтобы ничего не пропустить.
Что это означало для нас : мы хотели получить 3 важных ответа от аналитики/данных:
а. Какие каналы в маркетинге работают хорошо, например многоканальная атрибуция?
Маркетинговая команда UpGrad использует различные каналы, как онлайн, так и офлайн, для привлечения пользователей. Мы проводим офлайн-семинары и мероприятия для профессионалов, стремящихся к карьерному росту. Мы также используем онлайн-каналы, такие как Facebook и Google, для привлечения этих профессионалов. Поэтому нам становится очень важно знать, какие каналы работают хорошо, чтобы разрабатывать нашу маркетинговую стратегию на еженедельной или даже ежедневной основе. Кроме того, мы также хотим знать, влияют ли ремаркетинг или усилия в автономном режиме на превращение этих пользователей в платных студентов.
б. Как выглядит наша воронка конверсии ?
Наша воронка выглядит намного больше, чем у большинства компаний. Первое посещение — регистрация — начало подачи заявки — подача заявки — сдан тест/освобожден — шорт-лист — оплачено. Крайне важно знать, как выглядит воронка на основе множества различных характеристик, таких как город, возрастная группа, канал привлечения и т. д.
в. Можем ли мы предсказать, заплатит пользователь в конечном итоге или нет, т.е. лид-скоринг ?
Оценка потенциальных клиентов может основываться на двух вещах — пригодности и интересе. Соответствие определяется атрибутами пользователя, такими как многолетний опыт, баллы GRE/GMAT/CAT и т. д. Интерес основан на том, насколько активен пользователь на веб-сайте или насколько он реагирует на звонки или электронные письма.
Помимо этого, мы хотели:
д. Отслеживайте успеваемость каждого учащегося по курсу или программе, чтобы мы могли помочь им в нужное время.
е. Следите за оценками учащихся и отзывами о содержании курса.
Мы получили еще много таких вопросов от разных команд… но вы поняли.
4 основных навыка анализа данных, которые вам нужныВопрос № 2. Какие из этих ответов уже предоставлены текущей настройкой или потребуют лишь минимальных настроек?
Задав этот вопрос, вы получите хорошее представление о текущих возможностях базы данных. Убедитесь, что у вас есть нужные инженеры, когда вы спрашиваете об этом (подсказка: большинство из них будут бэкэнд-инженерами в стартапе, которые следят за транзакционной базой данных).
Что это означало для нас :
а. Многоканальная атрибуция
Прежде чем совершить покупку, посетители совершают множество посещений по разным каналам. Иногда они просто находят вас в Google и заходят на ваш сайт, а иногда приходят на офлайн-промо-мероприятие. Поэтому, когда посетитель, наконец, покупает продукт, мы хотим определить, какой из каналов оказался наиболее эффективным. Для этого нам нужно объединить онлайн- и офлайн-данные* в одном месте и запустить разные модели атрибуции.
б. Воронки конверсии
Наша воронка снова включает в себя некоторые автономные компоненты, такие как короткие списки и тесты, которые вручную загружаются в Salesforce командой консультантов. Воронка требует объединения данных веб-потока с данными Salesforce.
в. Лид-скоринг
Большинство инструментов оценки потенциальных клиентов являются базовыми. Например, вы можете оценивать на основе событий, транслируемых в Pardot (от Salesforce). Нам нужна была система, которая могла бы объединять данные из Salesforce, веб-аналитики и электронной почты, чтобы выставлять окончательный балл на основе соответствия и интереса.

д. Студенческое выступление
Поскольку эти данные хранятся в базе данных транзакций, мы могли бы найти инструмент визуализации, такой как BIME или Tableau, для извлечения данных и создания этих панелей мониторинга.
е. Оценки и отзывы студентов
То же, что (d) выше.
Итак, мы начали строить схему хранилища данных, имея в виду a, b и c. Многие стартапы не требуют подсчета лидов и имеют только один источник данных для воронок конверсии и атрибуции. Для этих стартапов инструмент бизнес-аналитики (BI) более эффективен, чем фактическое создание хранилища данных.

Вопрос № 3: Будут ли вещи выглядеть по-другому при масштабировании в течение следующих 1–2 лет?
При масштабировании ваша транзакционная база данных может стать очень большой, а запросы могут стать медленнее или начать давать сбои. Такие ситуации также следует учитывать при проектировании склада.
Что это означало для нас:
Наша таблица базы данных студенческой деятельности будет расти очень быстро, поскольку мы добавляем больше курсов и студентов. Запросы уже начали замедляться. Это имело смысл иметь в виду при разработке схемы.
Вопрос № 4. Куда еще вы хотите отправить нужные данные из своего хранилища данных?
Данные, хранящиеся в хранилище, могут иметь множество различных вариантов использования, кроме основного. Эти варианты использования помогут вам продумать схему и включить дополнительные поля, если это необходимо, при построении схемы.
Что это означало для нас:
Оценка потенциальных клиентов используется группой консультантов, поэтому мы должны отправить ее в Salesforce. Оценка пригодности для оценки потенциальных клиентов также может использоваться определенной командой курса для автоматического исключения их из курса. Модель атрибуции используется маркетинговой командой, поэтому мы должны отправить ее в инструмент BI в определенном формате.
Наконец, вопрос № 5 : есть ли у вас подходящая команда для принятия таких решений, как:
- Какую базу данных аналитики следует использовать в зависимости от масштаба и вариантов использования аналитики?
- Какой должна быть схема/модель данных для текущих вариантов использования? Является ли эта схема масштабируемой?
- Какой тип ETL потребуется для создания базы данных аналитики? Сколько времени займет ETL?
- Какова будет частота обновления разных таблиц? Как вы должны обрабатывать сценарии использования в реальном времени, например, для систем рекомендаций?
Вам понадобится инженер данных, старший инженер, который уже работал с данными не менее 3–5 лет, и специалист по данным, чтобы принимать многие из этих решений.
12 способов связать аналитику данных с бизнес-результатамиОбдумав эти 5 вопросов, стартап может решить, строить хранилище данных или нет. Вот простой список плюсов и минусов хранилища данных, который поможет вам оценить еще больше:
Плюсы —
- Вы будете иметь полный контроль над своими данными и легко переключаться на сторонние инструменты, когда они становятся для вас дороже или не соответствуют вашим требованиям.
- Вы можете создавать продукты для науки о данных! Рекомендации, поиск, анализ настроений, спам и ветчина и т. д. Будьте осторожны и заранее проверьте, потребуются ли вам данные в реальном времени для этих продуктов, или их нужно будет обновлять ежечасно/ежедневно.
- Как указывалось ранее, вы можете сэкономить много времени и усилий для аналитиков. Запросы будут выполняться быстрее, а данные будут надежными.
Минусы —
- Вам необходимо вложить значительные средства в инженерные ресурсы и ресурсы хранения данных задолго до того, как вы сможете начать пожинать плоды.
- Скорее всего, ваша первая сборка будет далека от совершенства. Если вы являетесь компанией, находящейся на ранней или средней стадии, многие процессы все еще развиваются. Вы не можете охватить дела, которые возникнут в ближайшие 3–6 месяцев. Сталкиваясь с такими вопросами, как почему мы не подумали об этом и т. д., вы можете разочароваться. Вам нужно будет отмахнуться от этих небольших неудач и сосредоточиться на долгосрочной цели.
- Большинству организаций не хватает необходимых исследований и терпения для создания решения Data Warehouse для своих нужд. Вам нужно будет потратить много времени, прежде чем начать все это.

После того, как вы выполните это упражнение, я уверен, что вы будете готовы отправиться в путешествие по анализу данных для своего стартапа и избежите дорогостоящих ошибок. Оставьте комментарий ниже и сообщите нам, понравился ли вам этот пост или был ли он полезен. Оставайтесь с нами для следующего!
* Если бы у нас были только онлайн-каналы, мы могли бы использовать многоканальную атрибуцию Google Analytics. У нас также есть данные об офлайн-событиях, которые можно загрузить в Google Analytics. Задача решена? Увы! GA запрещает вам отправлять любую личную информацию. В отсутствие информации об электронной почте трудно связать эти данные с другими источниками данных, если только вы не сопоставите идентификатор Google Analytics с электронными письмами в своей собственной базе данных, не найдёте эти идентификаторы и не загрузите автономные данные с этими идентификаторами в GA.
Почему аналитика данных важна для стартапа?
Для начала анализ данных может помочь стартапу в определении его целей. Было бы сложно ставить цели и отслеживать прогресс без метрик, которые помогают стартапу продолжать совершенствоваться и двигаться вперед. Во-вторых, каждый сотрудник компании может использовать данные для повышения производительности и улучшения процесса принятия решений. Он помогает предпринимателям принимать мудрые, взвешенные и хорошо информированные решения о стартапе. Кроме того, зная заранее, чего хотят клиенты, маркетинговые кампании становятся более клиентоориентированными. Наконец, аналитика данных помогает стартапам обнаруживать дополнительные потенциальные возможности для оптимизации операций и увеличения прибыли.
Действительно ли аналитика данных важна для стартапов?
Ответ: Да! Стартапы одновременно и захватывающие, и утомительные. Возможности безграничны, что одновременно волнует и ошеломляет. Существует множество вещей, которые необходимо внедрить, но аналитика данных часто упускается из виду. Если вы считаете, что аналитику данных можно отложить до тех пор, пока ваша компания не станет прочной, вы обнаружите, что добиться этого гораздо сложнее. То, что вы узнаете из анализа данных, может стать ключом к переходу на следующий уровень. Это данные, которые отвечают на важные вопросы о вашем маркетинге, пользователях, продукте, производительности, обслуживании клиентов, чтобы помочь вам выбрать правильное направление для вашего стартапа.
Какие инструменты анализа данных лучше всего подходят для стартапов?
В двадцать первом веке сбор и анализ данных имеют решающее значение для принятия решений. Независимо от того, продаете ли вы небольшой продукт, бизнес, связанный с программным обеспечением как услугой (SaaS), или управляете веб-сайтом, вам необходимо знать, что побуждает ваших клиентов покупать ваш продукт, как выглядит ваша маркетинговая воронка и как вы можете ее улучшить. Одними из наиболее эффективных инструментов аналитики, которые помогут в успехе вашего бизнеса, являются Google Analytics, R и Python, Microsoft Excel, Tableau, RapidMiner, KNIME, Power BI, Apache Spark, Qlik View, Talend, Splunk и т. д.
