Брифинг: хранилище данных

Опубликовано: 2022-03-11

Компании и потребители генерируют больше данных, чем когда-либо. Распространение цифровых устройств и продуктов приводит к экспоненциальному расширению цифровой вселенной. Хотя теоретически эти данные представляют собой актив, масштаб этих данных представляет собой проблему: как компании могут практически организовать свою информацию, чтобы выявить полезные идеи?

В то время как интеллектуальный анализ данных и бизнес-аналитика обеспечивают ценное извлечение и представление такой информации, хранилище данных (DWH) представляет собой подготовительную агрегацию и реорганизацию обширных базовых данных, которые часто находятся в нескольких местах. Понимание роли DWH в более широкой экосистеме науки о данных, интеллектуального анализа данных и бизнес-аналитики имеет важное значение для современного менеджера.

Что такое хранилище данных?

DWH представляет собой централизованное хранилище цифровой информации, собранной из множества разрозненных источников и организованной в структуру, оптимизированную для создания отчетов. Что наиболее важно, DWH предоставляет полезную информацию всему предприятию, позволяя сотрудникам проводить индивидуальный анализ и принимать более обоснованные решения.

Основные концепции хранилища данных

Реляционная и многомерная модели

Чтобы оценить функциональность хранилища данных, важно понимать разницу между реляционной и многомерной моделью. При техничном звучании их легко различить.

С точки зрения практического использования реляционные и многомерные базы данных различаются по одному важному критерию: потоку информации. В то время как реляционные базы данных оптимизированы для ввода данных, многомерные базы данных созданы для вывода, особенно в форме отчетов и аналитики, известной как бизнес-аналитика.

Реляционная модель организует информацию вокруг одной точки информации, например, имени клиента. В такой модели имя клиента находится в одном месте, а вся связанная с ним информация, такая как контактные данные и даты транзакций, указана в связанных или связанных таблицах.

Напротив, многомерная база данных по существу «распаковывает» реляционную базу данных, позволяя пользователям легко «нарезать и нарезать» данные в необходимой перестановке, необходимой для удовлетворения их потребностей в отчетности. Например, в приведенной выше записи реляционной базы данных контактные данные клиентов будут разбиты на отдельные поля, такие как номер телефона, почтовый адрес, город, штат и почтовый индекс.

Многомерная база данных по существу «распаковывает» реляционную базу данных, позволяя пользователям легко «нарезать и нарезать» данные.

Различие между реляционной и многомерной базой данных может показаться абстрактным. Тем не менее, для тех, кто отвечает за предоставление все более сложной аналитики и отчетов, понимание различия дает ценное фундаментальное понимание для работы с техническими командами, которые поддерживают эти ресурсы.

Хранилище данных — «Включено»

Как подробно рассказал Билл Инмон, один из создателей хранилища данных, дизайн хранилища данных определяется несколькими специфическими характеристиками. По словам Инмона, хранилище данных представляет собой предметно-ориентированный, энергонезависимый, интегрированный, меняющийся во времени набор данных для поддержки решений руководства.

Это многословно, но если разбить его на части, это определение дает четкую картину базовой структуры DWH. Чтобы упростить запоминание этих критериев, мы реорганизовали критерии Инмона в соответствии с анаграммой «Все включено».

Интеграция: данные должны иметь согласованные форматы. Поля данных, которые часто берутся из разных источников, должны иметь согласованные соглашения об именах.

Вариант времени: DWH выявляет тенденции, которые зависят от изменений во времени. Запись точек данных во времени имеет основополагающее значение для выявления взаимосвязей между данными.

Предметно-ориентированный: DWH позволяет проводить предметно-ориентированный анализ и отчетность. Например, компания может захотеть оценить продажи продукта с течением времени, а затем углубиться в тенденции, характерные для региона или клиентского сегмента.

Энергонезависимая: как только данные поступают в хранилище, они не меняются.

Хранилище данных отличается от транзакционной базы данных

Системы DWH и транзакционных баз данных выполняют принципиально разные функции и обслуживают разных пользователей. В то время как DWH оптимизирован для отчетности и анализа, системы транзакций, часто называемые обработкой транзакций в режиме онлайн (OLTP), оптимизированы для обеспечения доступности и скорости обработки.

Пользователи OLTP обычно являются внешними сотрудниками и обычно имеют доступ к нескольким записям одновременно. Пользователями СХД часто являются аналитики и менеджеры, отчеты которых могут одновременно вызывать до нескольких миллионов записей.

Система транзакций и ХД также отличаются степенью детализации и постоянством данных. В OLTP данные содержат текущие значения, которые детализированы и сильно изменчивы (каждые несколько секунд тысячи транзакций меняют значения этих записей). Напротив, DWH содержит реструктурированные данные, которые нельзя изменить после загрузки.

Процесс потребительского кредита кратко иллюстрирует ключевые различия между этими системами. Например, когда клиент получает автокредит, база данных транзакций фиксирует такие сведения, как тип автомобиля, цвет, год покупки, цена покупки и личные данные покупателя. После преобразования в модель DWH транзакционная информация (в отношении одной транзакции клиента) дезагрегируется на составные части. Эти части, в свою очередь, объединяются с сопоставимыми частями других транзакций.

Запрашивая DWH, сотрудник кредитора может получить доступ к отчетам, состоящим из агрегированных данных о клиентах. Например, пытаясь оптимизировать расходы на рекламу, менеджер по маркетингу может искать автомобили определенного типа или ценового диапазона с самым высоким показателем одобрения кредита или средним возрастом и уровнем дохода претендентов на кредит с течением времени. Такая информация может направить перенаправление рекламных расходов на более релевантные каналы с более целенаправленным обменом сообщениями.

Хранилище данных против Data Mart и Data Lake

DWH может сопровождаться связанными базами данных — киоском данных и озером данных, чьи описательные имена предполагают различные функции. Подмножество DWH, киоск данных обслуживает определенную группу пользователей, например подразделение или конкретную бизнес-единицу. В то время как DWH содержит несколько тем, относящихся к нескольким отделам, таких как продажи, клиенты, продукты, запасы, поставщики, витрина данных обычно содержит одну предметную область для одного отдела, например, продаж или финансов.

Существует два типа витрин данных — зависимые и независимые, и каждый из них имеет уникальные преимущества. Зависимая витрина данных использует DWH и имеет преимущество согласованности. Поскольку все данные централизованы и непротиворечивы в DWH, результирующие витрины данных также непротиворечивы. В то время как более надежные, зависимые витрины данных требуют DWH, и поэтому их разработка обходится дороже.

С другой стороны, независимые витрины данных извлекают данные непосредственно из одних и тех же исходных баз данных, как мини-хранилище данных. Несмотря на то, что разработка независимых витрин данных происходит быстрее и дешевле, они сопряжены с повышенным риском, поскольку определения данных могут стать несогласованными в независимо разработанных витринах данных. Однако при дисциплинированном подходе независимые витрины данных в конечном итоге могут быть собраны в DWH.

Озера данных обычно настраиваются на кластере недорогого и масштабируемого серийного оборудования. Это позволяет сбрасывать данные в озеро, не беспокоясь о емкости хранилища. В то время как DWH обычно ограничивается текстовыми и числовыми данными, озеро также может содержать более широкий спектр, включая социальные сети, данные датчиков и изображения.

Хранилище данных и интеллектуальный анализ данных

DWH обеспечивает интеллектуальный анализ данных, который дает компаниям возможность предсказывать будущее. Основная цель интеллектуального анализа данных — выявить закономерности в больших наборах данных. Такие шаблоны, в свою очередь, выявляют отношения между различными категориями данных и лежащими в их основе бизнес-функциями.

Такие отношения предоставляют менеджерам полезную информацию, фактически новые рычаги для достижения желаемых бизнес-результатов, таких как рост количества клиентов или увеличение продаж в расчете на одного клиента. Например, просмотр исторических данных о продажах по географическим или отраслевым сегментам может выявить аномальный рост, источник которого может предоставить менеджерам по продажам знания, которые можно применить к другим сегментам.