Архитектура хранилища данных: все, что вам нужно знать
Опубликовано: 2020-04-30В этом ориентированном на данные мире неудивительно, что рано или поздно каждый из нас будет генерировать 1,7 МБ данных в секунду . Но куда делись все эти данные? Разве не должно быть хранилище для безопасного хранения всей этой информации, чтобы ее можно было восстановить при необходимости?
Что, если мы скажем вам, что такое хранилище существует? Неудивительно, что это называется хранилищем данных. Это аналитический инструмент, содержащий данные и информацию из оперативных источников, созданный для помощи в принятии решений и отчетности.
Сегодня глобальный рынок хранилищ данных вырос до такой степени, что ожидается, что в последующие годы он будет расти со среднегодовым темпом роста 16% .
Итак, давайте углубимся в изучение хранилища данных и его архитектуры.
Узнайте больше: что такое хранилище данных и интеллектуальный анализ данных
Оглавление
Что такое хранилище данных?
Место для хранения всех прошлых и коммутативных данных, поступающих из одного или нескольких источников, называется хранилищем данных. Основная цель наличия хранилища данных — упростить процессы бизнес-аналитики и отчетности в бизнесе. По сути, он выполняет запросы и анализ данных, которые он хранит.
Поскольку хранилище данных содержит транзакционные данные из нескольких источников, оно помогает компаниям:
- Сохраняйте старые записи
- Оценить существующие данные и выявить лазейки в операциях
Структура бизнес-анализа для разработки хранилища данных
Обычно аналитик данных собирает соответствующие данные из хранилища и анализирует их, чтобы помочь бизнесу улучшить свою деятельность. Использование хранилища данных очень удобно, поскольку оно помогает быстро и эффективно получать доступ к данным, тем самым повышая общую производительность.
Кроме того, вы можете получить всестороннее представление о клиентах и всех продуктах. Таким образом, вы можете обеспечить гладкие отношения с клиентами.
Но чтобы все это произошло, аналитик данных должен сначала понять потребности бизнеса. А для этого им необходимо создать структуру бизнес-анализа.
Только после того, как построена структура бизнес-анализа, мы можем перейти к проектированию хранилища данных. На это есть три взгляда:
- Вид сверху вниз : в этом представлении вы можете увидеть соответствующую информацию, необходимую для проектирования склада.
- Представление источника данных : представляет собранные, сохраненные и управляемые данные.
- Представление хранилища данных : в нем перечислены таблицы фактов, таблицы измерений и данные в хранилище.
- Представление бизнес-запросов : здесь вы можете увидеть данные с точки зрения конечного пользователя.
После того, как вы просмотрели данные со всех этих точек зрения, пришло время перейти к изучению трех типов архитектуры хранилища данных.
Три типа архитектуры хранилища данных
Каждый раз, когда вы планируете спроектировать хранилище данных для компании, вы можете рассмотреть план создания своего хранилища данных, а также следующие три уровня архитектуры.
- Один уровень : он в основном отвечает за создание близкого набора пакетов данных и уменьшение его общего объема. Однако этот тип не рекомендуется для компаний, имеющих сложные данные и несколько потоков данных.
- Два уровня : в архитектуре этого типа источники данных разделены, что делает организацию данных и процесс хранения более эффективными.
- Три уровня : этот тип архитектуры хранилища является наиболее предпочтительным, поскольку он дает действительно ценную информацию из необработанных данных, создавая таким образом организованный поток данных.
Он состоит из следующих трех уровней:
- Нижний ярус , который содержит серверы склада. Здесь данные очищаются и загружаются с помощью внутренних инструментов.
- Средний уровень состоит из сервера OLAP . Этот уровень предоставляет пользователю абстрактное представление базы данных, выступая в качестве соединения между конечным пользователем и базой данных.
- Верхний уровень имеет API и инструменты (инструменты запросов, интеллектуального анализа данных, анализа и отчетности) для извлечения данных из хранилища.
Компоненты архитектуры хранилища данных
Чтобы сделать функционирование архитектуры управляемым, хранилище содержит сервер СУБД, окруженный пятью основными компонентами.
Вот пять основных компонентов архитектуры хранилища данных.
База данных хранилища данных
Главной частью архитектуры хранилища является банк данных, содержащий всю бизнес-информацию, которая делает ее понятной для отчетности. Очевидно, это означает, что вы должны выбрать, какой тип базы данных вы будете использовать для хранения данных в своем хранилище.
Далее следуют четыре типа баз данных, которые вы можете использовать:
- Реляционные базы данных — это базы данных на основе строк, с которыми вы обычно сталкиваетесь или используете каждый день. К ним относятся Microsoft SQL Server, SAP, Oracle и IBM DB2.
- Аналитические базы данных специально созданы для накопления информации для поддержки и контроля анализа. Например, Терадата и Гринплам.
- Приложения хранилища данных на самом деле не являются своего рода базами данных емкости. Это приложения, предлагающие программное обеспечение для управления данными, например SAP Hana, Oracle Exadata и IBM Netezza.
- Облачные базы данных — это те, которые можно упростить и восстановить в облаке, чтобы вам не нужно было приобретать какое-либо оборудование для настройки хранилища данных. Например, Amazon Redshift, Microsoft Azure SQL и Google BigQuery.
Если вам интересно узнать больше о науке о данных, ознакомьтесь с нашими учебными курсами по науке о данных в ведущих университетах.
Инструменты извлечения, преобразования и загрузки (ETL)
Устройства ETL являются основой архитектуры хранилища данных. Они помогают отделить информацию из разных источников, преобразовать ее в разумное расположение и сложить в хранилище.
Выбранный вами инструмент ETL будет решать:
- Время, затрачиваемое на извлечение информации
- Способы извлечения данных
- Тип примененных изменений и усилия, необходимые для этого
- Определение бизнес-правил для проверки и очистки информации для улучшения аналитики конечного продукта.
- Заполнение утерянной информации
- График передачи данных из сейфа с ключами в ваши BI-приложения
Метаданные
Метаданные изображают хранилище данных и предлагают систему для информации. Это помогает в разработке, защите, обработке и использовании склада. Он бывает двух видов:
- Технические метаданные : включают данные, которые инженеры и менеджеры могут использовать при выполнении задач по развитию склада и организации.
- Бизнес-метаданные : они включают данные, которые предлагают эффективное обоснованное положение данных в хранилище.
Метаданные играют важную роль для организаций в понимании данных, присутствующих в хранилище, и преобразовании их в полезную информацию.
Инструменты доступа к хранилищу данных
Хранилище данных использует базу данных или группу баз данных в качестве учреждения. Корпорации, по большей части, не могут легально работать с базами данных. По этой причине они используют несколько инструментов, в том числе:
- Инструменты запросов и отчетов : они помогают пользователям создавать корпоративные отчеты в виде электронных таблиц, вычислений или интеллектуальных визуальных элементов для проведения углубленного анализа.
- Устройства OLAP : они помогают разработать многомерное хранилище данных и проводить анализ больших данных с разных точек зрения.
- Инструменты интеллектуального анализа данных : они систематизируют методологию распознавания кластеров и связей в огромных объемах данных с использованием стратегий статистического моделирования. Узнайте больше о методах интеллектуального анализа данных.
- Инструменты разработки приложений : они помогают создавать настраиваемые отчеты и представлять их в переводе, предназначенном для конкретных целей отчетности.
Шина хранилища данных
Это помогает определить ход данных в хранилище. Этот поток может быть организован как входящий, восходящий, нисходящий, исходящий и метапоток.
При проектировании шины данных вам необходимо подумать об общих измерениях, фактах для киосков данных.
Витрины данных
Это входной уровень, используемый для передачи информации пользователям. Он представлен как возможность для хранилища данных огромного размера, поскольку для его создания требуется совсем немного времени и денег. В любом случае стандартного значения витрины данных не существует, поскольку оно варьируется от человека к человеку.
Упрощенно витрина данных является вспомогательной частью хранилища данных и используется для сегментации информации, которая производится для определенной группы пользователей.
Уровни архитектуры хранилища данных
Создание хранилища данных в первую очередь зависит от конкретного бизнеса. Итак, каждая архитектура имеет четыре слоя. Изучим их подробно ниже.

Уровень источника данных
Уровень источника данных — это место, где уникальная информация, собранная из множества внутренних и внешних источников, находится в социальной базе данных. Ниже приведены примеры слоя источника данных:
- Операционные данные — информация о продукте, информация о запасах, маркетинговая информация или информация о персонале.
- Данные социальных сетей — посещаемость веб-сайта, известность контента, заполнение контактной страницы.
- Аутсайдерские данные — демографическая информация, информация об исследованиях, статистическая информация.
Хотя большинство хранилищ данных управляют организованными данными, следует подумать о будущем использовании неструктурированных источников данных, например голосовых учетных записей, отсканированных изображений и неструктурированного текста. Эти потоки данных являются важными хранилищами информации, и их следует учитывать при создании хранилища.
Уровень промежуточного хранения данных
Этот слой находится между источниками информации и хранилищем данных. На этом уровне информация отделяется от различных внутренних и внешних источников данных. Поскольку исходные данные поступают в различные организации, уровень извлечения данных будет использовать множество технологий и устройств для извлечения необходимой информации.
После того, как извлеченные данные будут сложены, они будут подвергаться высокоуровневой проверке качества. Конечным результатом будут идеальные и организованные данные, которые вы поместите в свое хранилище данных. Промежуточный слой содержит данные части:
- База данных посадки и промежуточная зона
База данных посадки хранит информацию, восстановленную из источника данных. Перед тем, как данные попадают в хранилище, в процессе промежуточного хранения выполняется строгая проверка их качества. Аранжировка — это основной шаг в архитектуре. Плохая информация приведет к неадекватным данным, что приведет к плохой динамике бизнеса. На уровне упорядочения вам необходимо внести изменения в соответствии с бизнес-процессом для работы с неструктурированными источниками информации.
- Инструмент интеграции данных
Инструменты извлечения, преобразования и загрузки (ETL) — это инструменты данных, используемые для извлечения информации из исходных платформ, изменения и подготовки информации и загрузки ее в хранилище.
Читайте: Зарплата специалиста по данным в Индии
Уровень хранения данных
Этот слой является местом, где данные, вымытые в зоне аранжировки, убираются в виде отдельного центрального архива. В зависимости от потребностей вашего бизнеса и архитектуры вашего хранилища вашим хранилищем данных может быть центр хранилища данных, витрина данных (хранилище данных, несколько воссозданное для определенных отделов) или хранилище операционных данных (ODS).
Уровень представления данных
Именно здесь пользователи общаются с очищенными и отсортированными данными. Этот уровень архитектуры данных дает пользователям возможность запрашивать данные для получения информации об элементах или услугах, разбивать данные для анализа теоретических бизнес-ситуаций и создавать компьютеризированные или специально предназначенные отчеты.
Вы можете использовать OLAP или инструмент отчетности с простым для понимания графическим пользовательским интерфейсом (GUI), чтобы помочь пользователям создавать свои запросы, выполнять анализ или планировать свои отчеты.
Характеристики хранилища данных
Хранилище данных является предметно-ориентированным, энергонезависимым, изменяющимся во времени и представляет собой интегрированный набор данных, обеспечивающий быстрый и эффективный процесс принятия решений в организации.
- Предметно-ориентированный : хранилище данных можно использовать для изучения определенной отрасли знаний. Например, «продажи» могут быть конкретным предметом.
- Интегрированный : Хранилище данных включает информацию из разных источников. Например, у источника А и источника Б могут быть разные методы распознавания товара, однако на складе будет только один метод распознавания товара.
- Time-Variant : Хранилище содержит исторические данные. Например, из хранилища данных можно восстановить информацию за 3 месяца, полгода, год или значительно более старую информацию. Это выглядит по-другому в отношении структуры транзакций, где хранится только самая последняя информация. Например, структура транзакций может содержать последнее местоположение клиента, тогда как хранилище данных может содержать все местоположения, связанные с клиентом.
- Энергонезависимость : одна из лучших характеристик хранилища данных заключается в том, что после того, как данные хранятся в нем, невозможно, чтобы они изменились. Таким образом, записанная информация на складе никогда не будет изменена.
Как использовать архитектуру хранилища данных?
Создание базы данных, которая нужна вашему бизнесу или предприятию, и то, как вы собираетесь с ней сотрудничать, имеет решающее значение при поиске идей. Также важно оценить, кто будет проверять информацию и какие источники им нужны, при рассмотрении проекта вашего хранилища данных.
Несмотря на то, что шутки о хранилище данных и витрине данных не всегда актуальны для небольших организаций, те, у кого больше групп, подразделений и явных потребностей, могут извлечь выгоду из витрины данных. Особая тематическая природа витрины данных делает ее неотъемлемой частью архитектуры вашего хранилища данных.
Кроме того, в зависимости от размера вашей организации, различные типы складских конструкций могут быть более практичными. Понимание того, что лучше, зависит от ваших данных, размера наборов и потребностей вашего бизнеса.
Заключение
Хранилище данных — это структура науки о данных, которая содержит достоверную и коммутативную информацию из одного или нескольких источников. Это отличный способ получить доступ к старым и новым данным, извлечь из них ценную информацию и улучшить бизнес-процессы путем анализа существующих данных.
Кроме того, концепции хранилища данных являются предметно-ориентированными, поскольку они предлагают данные по предмету, а не по текущей деятельности ассоциации. На складе включение подразумевает создание типичной единицы измерения для всех сопоставимых данных из различных баз данных. Как упоминалось ранее, он также является энергонезависимым, что означает, что предыдущая информация не удаляется при вводе в нее новой информации.
Характеристика изменения во времени хранилища данных обеспечивает реалистичное удобство использования в течение длительного периода времени.
Существует пять основных частей хранилища данных. 1) База данных 2) Инструменты ETL 3) Метаданные 4) Инструменты запросов 5) Витрины данных
Четыре основных класса инструментов запросов — это инструменты запросов и отчетов, инструменты разработки приложений, устройства интеллектуального анализа данных и инструменты OLAP.
Инструменты поиска, изменения и перемещения информации используются для воспроизведения всех преобразований и набросков.
В архитектуре хранилища данных метатег выполняет важную работу, поскольку указывает источник, использование, качество и основные моменты данных в хранилище данных.
Мы надеемся, что информация в этой статье помогла вам понять основы архитектуры хранилища данных. Для получения дополнительной информации свяжитесь с экспертами upGrad. Просто напишите нам по электронной почте, и мы свяжемся с вами, чтобы помочь вам с вашими вопросами.
Если вам интересно узнать о науке о данных, ознакомьтесь с программой IIIT-B & upGrad Executive PG по науке о данных , которая создана для работающих профессионалов и предлагает более 10 тематических исследований и проектов, практические семинары, наставничество с отраслевыми экспертами, 1 -на-1 с отраслевыми наставниками, более 400 часов обучения и помощи в трудоустройстве в ведущих фирмах.
Какова архитектура хранилища данных?
Методом определения всей архитектуры обработки передачи данных, а также представления, существующего для конечных клиентов, является архитектура хранилища данных. Каждое хранилище данных отличается, и каждое из них характеризуется стандартными жизненно важными компонентами.
Проще говоря, хранилище данных — это информационная система, состоящая из коммутативных и исторических данных из одного или нескольких источников. Процесс отчетности и анализа данных в организациях упрощается с помощью различных концепций хранения данных. Существуют разные подходы к построению архитектуры хранилища данных. Любой подход используется исходя из требований организаций.
Сколько в среднем зарабатывает архитектор хранилища данных?
Архитектор хранилища данных — очень востребованная вакансия, на которую можно рассчитывать с отличной зарплатой. В среднем, зарплата архитектора хранилища данных составляет рупий. 13 000 000 в год. Даже если вы начинаете свою карьеру в этой области, вы можете рассчитывать на начальную зарплату в размере рупий. 10 000 000 в год. Когда вы получаете больше опыта и продвигаетесь по карьерной лестнице, зарплата может варьироваться до рупий. 22 000 000 в год.
Без сомнения, пакет заработной платы будет зависеть даже от компании, в которую вы присоединяетесь, уровня опыта и, самое главное, от географического положения.
Каков правильный поток архитектуры хранилища данных?
К каждой рабочей базе данных необходимо применить определенное фиксированное количество операций. Существуют различные четко определенные методы предоставления подходящих решений. Хранилище данных оказывается более эффективным, когда полностью соблюдается правильный поток архитектуры хранилища данных.
Хранилище данных состоит из четырех различных процессов: извлечение и загрузка данных, очистка и преобразование данных, резервное копирование и архивирование данных, а также выполнение процесса управления запросами путем направления их в соответствующие источники данных.