Что такое хранилище данных и интеллектуальный анализ данных
Опубликовано: 2018-02-22Корпоративные данные хранились в информационных хранилищах, которые физически были отделены от других хранилищ данных, и каждое хранилище выполняло специализированные функции, но это было до того, как Большие данные обрушились на мир (если можно так сказать, бурей). Теперь практически невозможно практиковать одни и те же методы на таких больших наборах данных. Только представьте, сколько извлечений данных потребовалось бы из стольких физически разделенных информационных хранилищ — только для выполнения простого запроса. Все благодаря чрезвычайно массивной куче данных, которые лежат в основе организаций и методов проектирования больших данных.
Давайте внимательно следить за тем, как на сцену выходят хранилища данных и интеллектуальный анализ данных . Хранилища данных были разработаны для решения этой проблемы хранения данных. По сути, хранилища данных можно рассматривать как единый репозиторий данных, которые поступают из разных источников и находятся в разных форматах. Интеллектуальный анализ данных, с другой стороны, представляет собой процесс извлечения знаний из указанного хранилища данных.
В этой статье мы подробно рассмотрим хранилище данных и интеллектуальный анализ данных. Для лучшего понимания мы структурировали статью следующим образом:
- Что такое хранилище данных?
- Процессы хранилища данных
- Что такое интеллектуальный анализ данных?
- КДД процесс
- Примеры использования интеллектуального анализа данных в реальной жизни
Оглавление
Что такое хранилище данных?
Если бы мы определили хранилище данных, его можно было бы объяснить как предметно-ориентированный, изменяющийся во времени, энергонезависимый, интегрированный набор данных. Введение в хранилище данных также содержит скомпилированные данные из внешних источников. Целью проектирования хранилища является анализ и принятие бизнес-решений путем предоставления данных на другом агрегированном уровне. Прежде чем двигаться дальше, давайте сначала посмотрим, что означают эти термины в контексте хранилища данных:
Предметно-ориентированный
Организации могут использовать хранилище данных для анализа конкретной предметной области. Предположим, вы хотите узнать, насколько хорошо работала ваша команда по продажам за последние 5 лет — вы можете запросить свой склад, и он расскажет вам все, что вам нужно знать. В этом случае «продажи» можно рассматривать как предмет.
Вариант времени
Хранилища данных отвечают за хранение исторических данных для организаций. Например, система транзакций может содержать самый последний адрес клиента, но хранилище данных также будет содержать все предыдущие адреса. Он постоянно добавляет данные из различных источников, помимо хранения исторических данных — вот что делает его моделью, изменяющейся во времени. Сохраняемые данные всегда будут меняться со временем.
Энергонезависимый
После того как данные сохранены в хранилище данных, их нельзя изменить или модифицировать. Мы можем добавить только измененную копию данных, которые хотим изменить.
Интегрировано:
Как мы уже говорили ранее, хранилище данных содержит данные из нескольких источников. Допустим, у нас есть два источника данных — A и B. В обоих источниках могут храниться данные совершенно разных типов, но когда они попадают в хранилище, они подвергаются предварительной обработке. Вот как хранилище данных объединяет данные из нескольких источников.
Процессы хранилища данных

Взгляните на изображение выше. Данные, собранные из различных источников (операционная система, ERP, CRM, плоские файлы и т. д.), перед помещением в хранилище данных проходят процесс ETL. По сути, это делается для удаления аномалий, если таковые имеются, из данных, чтобы не причинить вреда хранилищу данных. ETL расшифровывается как «извлечение, преобразование и загрузка». Рассмотрим подробно каждый из этих процессов. Чтобы лучше понять, воспользуемся аналогией — вспомните золотую лихорадку и читайте дальше!
Добыча
Извлечение в основном выполняется для сбора всех необходимых данных из исходных систем с использованием как можно меньшего количества ресурсов.
Думайте об этом шаге как о промывании реки в поисках как можно больших золотых самородков .
Трансформация
Основная цель — вставить извлеченные данные в базу данных в общем формате. Это связано с тем, что разные источники будут иметь разные форматы хранения данных — например, один источник данных может иметь данные в формате «дд/мм/гггг», а другой — в формате «дд-мм-гг». На этом этапе мы преобразуем его в обобщенный формат, который будет использоваться для данных из всех источников.
Теперь у вас есть золотой самородок. Что вы делаете? Растопите его и удалите примеси.
Загрузка
На этом этапе преобразованные данные загружаются в целевую базу данных.
Теперь у вас есть чистое золото — сделайте из него кольцо и продайте!
Процесс получения данных из различных источников и их хранения в хранилище данных (конечно, после процесса ETL) называется хранилищем данных.
Теперь у вас есть данные — все очищено и готово к работе. Каким должен быть следующий шаг? Извлечение знаний – да!
Интеллектуальный анализ данных спешит на помощь!
Как перейти на аналитику данных?Что такое интеллектуальный анализ данных?
Проще говоря, интеллектуальный анализ данных представляет собой процесс извлечения ранее неизвестной, но потенциально полезной информации из наборов данных. Под «ранее неизвестным» мы подразумеваем знание, которое можно получить только после глубокого изучения хранилища данных, т. е. оно не будет иметь смысла на поверхности. Интеллектуальный анализ данных, по сути, ищет глобальные шаблоны отношений, которые существуют между элементами данных.
Например, представьте, что вы управляете супермаркетом. На первый взгляд, история покупок клиента может не раскрывать многого на поверхности, но если ее тщательно проанализировать, распознав возможные закономерности, то одной этой информации будет достаточно, чтобы многое выдать. Если вы еще не догадались, речь идет о Target — супермаркете, который выяснил, что девочка-подросток (покупательница) беременна, просто внимательно изучив ее историю покупок и отыскав тенденции и закономерности. Таким образом, информация, которая на первый взгляд выглядела такой тривиальной, оказалась очень ценной при тщательном анализе — и это именно то, что мы подразумеваем под «ранее неизвестным знанием».
Мы считаем, что будет несправедливо по отношению к вам, если мы дадим вам представление о хранилищах данных и интеллектуальном анализе данных и полностью проигнорируем общую картину — обнаружение знаний в базах данных (KDD). Интеллектуальный анализ данных является одним из этапов процесса KDD. Давайте еще немного поговорим о KDD.

Получите сертификат по науке о данных от лучших университетов мира. Присоединяйтесь к нашим программам Executive PG, Advanced Certificate Programs или Masters Programs, чтобы ускорить свою карьеру.
Обнаружение знаний в базах данных (KDD)
Интеллектуальный анализ данных — один из наиболее важных шагов в процессе KDD. KDD в основном охватывает все, от выбора данных до окончательной оценки добытых данных. Полный цикл KDD показан на изображении ниже:

Выбор
Чрезвычайно важно знать точные данные цели. Анализ подмножества интеллектуального анализа данных в хранилище данных является очень важным шагом, поскольку удаление несвязанных элементов данных сократит пространство поиска на этапе интеллектуального анализа данных .
Предварительная обработка
На этом этапе выбранные данные освобождаются от любых аномалий и выбросов. По сути, на этом этапе данные полностью очищаются. Например, если есть какие-то отсутствующие поля данных, они заполняются соответствующими значениями. Например, предположим, что в таблице, в которой хранятся сведения о сотрудниках вашей организации, есть столбец «Отчество». Скорее всего, он будет пуст для многих сотрудников. В таком сценарии выбирается соответствующее значение (например, N/A).
Трансформация
На этом этапе делается попытка уменьшить разнообразие элементов данных при сохранении качества информации.
Сбор данных
Это основная фаза процесса KDD. Преобразованные данные подвергаются методам интеллектуального анализа данных, таким как группировка, кластеризация, регрессия и т. д. Это делается итеративно для получения наилучших результатов. В зависимости от требований могут использоваться различные методы.
Оценка
Это последний шаг. При этом полученные знания документируются и представляются для дальнейшего анализа. На этом этапе используются различные инструменты визуализации данных, чтобы представить полученные знания в красивой и понятной форме.
Как парадокс Симпсона влияет на данные?
Примеры использования интеллектуального анализа данных в реальной жизни
Каждая организация, от Amazon, Flipkart, Netflix до Facebook, Twitter, Instagram и даже Walmart, успешно использует интеллектуальный анализ данных. В этом разделе мы поговорим о четырех широких вариантах использования интеллектуального анализа данных, которые являются неотъемлемой частью вашей повседневной жизни.
Поставщики услуг
Провайдеры телекоммуникационных услуг используют интеллектуальный анализ данных для прогнозирования «оттока» — термина, который они используют, когда клиент отказывается от них в пользу другого провайдера. Кроме того, они сопоставляют платежную информацию, посещения веб-сайтов, взаимодействие с клиентами и другие подобные вещи, чтобы дать каждому клиенту оценку вероятности. Затем тем клиентам, которые подвержены более высокому риску «оттока», предоставляются предложения и поощрения.
Электронная коммерция
Электронная коммерция — самый известный вариант использования Data Mining. Одним из самых известных из них является, конечно же, Amazon. Они используют чрезвычайно сложные методы добычи. Посмотрите, например, на функцию «Людям, которые просматривали этот продукт, также понравился этот»!
Супермаркеты
Супермаркеты также являются интересным примером использования интеллектуального анализа данных. Изучение истории покупок клиентов позволяет им понять их модели покупок. Затем эта информация используется супермаркетами для предоставления покупателям персонализированных предложений. О, и мы рассказывали вам о том, что Target сделала с помощью интеллектуального анализа данных? (Да, мы сделали!)
Розничная торговля
Розничные продавцы объединяют своих клиентов в группы «Недавность», «Частота» и «Монетаризм» (RFM). Используя интеллектуальный анализ данных, они ориентируют маркетинг на эти группы. К покупателю, который тратит мало, но часто и его последняя покупка была совсем недавно, будут относиться иначе, чем к покупателю, который потратил много, но только один раз.
Завершение…
Хранилище данных и интеллектуальный анализ данных составляют два наиболее важных процесса, которые сегодня буквально управляют миром. Почти каждая крупная вещь сегодня является результатом изощренного интеллектуального анализа данных. Потому что не добытые данные так же полезны (или бесполезны), как и отсутствие данных вообще.
Опять же, чтобы понять разницу между интеллектуальным анализом данных и хранилищем данных, вам нужно заняться, от введения в интеллектуальный анализ данных до хранилища данных, который представляет собой метод, в котором все данные из разрозненных источников централизуются в одной базе данных. Мы можем определить хранилище данных как скомпилированные исторические данные или поток данных в реальном времени, который возвращает в основном органическую и интегрированную информацию.
Мы надеемся, что эта статья дала вам ясность в отношении того, что такое хранилище данных, интеллектуальный анализ данных и многое другое. В заключение, процесс сбора, хранения и организации информации в единой базе данных рассматривается как хранилище данных и интеллектуальный анализ данных, в основном извлекающий значимую информацию из данных с использованием другой точки зрения. Вся собранная полезная информация может быть использована впоследствии для решения будущих проблем, которые могут стать препятствием для роста компании и даже сократить расходы. Если вы ищете светлое и увлекательное будущее и если исследования — это ваша страсть, то отличным вариантом для вас будет начать с изучения того, что такое хранилище данных и интеллектуальный анализ данных.
Мы надеемся, что эта статья дала вам ясность в отношении того, что означают эти два термина и многое другое! Если вам интересно узнать о науке о данных, ознакомьтесь с дипломом IIIT-B & upGrad PG в области науки о данных, который создан для работающих профессионалов и предлагает более 10 тематических исследований и проектов, практические семинары, наставничество с отраслевыми экспертами, 1- on-1 с отраслевыми наставниками, более 400 часов обучения и помощи в трудоустройстве в ведущих фирмах.
Как предприятия используют хранилища данных и интеллектуальный анализ данных?
Как интеллектуальный анализ данных, так и хранение данных — это методы бизнес-аналитики для преобразования информации (или данных) в полезные знания.
Интеллектуальный анализ данных — это метод статистического анализа. Технические инструменты используются аналитиками для запроса и сортировки гигабайтов данных в поисках тенденций. Затем предприятия используют эти данные для принятия более эффективных бизнес-решений на основе своего понимания поведения своих потребителей и поставщиков.
Хранилище данных — это процесс разработки способов хранения данных для облегчения отчетности и анализа. По мнению специалистов по хранилищам данных, многочисленные хранилища данных концептуально и физически интегрированы и связаны друг с другом. Данные компании обычно хранятся в нескольких базах данных.
В чем основное различие между хранилищем данных и интеллектуальным анализом данных? Что практичнее в деловом мире?
Хранилище данных — это система хранения данных. Обычно это влечет за собой различные типы данных, полученные из нескольких источников для различных целей. Процесс хранения этих данных с дисциплиной, чтобы их можно было получить позже, известен как хранилище данных.
Процесс извлечения данных известен как интеллектуальный анализ данных. Это влечет за собой поиск наиболее подходящей информации для конкретной цели. Он может исходить из вашего хранилища данных или откуда-то еще. Вы ожидаете уточнения и очистки данных, которые вы добываете, так же, как и с реальной рудой.
Чем лучше ваши складские системы, тем легче будет майнить.
Похожи ли процессы Data Mining и KDD?
Хотя термины KDD и Data Mining часто взаимозаменяемы, они относятся к двум разным, но связанным понятиям.
Интеллектуальный анализ данных — это компонент процесса KDD, который занимается распознаванием шаблонов в данных, тогда как KDD — это весь процесс извлечения знаний из данных. Другими словами, интеллектуальный анализ данных — это просто применение определенного алгоритма для достижения конечной цели процесса KDD.
