20 вопросов на собеседовании по интеллектуальному анализу данных

Опубликовано: 2020-02-10

Это означает, что в AI и ML будет много работы, и, поскольку интеллектуальный анализ данных является неотъемлемой частью обоих, вы должны создать прочную основу для интеллектуального анализа данных. Интеллектуальный анализ данных относится к методу, используемому для преобразования необработанных данных в осмысленные идеи, которые могут использоваться предприятиями и организациями. Некоторые из фундаментальных аспектов интеллектуального анализа данных включают управление данными и базами данных, предварительную обработку данных, проверку данных, онлайн-обновление и обнаружение ценных закономерностей, скрытых в сложных наборах данных. По сути, интеллектуальный анализ данных фокусируется на автоматическом анализе больших объемов данных для извлечения из них скрытых тенденций и идей. Именно поэтому вы должны быть готовы ответить на любой вопрос Data Mining, который задает вам интервьюер, если вы хотите получить работу своей мечты в AI/ML.

Пройдите сертификационный курс по науке о данных в лучших университетах мира. Участвуйте в программах Executive PG, Advanced Certificate Programs или Master Programs, чтобы ускорить свою карьеру.

В этом посте мы составили список наиболее часто задаваемых вопросов на собеседованиях по интеллектуальному анализу данных. Он охватывает все уровни вопросов и концепций собеседования по интеллектуальному анализу данных (как базовый, так и продвинутый уровни), которые должен знать каждый претендент на ИИ/МО.

Итак, без дальнейших промедлений, давайте приступим к делу!

Назовите различные методы интеллектуального анализа данных и объясните объем интеллектуального анализа данных.

Различные методы интеллектуального анализа данных:

Прогнозирование — обнаруживает взаимосвязь между независимыми и зависимыми экземплярами. Например, при рассмотрении данных о продажах, если вы хотите предсказать будущую прибыль, продажа действует как независимый экземпляр, тогда как прибыль является зависимым экземпляром. Соответственно, исходя из исторических данных о продажах и прибыли, соответствующая прибыль является прогнозируемой величиной.
Деревья решений . Корень дерева решений функционирует как условие/вопрос, имеющий несколько ответов. Каждый ответ приводит к конкретным данным, которые помогают принять окончательное решение на основе данных.
Последовательные шаблоны . Это относится к анализу шаблонов, используемому для обнаружения идентичных шаблонов в данных транзакций или регулярных событиях. Например, исторические данные клиентов помогают бренду определить закономерности в транзакциях, которые произошли в прошлом году.
Кластерный анализ . В этом методе автоматически формируется кластер объектов, имеющих схожие характеристики. Метод кластеризации определяет классы, а затем помещает подходящие объекты в каждый класс.
Классификационный анализ . В этом методе на основе машинного обучения каждый элемент в определенном наборе классифицируется по заранее определенным группам. Он использует передовые методы, такие как линейное программирование, нейронные сети, деревья решений и т. д.
Изучение правила ассоциации . Этот метод создает шаблон на основе взаимосвязи элементов в одной транзакции.

Область применения интеллектуального анализа данных заключается в следующем:

Прогнозирование тенденций и поведения . Интеллектуальный анализ данных автоматизирует процесс выявления прогностической информации в больших наборах данных/базах данных.
Обнаружение ранее неизвестных шаблонов — инструменты интеллектуального анализа данных просматривают и очищают широкий спектр разнообразных баз данных, чтобы выявить ранее скрытые тенденции. Это не что иное, как процесс обнаружения закономерностей.

Какие существуют виды интеллектуального анализа данных?

Интеллектуальный анализ данных можно разделить на следующие типы:

Интеграция
Выбор
Очистка данных
Оценка шаблона
Преобразование данных
Представление знаний

Что такое очистка данных?

Очистка данных — важная процедура в системах управления базами данных. Это помогает поддерживать соответствующие данные в базе данных. Это относится к процессу очистки ненужных данных путем устранения или удаления ненужных значений NULL строк и столбцов. Всякий раз, когда вам нужно загрузить новые данные в базу данных, во-первых, необходимо удалить ненужные данные.

Благодаря частой очистке данных базы данных вы можете избавиться от ненужных данных, которые занимают значительный объем памяти базы данных, тем самым снижая производительность базы данных.

В чем принципиальная разница между хранилищем данных и интеллектуальным анализом данных?

Хранилище данных — это метод, используемый для извлечения данных из разрозненных источников. Затем его очищают и сохраняют для дальнейшего использования. С другой стороны, интеллектуальный анализ данных — это процесс изучения извлеченных данных с использованием запросов и последующего анализа результатов или исходов. Это важно для составления отчетов, планирования стратегии и визуализации ценных идей в данных.

Объясните различные этапы интеллектуального анализа данных.

Существует три основных этапа интеллектуального анализа данных:

Исследование. Этот этап в основном сосредоточен на сборе данных из нескольких источников и их подготовке к дальнейшим действиям, таким как очистка и преобразование. После того, как данные очищены и преобразованы, их можно проанализировать для понимания.

Построение и проверка модели. Этот этап включает в себя проверку данных путем применения к ним различных моделей и сравнения результатов для достижения наилучшей производительности. Этот шаг также называется идентификацией шаблона. Это трудоемкий процесс, поскольку пользователь должен вручную определить, какой шаблон лучше всего подходит для простых прогнозов.

Развертывание. После определения наиболее подходящего шаблона для прогнозирования он применяется к набору данных для получения оценочных прогнозов или результатов.

В чем польза запросов интеллектуального анализа данных?

Запросы интеллектуального анализа данных помогают упростить применение модели к новым данным для получения одного или нескольких результатов. Запросы могут более эффективно извлекать случаи, соответствующие определенному шаблону. Они извлекают статистическую память обучающих данных и помогают получить точный шаблон вместе с правилом типичного случая, представляющим шаблон в модели. Кроме того, запросы могут извлекать формулы регрессии и другие вычисления для объяснения закономерностей. Они также могут получать сведения об отдельных случаях, используемых в модели.

Что такое «дискретные» и «непрерывные» данные в Data Mining?

В интеллектуальном анализе данных дискретные данные — это данные, которые являются конечными и имеют связанное с ними значение. Пол — классический пример дискретных данных. С другой стороны, непрерывные данные — это данные, которые продолжают изменяться хорошо структурированным образом. Возраст — прекрасный пример непрерывных данных.

Что такое ОЛАП? Чем он отличается от OLTP?

OLAP (онлайн-аналитическая обработка) — это технология, используемая во многих приложениях бизнес-аналитики, которые включают сложные аналитические вычисления. Помимо сложных вычислений, OLAP используется для анализа тенденций и расширенного моделирования данных. Основной целью использования систем OLAP является минимизация времени ответа на запрос при одновременном повышении эффективности отчетности. База данных OLAP хранит агрегированные исторические данные в многомерной схеме. Будучи многомерной базой данных, OLAP позволяет пользователю понять, как данные поступают из разных источников.

OLTP расшифровывается как онлайн-транзакция и обработка. Он по своей сути отличается от OLAP, поскольку используется в приложениях, которые включают массовые транзакции и большие объемы данных. Эти приложения в основном встречаются в секторе BFSI. Архитектура OLTP — это архитектура клиент-сервер, которая может поддерживать межсетевые транзакции.

Назовите различные модели хранения, доступные в OLAP?

В OLAP доступны следующие модели хранения:

MOLAP (многомерная онлайн-аналитическая обработка) — это тип хранилища данных, в котором данные хранятся в многомерных кубах вместо стандартных реляционных баз данных. Именно эта функция делает выполнение запросов превосходным.
ROLAP (реляционная онлайн-аналитическая обработка) — в этом хранилище данных данные хранятся в реляционных базах данных, и, следовательно, оно способно обрабатывать огромный объем данных.
HOLAP (гибридная онлайн-аналитическая обработка) — это комбинация MOLAP и ROLAP. HOLAP использует модель MOLAP для извлечения сводной информации из куба, тогда как для возможностей детализации используется модель ROLAP.

Что такое «Куб»?

В Data Mining термин «куб» относится к пространству для хранения данных, в котором хранятся данные. Хранение данных в кубе помогает ускорить процесс анализа данных. По сути, кубы — это логическое представление многомерных данных. В то время как ребро куба содержит элементы измерения, тело куба содержит значения данных.

Предположим, что компания хранит данные (записи) своих сотрудников в кубе. Когда требуется оценить производительность сотрудников на еженедельной или ежемесячной основе, размерами куба становятся неделя/месяц.

Что такое агрегация и обобщение данных?

Агрегация данных — это процесс, в котором данные объединяются или объединяются вместе для создания куба для анализа данных. Обобщение — это процесс замены данных низкого уровня концепциями высокого уровня, чтобы данные можно было обобщить и получить значимые выводы.

Объясните алгоритмы дерева решений и временных рядов.

В алгоритме дерева решений каждый узел является либо конечным узлом, либо узлом принятия решений. Каждый раз, когда вы вводите объект в алгоритм, он выдает решение. Дерево решений создается с использованием закономерностей данных. Все пути, соединяющие корневой узел с конечным узлом, достигаются либо с помощью «И», либо «ИЛИ», либо «ОБА». Важно отметить, что автоматическая подготовка данных не влияет на дерево решений.

Алгоритм временных рядов используется для типов данных, значения которых постоянно изменяются в зависимости от времени (например, возраста человека). Когда вы обучили алгоритм и настроили его для прогнозирования набора данных, он может успешно отслеживать непрерывные данные и делать точные прогнозы. Алгоритм временных рядов создает конкретную модель, которая может прогнозировать будущие тенденции данных на основе исходного набора данных.

Что такое кластеризация?

В интеллектуальном анализе данных кластеризация — это процесс, используемый для группировки абстрактных объектов в классы, содержащие похожие объекты. Здесь кластер объектов данных рассматривается как одна группа. Таким образом, в процессе анализа происходит разделение данных на группы, которые затем маркируются на основе идентичных данных. Кластерный анализ имеет ключевое значение для интеллектуального анализа данных, потому что он хорошо масштабируется и многомерен, а также может работать с различными атрибутами, интерпретируемостью и беспорядочными данными.

Кластеризация данных используется в нескольких приложениях, включая обработку изображений, распознавание образов, обнаружение мошенничества и исследования рынка.

С какими общими проблемами сталкиваются при интеллектуальном анализе данных?

В процессе интеллектуального анализа данных вы можете столкнуться со следующими проблемами:

Обработка неопределенностей
Работа с пропущенными значениями
Работа с зашумленными данными
Эффективность алгоритмов
Включение знаний предметной области
Размер и сложность данных
Выбор данных
Несоответствие между данными и обнаруженными знаниями.

Укажите синтаксис для – Спецификации мер интереса, Спецификации представления и визуализации моделей и Спецификации данных, релевантных для задачи.

Синтаксис спецификации показателей интереса:

с <имя_меры_интереса> threshold = threshold_value

Синтаксис для спецификации представления шаблона и визуализации:

отображать как <result_form>

Синтаксис спецификации данных, релевантных для задачи:

использовать базу данных имя_базы_данных

или

использовать хранилище данных data_warehouse_name

в соответствии с att_or_dim_list

из отношения (отношений)/куба (ов) [где условие] порядок по order_list

группировать по grouping_list

Назовите другой уровень анализа в Data Mining?

Различные уровни анализа в Data Mining:

Индукция правила
Визуализация данных
Генетические алгоритмы
Искусственная нейронная сеть
Метод ближайшего соседа

Что такое СТИНГ?

STING расшифровывается как Статистическая информационная сетка. Это основанный на сетке метод кластеризации с несколькими разрешениями, в котором все объекты содержатся в прямоугольных ячейках. Хотя ячейки хранятся на различных уровнях разрешения, эти уровни дополнительно организованы в иерархическую структуру.

Что такое ЭТЛ? Назовите некоторые из лучших инструментов ETL.

ETL означает извлечение, преобразование и загрузку. Это программное обеспечение, которое может считывать данные из указанного источника данных и извлекать желаемое подмножество данных. После этого он преобразует данные с помощью правил и таблиц поиска и преобразует их в желаемую форму. Наконец, он использует функцию загрузки для загрузки полученных данных в целевую базу данных.

Лучшие инструменты ETL:

Оракул
Ab initio
Стадия данных
Информатика
Перекресток данных
Строитель склада

Что такое метаданные?

Проще говоря, метаданные — это обобщенные данные, которые приводят к большему набору данных. Метаданные содержат важную информацию, такую как количество используемых столбцов, порядок полей, типы данных полей, фиксированная ширина и ограниченная ширина и т. д.

Каковы преимущества интеллектуального анализа данных?

Интеллектуальный анализ данных имеет четыре основных преимущества:

Это помогает разобраться в необработанных данных и изучить, идентифицировать и понять закономерности, скрытые в данных.
Он помогает автоматизировать процесс поиска прогностической информации в больших базах данных, помогая тем самым оперативно выявлять ранее скрытые закономерности.
Это помогает просматривать и проверять данные и понимать, откуда они поступают.
Он способствует более быстрому и качественному принятию решений, тем самым помогая предприятиям предпринимать необходимые действия для увеличения доходов и снижения операционных расходов.

Именно по этим причинам интеллектуальный анализ данных стал неотъемлемой частью многих отраслей, включая маркетинг, рекламу, ИТ/ITES, бизнес-аналитику и даже правительственную разведку.

Мы надеемся, что эти вопросы интервью по интеллектуальному анализу данных и ответы на них помогут вам растопить лед с интеллектуальным анализом данных. Хотя это всего лишь несколько вопросов базового уровня, которые вы должны знать, они помогут вам войти в поток и глубже погрузиться в предмет.

Если вам интересно узнать о науке о данных, ознакомьтесь с программой IIIT-B & upGrad Executive PG по науке о данных, которая создана для работающих профессионалов и предлагает более 10 тематических исследований и проектов, практические семинары, наставничество с отраслевыми экспертами, 1 -на-1 с отраслевыми наставниками, более 400 часов обучения и помощи в трудоустройстве в ведущих фирмах.

Каковы недостатки использования алгоритма дерева решений?

Даже незначительное изменение данных может привести к существенному изменению структуры дерева решений, что приведет к нестабильности. По сравнению с другими алгоритмами вычисление дерева решений иногда может быть довольно сложным. Обучение дерева решений относительно дорого из-за сложности и требуемого времени. Техника дерева решений терпит неудачу, когда дело доходит до применения регрессии и прогнозирования непрерывных значений.

В чем разница между кластеризацией интеллектуального анализа данных и классификацией?

Кластеризация — это метод обучения без учителя, тогда как классификация — это способ обучения с учителем. Кластеризация — это процесс группировки точек данных в кластеры на основе их общности. Классификация влечет за собой маркировку входных данных одной из меток класса выходной переменной. Кластеризация разбивает набор данных на подгруппы, позволяя сгруппировать примеры с похожими функциями. Он не полагается на помеченные данные или обучающий набор для работы. Классификация, с другой стороны, классифицирует новые данные на основе наблюдений из обучающей выборки.

Есть ли недостатки у интеллектуального анализа данных?

Многие проблемы с конфиденциальностью возникают при использовании интеллектуального анализа данных. Несмотря на то, что интеллектуальный анализ данных по-своему открыл путь для простого сбора данных. Когда дело доходит до точности, она все еще имеет определенные пределы. Полученные данные могут быть неверными, что может привести к проблемам с принятием решений. Процедура сбора данных для интеллектуального анализа данных использует множество технологий. Каждая часть созданных данных требует собственного хранения и обслуживания. В результате стоимость внедрения может резко возрасти.