20 데이터 마이닝 인터뷰 질문
게시 됨: 2020-02-10즉, AI와 ML에는 많은 작업 범위가 있으며 데이터 마이닝은 둘 다의 필수적인 부분이므로 데이터 마이닝에서 견고한 기반을 구축해야 합니다. 데이터 마이닝은 원시 데이터를 비즈니스 및 조직에서 사용할 수 있는 의미 있는 통찰력으로 변환하는 데 사용되는 기술을 말합니다. 데이터 마이닝의 기본적인 측면 중 일부는 데이터 및 데이터베이스 관리, 데이터 사전 처리, 데이터 유효성 검사, 온라인 업데이트, 복잡한 데이터 세트에 숨겨진 귀중한 패턴의 발견을 포함합니다. 기본적으로 데이터 마이닝은 대량의 데이터를 자동으로 분석하여 숨겨진 추세와 통찰력을 추출하는 데 중점을 둡니다. 이것이 바로 AI/ML에서 꿈의 직업을 얻으려면 면접관이 제시하는 모든 데이터 마이닝 질문에 답할 준비가 되어 있어야 하는 이유입니다.
세계 최고의 대학에서 데이터 과학 인증 과정 을 알아보십시오 . 이그 제 큐 티브 PG 프로그램, 고급 인증 프로그램 또는 석사 프로그램을 획득하여 경력을 빠르게 추적하십시오.
이 게시물에서는 가장 일반적으로 묻는 데이터 마이닝 인터뷰 질문 목록을 정리했습니다. 모든 AI/ML 지원자가 알아야 하는 모든 수준의 데이터 마이닝 인터뷰 질문과 개념(기본 및 고급 수준 모두)을 다룹니다.
자, 더 이상 지체하지 않고 바로 본론으로 들어가겠습니다!
- 다양한 데이터 마이닝 기술의 이름을 지정하고 데이터 마이닝의 범위를 설명합니다.
다양한 데이터 마이닝 기술은 다음과 같습니다.
- 예측 – 독립 인스턴스와 종속 인스턴스 간의 관계를 검색합니다. 예를 들어 판매 데이터를 고려할 때 미래의 이익을 예측하려는 경우 판매는 독립 인스턴스로 작동하고 이익은 종속 인스턴스로 작동합니다. 따라서 매출 및 이익의 과거 데이터를 기반으로 관련 이익은 예측 가치입니다.
- 의사 결정 트리 – 의사 결정 트리의 루트는 여러 답변이 있는 조건/질문 역할을 합니다. 각 답변은 데이터를 기반으로 최종 결정을 내리는 데 도움이 되는 특정 데이터로 이어집니다.
- 순차 패턴 – 거래 데이터나 정기적인 이벤트에서 동일한 패턴을 발견하기 위해 사용되는 패턴 분석을 말합니다. 예를 들어, 고객의 과거 데이터는 브랜드가 작년에 발생한 거래의 패턴을 식별하는 데 도움이 됩니다.
- 클러스터링 분석 – 이 기술에서는 유사한 특성을 가진 개체의 클러스터가 자동으로 형성됩니다. 클러스터링 방법은 클래스를 정의한 다음 각 클래스에 적합한 개체를 배치합니다.
- 분류 분석 – 이 ML 기반 방법에서 특정 세트의 각 항목은 미리 정의된 그룹으로 분류됩니다. 선형 프로그래밍, 신경망, 의사 결정 트리 등과 같은 고급 기술을 사용합니다.
- 연관 규칙 학습 - 이 방법은 단일 트랜잭션의 항목 관계를 기반으로 패턴을 생성합니다.
데이터 마이닝의 범위는 다음과 같습니다.
- 추세 및 행동 예측 – 데이터 마이닝은 대규모 데이터 세트/데이터베이스에서 예측 정보를 식별하는 프로세스를 자동화합니다.
- 이전에 알려지지 않은 패턴 발견 – 데이터 마이닝 도구는 이전에 숨겨진 추세를 식별하기 위해 광범위하고 다양한 데이터베이스를 훑어보고 긁습니다. 이것은 패턴 발견 프로세스에 불과합니다.
- 데이터 마이닝의 유형은 무엇입니까?
데이터 마이닝은 다음과 같은 유형으로 분류할 수 있습니다.
- 완성
- 선택
- 데이터 정리
- 패턴 평가
- 데이터 변환
- 지식 표현
- 데이터 삭제란 무엇입니까?
데이터 삭제는 데이터베이스 관리 시스템에서 중요한 절차입니다. 데이터베이스에서 관련 데이터를 유지하는 데 도움이 됩니다. 행과 열의 불필요한 NULL 값을 제거하거나 삭제하여 정크 데이터를 정리하는 과정을 말합니다. 데이터베이스에 새 데이터를 로드해야 할 때마다 먼저 관련 없는 데이터를 제거하는 것이 중요합니다.
데이터베이스의 빈번한 데이터 제거를 통해 상당한 양의 데이터베이스 메모리를 차지하는 정크 데이터를 제거하여 데이터베이스의 성능을 저하시킬 수 있습니다.
- 데이터 웨어하우징과 데이터 마이닝의 근본적인 차이점은 무엇입니까?
데이터 웨어하우징은 서로 다른 소스에서 데이터를 추출하는 데 사용되는 기술입니다. 그런 다음 나중에 사용할 수 있도록 청소하고 보관합니다. 반면 데이터 마이닝은 추출된 데이터를 쿼리를 통해 탐색한 후 결과나 결과를 분석하는 과정이다. 보고, 전략 계획 및 데이터 내에서 귀중한 통찰력을 시각화하는 데 필수적입니다.
- 데이터 마이닝의 다양한 단계를 설명합니다.
데이터 마이닝에는 세 가지 주요 단계가 있습니다.
탐색 – 이 단계는 주로 여러 소스에서 데이터를 수집하고 정리 및 변환과 같은 추가 활동을 위해 준비하는 데 중점을 둡니다. 데이터가 정리되고 변환되면 통찰력을 위해 분석할 수 있습니다.
모델 구축 및 검증 – 이 단계에서는 데이터에 다른 모델을 적용하고 결과를 비교하여 최상의 성능을 발휘하여 데이터를 검증합니다. 이 단계를 패턴 식별이라고도 합니다. 쉬운 예측에 가장 적합한 패턴을 사용자가 수동으로 식별해야 하므로 시간이 많이 소요되는 프로세스입니다.
배치 – 예측에 가장 적합한 패턴이 식별되면 추정된 예측 또는 결과를 얻기 위해 데이터 세트에 적용됩니다.
- 데이터 마이닝 쿼리의 용도는 무엇입니까?
데이터 마이닝 쿼리는 단일 또는 다중 결과를 만들기 위해 새 데이터에 모델을 쉽게 적용하는 데 도움이 됩니다. 쿼리는 특정 패턴에 더 효과적으로 맞는 케이스를 검색할 수 있습니다. 훈련 데이터의 통계적 메모리를 추출하고 모델에서 패턴을 나타내는 전형적인 경우의 규칙과 함께 정확한 패턴을 얻는 데 도움을 줍니다. 또한 쿼리는 회귀 공식 및 기타 계산을 추출하여 패턴을 설명할 수 있습니다. 또한 모델에 사용된 개별 사례에 대한 세부 정보를 검색할 수도 있습니다.
- 데이터 마이닝에서 "이산" 및 "연속" 데이터란 무엇입니까?
데이터 마이닝에서 이산 데이터는 유한하고 의미가 첨부된 데이터입니다. 성별은 이산 데이터의 전형적인 예입니다. 반면 연속 데이터는 잘 구조화된 방식으로 계속 변경되는 데이터입니다. 연령은 연속 데이터의 완벽한 예입니다.
- OLAP이란 무엇입니까? OLTP와 어떻게 다른가요?
OLAP(온라인 분석 처리)는 복잡한 분석 계산을 포함하는 많은 비즈니스 인텔리전스 응용 프로그램에서 사용되는 기술입니다. 복잡한 계산 외에도 OLAP는 추세 분석 및 고급 데이터 모델링에 사용됩니다. OLAP 시스템을 사용하는 주요 목적은 쿼리 응답 시간을 최소화하는 동시에 보고의 효율성을 높이는 것입니다. OLAP 데이터베이스는 집계된 기록 데이터를 다차원 스키마에 저장합니다. 다차원 데이터베이스인 OLAP를 사용하면 사용자가 데이터가 다른 소스를 통해 오는 방식을 이해할 수 있습니다.
OLTP는 온라인 트랜잭션 및 처리를 의미합니다. 대량 트랜잭션 및 대용량 데이터를 포함하는 응용 프로그램에서 사용된다는 점에서 OLAP와 본질적으로 다릅니다. 이러한 응용 프로그램은 주로 BFSI 부문에서 발견됩니다. OLTP 아키텍처는 네트워크 간 트랜잭션을 지원할 수 있는 클라이언트-서버 아키텍처입니다.
- OLAP에서 사용할 수 있는 다양한 스토리지 모델의 이름을 지정하시겠습니까?
OLAP에서 사용할 수 있는 다양한 스토리지 모델은 다음과 같습니다.
- MOLAP(Multidimensional Online Analytical Processing) – 데이터가 표준 관계형 데이터베이스 대신 다차원 큐브에 저장되는 데이터 저장소 유형입니다. 쿼리 성능을 탁월하게 만드는 것은 이 기능입니다.
- ROLAP(Relational Online Analytical Processing) – 이 데이터 저장소에서 데이터는 관계형 데이터베이스에 저장되므로 방대한 양의 데이터를 처리할 수 있습니다.
- HOLAP(하이브리드 온라인 분석 처리) – MOLAP과 ROLAP의 조합입니다. HOLAP은 MOLAP 모델을 사용하여 큐브에서 요약된 정보를 추출하는 반면 드릴다운 기능의 경우 ROLAP 모델을 사용합니다.
- "큐브"란 무엇입니까?
데이터 마이닝에서 "큐브"라는 용어는 데이터가 저장되는 데이터 저장 공간을 의미합니다. 큐브에 데이터를 저장하면 데이터 분석 프로세스를 가속화하는 데 도움이 됩니다. 기본적으로 큐브는 다차원 데이터의 논리적 표현입니다. 큐브 가장자리에는 차원 구성원이 있는 반면 큐브 본문에는 데이터 값이 포함됩니다.

회사에서 직원 데이터(레코드)를 큐브에 저장한다고 가정해 보겠습니다. 주간 또는 월간 기준으로 직원의 성과를 평가하려는 경우 주/월이 큐브의 차원이 됩니다.
- 데이터 집계 및 일반화란 무엇입니까?
데이터 집계는 데이터를 결합하거나 집계하여 데이터 분석을 위한 큐브를 만드는 프로세스입니다. 일반화는 데이터를 일반화하고 의미 있는 통찰력을 생성할 수 있도록 낮은 수준의 데이터를 높은 수준의 개념으로 대체하는 프로세스입니다.
- 의사 결정 트리 및 시계열 알고리즘을 설명합니다.
의사결정 트리 알고리즘에서 각 노드는 리프 노드 또는 의사결정 노드입니다. 알고리즘에 개체를 입력할 때마다 결정이 생성됩니다. 의사 결정 트리는 데이터의 규칙성을 사용하여 생성됩니다. 루트 노드와 리프 노드를 연결하는 모든 경로는 'AND' 또는 'OR' 또는 'BOTH'를 사용하여 도달합니다. 진단트리는 자동 데이터 준비의 영향을 받지 않습니다.
시계열 알고리즘은 시간(예: 사람의 나이)에 따라 값이 계속 변경되는 데이터 유형에 사용됩니다. 알고리즘을 훈련하고 데이터 세트를 예측하도록 조정하면 연속 데이터를 성공적으로 추적하고 정확한 예측을 수행할 수 있습니다. 시계열 알고리즘은 원본 데이터 세트를 기반으로 데이터의 미래 추세를 예측할 수 있는 특정 모델을 생성합니다.
- 클러스터링이란 무엇입니까?
데이터 마이닝에서 클러스터링은 추상 개체를 유사한 개체를 포함하는 클래스로 그룹화하는 데 사용되는 프로세스입니다. 여기에서 데이터 개체의 클러스터는 하나의 그룹으로 취급됩니다. 따라서 분석 프로세스 중에 데이터 분할이 그룹으로 발생하고 동일한 데이터를 기반으로 레이블이 지정됩니다. 클러스터 분석은 확장성과 차원이 매우 높으며 다양한 속성, 해석 가능성 및 지저분한 데이터를 처리할 수 있기 때문에 데이터 마이닝의 핵심입니다.
데이터 클러스터링은 이미지 처리, 패턴 인식, 사기 탐지 및 시장 조사를 비롯한 여러 애플리케이션에서 사용됩니다.
- 데이터 마이닝 중에 직면하는 일반적인 문제는 무엇입니까?
데이터 마이닝 프로세스 중에 다음과 같은 문제가 발생할 수 있습니다.
- 불확실성 처리
- 결측값 다루기
- 시끄러운 데이터 다루기
- 알고리즘의 효율성
- 도메인 지식 통합
- 데이터의 크기 및 복잡성
- 데이터 선택
- 데이터와 발견된 지식 간의 불일치.
- - 흥미 측정 사양, 패턴 표현 및 시각화 사양, 작업 관련 데이터 사양에 대한 구문을 지정합니다.
흥미 측정 사양의 구문은 다음과 같습니다.
<interest_measure_name> 임계값 = threshold_value 포함
패턴 표현 및 시각화 사양의 구문은 다음과 같습니다.
<result_form>으로 표시
작업 관련 데이터 사양의 구문은 다음과 같습니다.
데이터베이스 database_name 사용
또는
데이터 웨어하우스 data_warehouse_name 사용
att_or_dim_list와 관련하여
관계/큐브에서 [여기서 조건] order_list에 의한 주문
grouping_list로 그룹화
- 데이터 마이닝의 다양한 분석 수준의 이름을 지정하시겠습니까?
데이터 마이닝의 다양한 분석 수준은 다음과 같습니다.
- 규칙 유도
- 데이터 시각화
- 유전 알고리즘
- 인공 신경망
- 최근접 이웃 방법
- 스팅이란?
STING은 Statistical Information Grid의 약자입니다. 모든 객체가 직사각형 셀에 포함되는 그리드 기반의 다중 해상도 클러스터링 방법입니다. 셀이 다양한 수준의 해상도로 유지되는 동안 이러한 수준은 계층 구조로 더 배열됩니다.
- ETL이란 무엇입니까? 최고의 ETL 도구의 이름을 지정하십시오.
ETL은 추출, 변환 및 로드를 의미합니다. 지정된 데이터 소스에서 데이터를 읽고 원하는 데이터 하위 집합을 추출할 수 있는 소프트웨어입니다. 그런 다음 규칙과 룩업 테이블을 사용하여 데이터를 변환하고 원하는 형식으로 변환합니다. 마지막으로 load 함수를 사용하여 결과 데이터를 대상 데이터베이스에 로드합니다.
최고의 ETL 도구는 다음과 같습니다.
- 신탁
- 압 이니티오
- 데이터 단계
- 인포매티카
- 데이터 접합
- 창고 빌더
- 메타데이터란 무엇입니까?
간단히 말해서 메타데이터는 더 큰 데이터 세트로 이어지는 요약된 데이터입니다. 메타데이터에는 사용된 열의 수, 필드의 순서, 필드의 데이터 유형, 고정 너비 및 제한된 너비 등과 같은 중요한 정보가 포함됩니다.
- 데이터 마이닝의 장점은 무엇입니까?
데이터 마이닝에는 4가지 핵심 이점이 있습니다.
- 원시 데이터를 이해하고 데이터에 숨겨진 패턴을 탐색, 식별 및 이해하는 데 도움이 됩니다.
- 대규모 데이터베이스에서 예측 정보를 찾는 프로세스를 자동화하여 이전에 숨겨진 패턴을 신속하게 식별하는 데 도움이 됩니다.
- 데이터를 선별 및 검증하고 데이터의 출처를 이해하는 데 도움이 됩니다.
- 더 빠르고 더 나은 의사 결정을 촉진하여 기업이 수익을 늘리고 운영 비용을 낮추는 데 필요한 조치를 취하도록 돕습니다.
이것이 데이터 마이닝이 마케팅, 광고, IT/ITES, 비즈니스 인텔리전스, 심지어 정부 인텔리전스를 포함한 수많은 산업의 필수적인 부분이 된 이유입니다.
이 데이터 마이닝 인터뷰 질문과 답변이 데이터 마이닝으로 얼음을 깨는 데 도움이 되기를 바랍니다. 이것들은 당신이 알아야 할 몇 가지 기본적인 수준의 질문일 뿐이지만, 그것들은 당신이 흐름을 이해하고 주제를 더 깊이 파헤치는 데 도움이 될 것입니다.
데이터 과학에 대해 자세히 알고 싶으시면 작업 전문가를 위해 만들어졌으며 10개 이상의 사례 연구 및 프로젝트, 실용적인 실습 워크샵, 업계 전문가와의 멘토링, 1 - 업계 멘토와 일대일, 400시간 이상의 학습 및 최고의 기업과의 취업 지원.
의사 결정 트리 알고리즘을 사용할 때의 단점은 무엇입니까?
데이터가 조금만 변경되어도 의사결정 트리의 구조가 크게 변경되어 불안정해질 수 있습니다. 다른 알고리즘과 비교할 때 의사 결정 트리의 계산은 때때로 다소 복잡할 수 있습니다. 의사 결정 트리 훈련은 복잡성과 시간이 필요하기 때문에 상대적으로 비용이 많이 듭니다. 의사 결정 트리 기술은 회귀를 적용하고 연속 값을 예측할 때 실패합니다.
데이터 마이닝 클러스터링과 분류의 차이점은 무엇입니까?
클러스터링은 비지도 학습의 기술인 반면 분류는 지도 학습의 한 방법입니다. 클러스터링은 데이터 포인트를 공통점에 따라 클러스터로 그룹화하는 프로세스입니다. 분류에는 출력 변수의 클래스 레이블 중 하나로 입력 데이터에 레이블을 지정하는 작업이 수반됩니다. 클러스터링은 데이터 세트를 하위 그룹으로 분할하여 유사한 기능을 가진 예제를 함께 그룹화할 수 있습니다. 레이블이 지정된 데이터나 훈련 세트에 의존하지 않습니다. 반면에 분류는 훈련 세트의 관찰을 기반으로 새 데이터를 분류합니다.
데이터 마이닝의 단점이 있습니까?
데이터 마이닝을 사용할 때 많은 개인 정보 문제가 발생합니다. 데이터 마이닝이 나름의 방식으로 단순한 데이터 수집의 길을 열었음에도 불구하고. 정밀도에 관해서는 여전히 특정 한계가 있습니다. 얻은 데이터가 정확하지 않아 의사 결정에 문제가 발생할 수 있습니다. 데이터 마이닝을 위한 데이터 수집 절차는 많은 기술을 사용합니다. 생성된 모든 데이터에는 자체 스토리지와 유지 관리가 필요합니다. 그 결과 구현 비용이 급증할 수 있습니다.