모든 데이터 과학자가 알아야 할 7가지 데이터 마이닝 기능

게시 됨: 2020-11-17

목차

소개

데이터 마이닝은 데이터를 예측하고 특성화하기 위해 빅 데이터에 광범위하게 적용됩니다. 기능은 데이터 과학의 추세를 찾는 것입니다. 일반적으로 데이터 마이닝은 다음과 같이 분류됩니다.

  1. 기술 데이터 마이닝: 데이터 에 대한 특정 지식(예: 개수, 평균)을 제공합니다. 사전 정보 없이 데이터 내부에서 일어나는 일에 대한 정보를 제공합니다. 데이터의 공통된 특징을 보여줍니다. 간단히 말해서 데이터베이스에 있는 데이터의 일반적인 속성을 알게 됩니다.
  2. 예측 데이터 마이닝: 개발자가 명시적으로 사용할 수 없는 특성을 이해하는 데 도움이 됩니다. 예를 들어, 이전 분기의 성과와 함께 다음 분기의 비즈니스 분석을 예측합니다. 일반적으로 예측 분석은 이전에 사용 가능한 데이터로 특성을 예측하거나 추론합니다.

데이터 마이닝의 기능은 다음과 같습니다.

  1. 클래스/개념 설명: 특성화 및 차별
  2. 분류
  3. 예측
  4. 연관 분석
  5. 클러스터 분석
  6. 이상치 분석
  7. 진화 및 편차 분석

1. 클래스/개념 설명: 특성화 및 차별

데이터는 클래스 또는 개념과 연결되어 결과와 상호 연관될 수 있습니다. 예를 들어, 새로운 iPhone 모델은 Pro, Pro max 및 Plus와 같은 요구 사항에 따라 대상 고객에게 집중하기 위해 세 가지 변형으로 출시됩니다.

데이터 특성화

데이터의 일반적인 특징을 요약하면 데이터 특성화라고 합니다. iPhone 구매자와 같은 대상 클래스에 대한 특성 규칙을 생성합니다. 간단한 SQL 쿼리를 사용하여 데이터를 수집하고 OLAP 기능을 수행하여 데이터를 일반화할 수 있습니다.

속성 지향 유도 기술은 사용자 상호 작용을 최소화하면서 데이터를 일반화하거나 특성화하는 데에도 사용됩니다. 일반화된 데이터는 표, 파이 차트, 꺾은선형 차트, 막대 차트, 그래프 등 다양한 형태로 제공됩니다. 데이터 간의 다차원 관계는 대상 클래스의 특성 규칙이라는 규칙으로 표시됩니다.

데이터 차별

두 클래스 간의 데이터를 비교합니다. 일반적으로 대상 클래스를 미리 정의된 그룹 또는 클래스와 매핑합니다. 판별 규칙이라는 일련의 규칙을 사용하여 클래스의 특성을 미리 정의된 클래스와 비교하고 대조합니다. 데이터 식별에 사용되는 방법은 데이터 특성화와 유사합니다.

2. 분류

데이터 모델을 사용하여 데이터의 추세를 예측합니다. 예를 들어, 인터넷 뱅킹이나 모바일 애플리케이션의 지출 차트는 지출 패턴을 기반으로 표시됩니다. 이것은 때때로 새로운 대출을 받을 위험을 정의하는 데 사용됩니다.

IF-THEN, 의사 결정 트리, 수학 공식 또는 신경망과 같은 방법을 사용하여 모델을 예측하거나 분석합니다. 훈련 데이터를 사용하여 기존 인스턴스와 비교할 새 인스턴스를 생성합니다.

읽기: 데이터 과학 경력

3. 예측

예측은 데이터에서 누락된 숫자 값을 찾습니다. 회귀 분석을 사용하여 사용할 수 없는 데이터를 찾습니다. 클래스 레이블이 없으면 분류를 사용하여 예측이 수행됩니다. 예측은 비즈니스 인텔리전스의 중요성 때문에 널리 사용됩니다. 데이터를 예측할 수 있는 두 가지 방법이 있습니다.

  1. 예측 분석을 사용하여 사용할 수 없거나 누락된 데이터 예측
  2. 이전에 빌드된 클래스 모델을 사용하여 클래스 레이블을 예측합니다.

미래의 깊은 곳에서 가치를 찾을 수 있게 해주는 예측기법입니다. 미래의 추세를 예측하려면 과거 값으로 구성된 방대한 데이터 세트가 필요합니다.

4. 연관성 분석

데이터의 두 개 이상의 속성과 관련됩니다. 데이터와 데이터를 바인딩하는 규칙 간의 관계를 검색합니다. 소매 판매에서 널리 적용됩니다. 아마존에서 하단에 "이걸 구매하신 분들도 구매하셨네요.." 라는 제안은 실시간 연관분석 예시입니다.

자주 거래되는 속성을 함께 연결합니다. 그들은 연관 규칙이라고 불리는 것을 찾아내고 시장 바구니 분석에서 널리 사용됩니다. 속성을 연관시킬 두 개의 항목이 있습니다. 하나는 둘 다 함께 연관될 확률을 나타내는 신뢰도이고 다른 하나는 연관의 과거 발생을 알려주는 지지입니다.

예를 들어, 휴대전화를 헤드폰과 함께 구입하는 경우 지원은 2%이고 신뢰는 40%입니다. 이는 고객이 헤드폰이 장착된 휴대전화를 구매한 시간의 2%를 의미합니다. 신뢰의 40%는 동일한 연관성이 다시 발생할 확률입니다.

읽기: 인도의 데이터 마이닝 프로젝트

5. 클러스터 분석

비지도 분류를 클러스터 분석이라고 합니다. 데이터를 그룹화하는 분류와 유사합니다. 분류와 달리 클러스터 분석에서는 클래스 레이블을 알 수 없습니다. 데이터는 클러스터링 알고리즘을 기반으로 그룹화됩니다.

하나의 클러스터 아래에 유사하게 그룹화된 개체입니다. 한 클러스터와 다른 클러스터 사이에는 엄청난 차이가 있을 것입니다. 그룹화는 클래스 내 유사성을 최대화하고 클래스 내 유사성을 최소화하기 위해 수행됩니다. 클러스터링은 기계 학습, 이미지 처리, 패턴 인식 및 생물 정보학과 같은 많은 분야에서 적용됩니다.

6. 이상치 분석

어떤 클래스에서도 그룹화할 수 없는 데이터가 나타나면 이상치 분석을 사용합니다. 다른 클래스나 일반 모델과 다른 속성을 갖는 데이터가 발생합니다. 이러한 뛰어난 데이터를 이상값이라고 합니다. 일반적으로 노이즈 또는 예외로 간주되며 이러한 이상값의 분석을 이상값 마이닝이라고 합니다.

이러한 이상값은 일반적으로 노이즈로 무시되지만 많은 응용 프로그램에서 중요한 연관성이 될 수 있습니다. 예외 또는 놀라움이라고도 하며 이를 식별하는 데 중요합니다. 이상치는 확률을 찾는 통계적 테스트를 사용하여 식별됩니다. 이상값의 다른 이름은 다음과 같습니다.

  1. 일탈자
  2. 이상
  3. 귀에 거슬리는
  4. 이상

7. 진화 및 편차 분석

진화 분석을 통해 우리는 데이터의 시간 관련 클러스터링을 얻습니다. 우리는 일정 기간 동안 행동의 경향과 변화를 찾을 수 있습니다. 이러한 뚜렷한 분석을 통해 시계열 데이터, 주기성 및 추세 유사성과 같은 기능을 찾을 수 있습니다.

또한 읽기: 인도의 데이터 과학자 급여

결론

전체적으로 데이터 마이닝 및 기능은 우주 과학에서 소매 마케팅에 이르기까지 많은 응용 프로그램을 찾습니다.

급변하는 기술 발전의 선두에 서기 위해 데이터 과학을 배우는 것에 대해 궁금하다면 upGrad & IIIT-B의 데이터 과학 PG 프로그램을 확인하십시오.

데이터 마이닝에서 기능은 무엇을 의미합니까?

데이터 마이닝은 방대한 데이터 세트에서 정보를 수집하고, 패턴을 감지하고, 연결을 발견하는 프로세스입니다. 데이터 마이닝의 기능은 데이터 과학자가 데이터 마이닝 활동에서 발견할 패턴의 종류를 정의하는 데 사용됩니다. 데이터 마이닝 작업은 설명 및 예측의 두 가지 유형으로 나뉩니다. 설명 마이닝 작업은 데이터베이스 데이터의 일반적인 특성을 설명합니다. 예측 마이닝 작업은 현재 데이터를 추론하여 예측을 생성합니다. 기능은 데이터 마이닝 프로세스에 따라 선택됩니다.

데이터 모델은 무엇을 의미합니까?

데이터 모델은 정보 도메인의 다양한 데이터 구성 요소 간의 논리적 상호 관계 및 데이터 흐름을 나타냅니다. 또한 데이터가 저장되고 액세스되는 방법에 대해서도 설명합니다. 데이터 모델은 정보 시스템 요구 사항을 적절하게 표현하고 해당 요구 사항에 대한 답변을 생성함으로써 커뮤니케이션, 비즈니스 및 기술 개발을 향상시킵니다. 데이터 모델은 필요한 데이터와 데이터 과학자가 다양한 비즈니스 활동에 활용해야 하는 형식을 설명하는 데 도움이 됩니다.

이상치 분석에서는 어떤 일이 발생합니까?

이상치 분석은 '이상치 마이닝'으로 알려진 일종의 데이터 마이닝 작업입니다. 데이터 과학자는 예상치 못한 신용 카드 또는 통신 사용, 의료 분석을 통해 의료 치료에 대한 이상한 반응을 감지, 마케팅을 통해 고객 구매 습관을 발견하는 등 다양한 상황에서 사기를 감지하는 데 사용할 수 있습니다. 데이터 과학 전문가는 다양한 방법으로 이상값을 찾을 수 있습니다. 이러한 모든 전략은 다양한 방법을 사용하여 나머지 데이터 세트와 대조적으로 평범하지 않은 값을 발견합니다.