기계 학습을 위한 선형 판별 분석: 알아야 할 사항은 무엇입니까?

게시 됨: 2020-05-22

최근 몇 년 동안 기술의 발전으로 연결된 장치가 방대한 양의 데이터를 처리할 수 있게 되었습니다. 그러나 이러한 방대한 양의 데이터를 처리할 때 데이터의 저장 및 보안은 여전히 큰 문제로 남아 있습니다. 이것이 올바른 방식으로 데이터를 처리하는 것이 매우 중요한 이유입니다. 시간이 많이 걸리는 작업인 경우가 많습니다.

여기서 선형 판별 분석 또는 LDA 와 같은 데이터 차원 축소 기술이 사용됩니다. 이러한 기술은 데이터 보안 및 개인 정보 보호를 보장하면서 훨씬 더 나은 방식으로 데이터 세트를 처리하는 데 도움이 될 수 있습니다. 이 블로그에서 우리의 초점은 선형 판별 분석 데이터 차원 축소 기술에 대해 논의하는 것입니다. 차원 축소에 대해 이야기하는 것으로 시작하겠습니다.

차원 축소란 무엇입니까?

선형 판별 분석이 기반으로 하는 개념의 배경을 알면 선형 판별 분석 기술을 더 잘 이해할 수 있습니다. 다차원 데이터를 처리할 때 서로 상관 관계가 있는 많은 기능이 있는 데이터가 있습니다. 다차원 데이터를 2차원 또는 3차원으로 플로팅하는 경우 차원 축소 기술을 사용하고 있습니다.

차원 축소의 대안으로 매우 일반적으로 사용되는 대안은 무엇보다도 히스토그램, 산점도 및 상자 플롯을 사용하여 데이터를 그리는 것입니다. 이 그래프는 주어진 원시 데이터 세트에서 패턴을 찾는 데 사용할 수 있습니다. 그러나 차트는 일반 사람들이 쉽게 해독할 수 있는 방식으로 데이터를 표시하지 않습니다. 또한 기능이 많은 데이터는 해당 데이터 세트의 패턴을 식별하기 위해 여러 차트가 필요합니다.

LDA와 같은 데이터 차원 축소 기술은 데이터를 플로팅하는 데 2차원 또는 3차원을 사용하여 이러한 문제를 극복하는 데 도움이 됩니다. 이렇게 하면 기술적인 배경이 없는 사람들도 이해할 수 있는 데이터 프레젠테이션을 보다 명확하게 할 수 있습니다.

읽기 : 25가지 기계 학습 인터뷰 질문 및 답변

선형 판별 분석이란 무엇입니까?

가장 많이 사용되는 차원 축소 기법 중 하나입니다. 기계 학습 및 패턴 분류와 관련된 응용 프로그램에 사용됩니다. LDA는 고차원 공간에 존재하는 기능을 저차원 공간에 투영하는 매우 구체적인 목적을 수행합니다.

이는 일반적인 차원 문제를 없애고 차원 비용과 리소스를 줄이기 위해 수행됩니다. Ronald A Fisher는 1936년에 원래 개념인 Fisher의 판별 분석 또는 선형 판별 을 개발한 공로를 인정받았습니다. 원래 선형 판별은 2급 기술이었습니다. 다중 클래스 버전은 나중에 나왔습니다.

선형 판별 분석은 기계 학습 모델을 생성하는 데 사용되는 지도 분류 방법입니다. 차원 축소를 기반으로 하는 이러한 모델은 무엇보다도 마케팅 예측 분석 및 이미지 인식과 같은 애플리케이션에서 사용됩니다. 응용 프로그램에 대해서는 잠시 후에 다루겠습니다.

그렇다면 LDA에서 정확히 무엇을 찾고 있습니까? 이 차원 축소 기술이 발견하는 데 도움이 되는 두 가지 영역이 있습니다. 그룹과 객체 간의 관계를 설명하는 데 사용할 수 있는 매개변수 그룹을 분리하는 데 도움이 될 수 있는 분류 프리셉터 모델입니다. 이것이 LDA가 다른 그룹의 품종을 모델링하는 데 널리 사용되는 이유입니다. 따라서 이 기술을 사용하여 변수 배포에 둘 이상의 클래스를 사용할 수 있습니다.

선형 판별 분석의 확장

LDA는 분류에 사용할 수 있는 가장 간단하고 효과적인 방법 중 하나로 간주됩니다. 방법이 너무 간단하고 이해하기 쉽기 때문에 몇 가지 변형과 확장을 사용할 수 있습니다. 그 중 일부는 다음과 같습니다.

1. 정규화된 판별 분석 또는 RDA

RDA는 정규화를 분산 또는 공분산 추정으로 가져오는 데 사용됩니다. 이는 변수가 LDA에 미치는 영향을 완화하기 위해 수행됩니다.

2. 이차 판별 분석 또는 QDA

QDA에서 서로 다른 클래스는 자체 분산 추정치를 사용합니다. 입력 변수의 수가 평소보다 많을 경우 모든 클래스는 공분산 추정치를 사용합니다.

3. 유연한 판별 분석 또는 FDA

FDA는 비선형 조합으로 입력을 사용합니다. 스플라인이 좋은 예입니다.

자세히 알아보기: Python 프로젝트 아이디어 및 주제

일반적인 LDA 애플리케이션

LDA는 여러 응용 프로그램에서 사용됩니다. 분류 문제로 전환될 수 있는 모든 문제에 사용할 수 있습니다. 일반적인 예로는 속도 인식, 얼굴 인식, 화학, 마이크로어레이 데이터 분류, 이미지 검색, 생체 인식 및 생물 정보학이 있습니다. 이 중 몇 가지를 논의해 보겠습니다.

1. 얼굴 인식

컴퓨터 비전에서 얼굴 인식은 가장 널리 사용되는 응용 프로그램 중 하나로 간주됩니다. 얼굴 인식은 많은 양의 픽셀 값을 사용하여 얼굴을 표현하여 수행됩니다. LDA는 분류 방법을 사용할 근거를 마련하기 위해 특징의 수를 줄이는 데 사용됩니다. 새 차원은 템플릿을 만드는 데 사용되는 픽셀 값의 조합입니다.

2. 고객 식별

고객이 제품을 구매할 가능성을 기준으로 고객을 식별하려는 경우 LDA를 사용하여 고객 기능을 수집할 수 있습니다. 제품을 구매할 가능성이 더 높은 고객 그룹을 설명하는 기능을 식별하고 선택할 수 있습니다.

3. 의료

LDA는 질병을 중증, 경증 또는 중등도와 같은 다양한 범주로 분류하는 데 사용할 수 있습니다. 이 분류 작업을 수행하는 데 사용할 몇 가지 환자 매개변수가 있습니다. 이 분류를 통해 의사는 치료 속도를 정의할 수 있습니다.

더 읽어보기: 초보자를 위한 15가지 흥미로운 기계 학습 프로젝트 아이디어

결론

LDA는 분류 ML 모델에 일반적으로 사용되는 간단하고 잘 알려진 기술입니다. PCA 및 로지스틱 회귀는 우리가 사용할 수 있는 다른 차원 축소 기술입니다. 그러나 특별한 분류 문제에 관해서는 LDA가 다른 두 가지 문제보다 선호됩니다.

기계 학습에 대해 자세히 알아보려면 IIIT-B 및 upGrad의 기계 학습 및 AI PG 디플로마를 확인하세요. 이 PG 디플로마는 일하는 전문가를 위해 설계되었으며 450시간 이상의 엄격한 교육, 30개 이상의 사례 연구 및 과제, IIIT- B 동문 자격, 5개 이상의 실용적인 실습 캡스톤 프로젝트 및 최고의 기업과의 취업 지원.

선형 판별 분석이란 무엇입니까?

선형 판별 분석(LDA)은 다른 모든 그룹에서 샘플 그룹을 구별하는 데 유용한 기본 기능을 학습하는 분류 알고리즘입니다. LDA 알고리즘을 적용한 결과 그룹 구성원을 예측하는 데 사용할 수 있는 새로운 기능 집합을 얻었습니다. 예를 들어 IP 주소를 수집하고 해당 주소가 속한 국가를 파악하려고 한다고 가정해 보겠습니다. 샘플 IP 주소의 훈련 세트가 있고 매우 높은 정확도로 출신 국가를 식별할 수 있습니다. 새로운 IP 주소가 있고 그 주소가 어느 국가에서 왔는지 알고 싶다면 LDA에 제공하면 가장 높은 확률로 클래스에 할당합니다.

선형 판별 분석의 응용 프로그램은 무엇입니까?

선형 판별 분석(LDA)은 지도 학습 프레임워크의 기술 세트입니다. LDA는 종속 변수가 특징 공간에서 선형으로 분리 가능한 방법입니다. LDA는 마케팅, 재무 및 기타 영역에서 고객 프로파일링 및 사기 탐지와 같은 여러 분류 작업을 수행하는 데 사용됩니다. 예를 들어, 데이터 포인트의 두 그룹을 분리하는 독립 변수의 선형 조합을 찾고 싶다고 가정합니다. LDA는 기능 공간에서 두 데이터 포인트 그룹 간의 최대 분리를 생성하는 독립 변수의 선형 조합을 찾습니다.

차원 축소란 무엇입니까?

차원 축소는 데이터 세트의 변수 수를 줄이는 기술 모음을 나타냅니다. 가장 일반적인 차원 축소 기술은 PCA(주성분 분석)입니다. PCA는 단순성, 수학적 우아함 및 높은 통계적 속성으로 인해 가장 널리 사용되는 차원 축소 기법입니다. PCA는 가장 적은 오류와 함께 가장 많은 분산을 포함하는 축을 식별하여 데이터 세트의 차원을 줄이는 데 사용됩니다.