모든 데이터 과학자가 알아야 할 상위 9가지 데이터 과학 알고리즘

게시 됨: 2020-02-13

알고리즘은 계산을 구현하거나 다른 문제 해결 기능을 수행하기 위해 컴퓨터 프로그램이 따르는 일련의 규칙 또는 지침입니다. 데이터 과학은 데이터 세트에 대한 의미 있는 정보를 추출하는 것이므로 목적을 해결하는 데 사용할 수 있는 알고리즘은 무수히 많습니다.

데이터 과학 알고리즘 은 기본값 등을 분류, 예측, 분석, 감지하는 데 도움이 될 수 있습니다. 알고리즘은 또한 scikit-learn과 같은 기계 학습 라이브러리의 기초를 구성합니다. 따라서 표면 아래에서 무슨 일이 일어나고 있는지 확실히 이해하는 것이 도움이 됩니다.

세계 최고의 대학에서 데이터 과학 프로그램 을 배우십시오 . 이그 제 큐 티브 PG 프로그램, 고급 인증 프로그램 또는 석사 프로그램을 획득하여 경력을 빠르게 추적하십시오.

읽기: 데이터 과학을 위한 기계 학습 알고리즘

일반적으로 사용되는 데이터 과학 알고리즘

1. 분류

이산 대상 변수에 사용되며 출력은 범주 형식입니다. 클러스터링, 연관 및 의사결정 트리는 입력 데이터를 처리하여 결과를 예측하는 방법입니다. 예를 들어, 새로운 환자는 분류 모델을 사용하여 "아픈" 또는 "건강한"으로 레이블될 수 있습니다.

2. 회귀

회귀는 대상 변수를 예측하고 본질적으로 연속적인 대상 변수 간의 관계를 측정하는 데 사용됩니다. 단일 기능 또는 기능 세트(예: x 및 대상 변수 y)의 플롯에 '최적 맞춤 선'을 표시하는 간단한 방법입니다.

회귀는 서로 다른 대기 매개변수 사이의 이전 상관 관계를 기반으로 강우량을 추정하는 데 사용할 수 있습니다. 또 다른 예는 면적, 지역, 연령 등과 같은 특성을 기반으로 주택 가격을 예측하는 것입니다.

이제 데이터 과학 알고리즘 의 가장 기본적인 구성 요소 중 하나인 선형 회귀를 이해하겠습니다.

3. 선형 회귀

N개의 특징을 가진 데이터셋에 대한 선형 방정식은 다음과 같이 주어질 수 있습니다: y = b 0 + b 1 .x 1 + b 2 .x 2 + b 3 .x 3 + …..b n .x n , 여기서 b 0 은 일부 일정한.

일 변량 데이터(y = b 0 + b 1 .x)의 경우 목표는 반환된 변수에 대해 가능한 가장 작은 값으로 손실 또는 오류를 최소화하는 것입니다. 이것이 비용 함수의 주요 목적입니다. b 0 을 0으로 가정 하고 b 1 에 대해 다른 값을 입력 하면 선형 회귀 비용 함수의 모양이 볼록함을 알 수 있습니다.

수학적 도구는 두 매개변수 b 0 과 b 1 을 최적화 하고 비용 함수를 최소화하는 데 도움이 됩니다. 그 중 하나는 다음과 같이 논의됩니다.

4. 최소제곱법

위의 경우 b 1 은 x의 가중치 또는 선의 기울기이고 b 0 은 절편입니다. 또한 y의 모든 예측 값은 선 위에 있습니다. 그리고 최소 자승법은 각 점, 예를 들어 (x i , y i ), 예측 값 사이의 거리를 최소화하려고 합니다.

b 0 의 값을 계산하려면 x i 의 모든 값의 평균을 찾아 b 1 을 곱 하십시오. 그런 다음 모든 y i 의 평균에서 곱을 뺍니다 . 또한 b 1 값에 대해 Python에서 코드를 실행할 수 있습니다 . 이러한 값은 비용 함수에 연결될 준비가 되었으며 손실 및 오류에 대해 반환 값이 최소화됩니다. 예를 들어 b 0 = -34.671 및 b 1 = 9.102의 경우 비용 함수는 21.801로 반환됩니다.

5. 경사하강법

다중 회귀의 경우와 같이 여러 기능이 있는 경우 복잡한 계산은 경사하강법과 같은 방법으로 처리됩니다. 함수의 극소값을 결정하기 위해 적용되는 반복 최적화 알고리즘입니다. 이 과정은 b 0 과 b 1 에 대한 초기값을 취하여 비용 함수의 기울기가 0이 될 때까지 계속됩니다.

산의 가장 낮은 지점에 위치한 호수에 가야 한다고 가정해 봅시다. 시야가 0이고 산 정상에 서 있다면 육지가 하강하는 경향이 있는 지점에서 시작합니다. 첫걸음을 떼고 내리막길을 따라가다 보면 호수에 다다랐을 가능성이 큽니다.

비용 함수가 매개변수를 평가할 수 있는 도구인 반면, 경사하강법 알고리즘은 모델 매개변수를 업데이트하고 훈련하는 데 도움이 될 수 있습니다. 이제 데이터 과학을 위한 몇 가지 다른 알고리즘을 살펴보겠습니다 .

6. 로지스틱 회귀

선형 회귀의 예측은 연속 값이지만 로지스틱 회귀는 이산 또는 이진 예측을 제공합니다. 즉, 출력의 결과는 변환 함수를 적용한 후 두 개의 클래스에 속합니다. 예를 들어, 로지스틱 회귀는 학생이 합격 또는 불합격 또는 비가 올지 여부를 예측하는 데 사용할 수 있습니다. 로지스틱 회귀에 대해 자세히 알아보세요.

7. K-평균 클러스터링

유사한 데이터 포인트를 클러스터에 할당하는 반복 알고리즘입니다. 동일한 작업을 수행하기 위해 k 클러스터의 중심을 계산하고 중심으로부터의 최소 거리를 기반으로 데이터를 그룹화합니다. 데이터 마이닝의 클러스터 분석에 대해 자세히 알아보세요.

8. K-최근접 이웃(KNN)

KNN 알고리즘은 새로운 데이터 인스턴스에 대한 결과가 필요할 때 전체 데이터 세트를 통해 k-최근접 인스턴스를 찾습니다. 사용자는 사용할 k 값을 지정합니다.

9. 주성분 분석(PCA)

PCA 알고리즘은 데이터의 최대 분산을 '주성분'의 새로운 시스템으로 캡처하여 변수의 수를 줄입니다. 이렇게 하면 데이터를 쉽게 탐색하고 시각화할 수 있습니다.

마무리

위에서 설명한 데이터 과학 알고리즘 에 대한 지식은 현장에서 막 시작하는 경우 매우 유용할 수 있습니다. 핵심을 이해하는 것은 일상적인 데이터 과학 기능을 수행하는 동안에도 유용할 수 있습니다.

데이터 과학 에 대해 자세히 알고 싶으시면 작업 전문가를 위해 만들어졌으며 10개 이상의 사례 연구 및 프로젝트, 실용적인 실습 워크샵, 업계 전문가와의 멘토링, 1 - 업계 멘토와 일대일, 400시간 이상의 학습 및 최고의 기업과의 취업 지원.

ML용 데이터 과학 알고리즘을 선택하기 전에 고려해야 할 사항에는 어떤 것이 있습니까?

선형성을 확인하십시오. 가장 쉬운 방법은 직선을 맞추거나 로지스틱 회귀 또는 SVM을 수행하고 잔차 오류를 찾는 것입니다. 더 큰 오류는 데이터가 선형이 아니며 이를 맞추는 데 정교한 기술이 필요함을 나타냅니다.

Naive Bayes, Linear 및 Logistic 회귀 알고리즘은 구성 및 실행이 간단합니다. 매개변수 조정이 필요한 SVM, 수렴 시간이 빠른 신경망, 랜덤 포레스트 모두 데이터를 훈련하는 데 상당한 시간이 필요합니다. 결과적으로 선호하는 속도에 따라 선택하십시오.

신뢰할 수 있는 예측을 생성하려면 일반적으로 많은 양의 데이터를 수집하는 것이 좋습니다. 그러나 데이터 가용성이 문제가 되는 경우가 많습니다. 훈련 데이터가 제한적이거나 데이터 세트에 유전학 또는 텍스트 데이터와 같은 더 적은 수의 관찰과 더 많은 수의 기능이 포함된 경우 선형 회귀 또는 선형 SVM과 같이 편향/저분산이 높은 알고리즘을 사용합니다.

유연하고 제한적인 알고리즘은 무엇입니까?

제한된 다양한 매핑 기능 형식을 생성하기 때문에 일부 알고리즘은 제한적이라고 합니다. 예를 들어 선형 회귀는 선과 같은 선형 함수만 생성할 수 있기 때문에 제한된 기술입니다.

일부 알고리즘은 더 넓은 범위의 매핑 함수 형식을 생성할 수 있기 때문에 유연하다고 합니다. 예를 들어 k=1인 KNN은 매핑 출력 기능을 생성하는 동안 모든 입력 데이터 포인트를 고려하기 때문에 매우 다양합니다.

함수가 주어진 관찰에 대해 실제 응답 값에 가까운 응답 값을 예측할 수 있는 경우 이를 정확도로 특성화합니다. 해석 가능성이 높은 기술(선형 회귀와 같은 제한적 모델)은 각 개별 예측 변수를 이해할 수 있음을 의미하는 반면 유연한 모델은 낮은 해석 가능성을 희생하면서 더 높은 정확도를 제공합니다.

나이브 베이즈 알고리즘이란?

Bayes' Theorem 및 예측자 독립성 가정에 기반한 분류 알고리즘입니다. 간단히 말해서, Naive Bayes 분류기는 클래스에 한 기능의 존재가 다른 기능의 존재와 관련이 없다고 말합니다. Naive Bayes 모델은 구축이 간단하고 대규모 데이터 세트에 특히 유용합니다. 단순성 때문에 Naive Bayes는 가장 강력한 분류 알고리즘도 물리치는 것으로 알려져 있습니다.