기계 학습 작동 방식 - 쉬운 안내서

게시 됨: 2019-07-31

Netflix와 Amazon은 게임에서 매우 뛰어났습니다. 그들은 항상 어떤 콘텐츠 또는 제품을 보고/구매하고 싶은지 알고 있는 것 같습니다. 당신의 취향과 선호도에 따라 이미 큐레이트된 모든 것을 보고 싶지 않으세요?

우리 대부분은 Netflix와 Amazon의 멋진 추천 엔진(물론 기계 학습!) 뒤에 숨겨진 소스를 알고 있지만 기계 학습의 내부 메커니즘에 대해 잘 알고 있는 사람은 얼마나 될까요?

간단히 말해서 기계 학습은 어떻게 작동 합니까?

본질적으로 머신 러닝은 경험에서 "학습"하고 지능이 필요한 작업을 기계가 수행할 수 있도록 하는 것을 목표로 하는 데이터 분석 기술(AI의 하위 집합)입니다. 기계 학습 알고리즘은 계산 방법을 적용하여 정보를 추출하고 명시적으로 프로그래밍하지 않고도 데이터에서 직접 학습합니다(미리 결정된 방정식에 의존할 필요 없음).

기계 학습 시스템의 해부

모든 ML 시스템은 세 부분으로 분해될 수 있습니다.

  • 모델 – 식별, 즉 예측을 처리하는 구성 요소입니다.
  • 매개변수 – 모델이 결정(예측)에 도달하기 위해 사용하는 요소를 나타냅니다.
  • 학습자 – 실제 결과와 예측의 차이를 고려하여 매개변수(및 전체적으로 모델)를 조정하는 구성요소입니다.

머신 러닝의 유형

이제 ML 시스템의 핵심 구성 요소에 익숙해졌으므로 "학습"하는 다양한 방법을 살펴볼 차례입니다.

지도 학습

지도 학습에서 모델은 입력을 출력에 매핑하는 방법에 대해 명시적으로 학습됩니다. 지도 학습 알고리즘은 해당 데이터에 대한 알려진 응답(출력)과 함께 인식된 입력 데이터 세트를 사용하고 새로운 입력 데이터에 대한 응답으로 합리적인 예측을 생성하도록 모델을 훈련합니다.

지도 학습은 예측 모델을 개발하기 위해 두 가지 접근 방식을 사용합니다.

  • 분류 – 이름에서 알 수 있듯이 이 기술은 입력 데이터에 레이블을 지정하여 다양한 범주로 분류합니다. 개별 반응을 예측하는 데 사용됩니다(예: 암세포가 양성 또는 악성인 경우). 의료 영상, 음성 인식 및 신용 점수는 분류의 세 가지 인기 있는 사용 사례입니다.
  • 회귀 - 이 기술은 입력 데이터의 패턴을 식별하여 연속 응답을 예측하는 데 사용됩니다. 예를 들어, 기온이나 날씨의 변동. 회귀는 날씨, 전력 부하 및 알고리즘 거래를 예측하는 데 사용됩니다.

비지도 학습

Unsupervised Learning 접근 방식은 레이블이 지정되지 않은 데이터를 사용하고 그 안에 숨겨진 패턴을 풀려고 합니다. 따라서 이 기술은 레이블이 지정된 응답이 없는 입력 데이터로 구성된 데이터 세트에서 추론을 도출합니다.

  • 클러스터링 – 가장 일반적인 비지도 학습 방법 중 하나인 클러스터링은 클러스터 자격 증명에 대한 알려진 정보 없이 데이터를 "클러스터"로 분류하는 탐색적 데이터 분석 기술입니다. 개체 인식 및 유전자 서열 분석은 클러스터링의 두 가지 예입니다.
  • 차원 축소 - 차원 축소는 모든 중복 정보의 입력 데이터를 정리하고 필수 부분만 유지합니다. 따라서 데이터가 깨끗해질 뿐만 아니라 크기도 줄어들어 저장 공간을 덜 차지합니다.
기계 학습 작동 방식

강화 학습

강화 학습은 시행착오를 통해 학습하고 개선할 수 있는 자체 유지 및 자체 학습 모델을 구축하는 것을 목표로 합니다. 학습(트레이닝) 과정에서 알고리즘이 특정 작업을 성공적으로 수행할 수 있으면 보상 신호가 트리거됩니다. 보상 신호는 알고리즘의 안내등과 같은 기능을 합니다. 두 가지 보상 신호가 있습니다.

  • 긍정적인 신호는 특정 행동 시퀀스를 장려하고 계속하기 위해 트리거됩니다.
  • 부정적인 신호는 특정 잘못된 행동에 대한 페널티입니다. 훈련 과정을 더 진행하기 전에 실수의 수정을 요구합니다.

강화 학습은 비디오 게임에서 널리 사용됩니다. 자율주행차의 메커니즘이기도 하다.

ML 알고리즘의 '학습' 기능 내부

ML 알고리즘의 기능과 경험을 통해 학습하는 방법에는 세 가지 공통 원칙이 있습니다.

함수 학습

학습 프로세스의 첫 번째 단계는 ML 알고리즘이 입력 변수(X)를 출력 변수(Y)에 가장 잘 매핑하는 대상 함수(f)에 대해 학습하는 단계입니다. 그래서,

Y = f(X).

여기서 목표 함수(f)의 형태를 알 수 없으므로 예측 모델링이 됩니다.

이 일반적인 학습 단계에서 ML 알고리즘은 새로운 입력 변수(X)를 기반으로 미래 예측(Y)을 수행하는 방법을 학습합니다. 당연히 프로세스에 오류가 없는 것은 아닙니다. 여기서 오류(e)는 입력 데이터(X)와 무관하게 존재합니다. 그래서,

Y = f(X) + e

오류(e)는 X에서 Y로의 매핑 시나리오를 가장 잘 특성화할 수 있는 속성이 충분하지 않을 수 있으므로 이를 환원 불가능한 오류라고 합니다. 알고리즘이 목표 함수(f)를 얼마나 잘 추정하는지에 관계없이 오류( 이자형).

예측 및 개선 방법 학습

이전 시점에서 ML 알고리즘이 대상 함수(f)를 학습하는 방법을 이해했습니다. 그리고 우리는 이미 여기서 우리의 유일한 목표가 X에서 Y를 매핑하는 가장 좋은 방법을 찾는 것이라는 것을 이미 알고 있습니다. 다시 말해 입력을 출력에 매핑하는 가장 정확한 방법을 찾아야 합니다.

오류(e)가 있을 수 있습니다. 하지만 알고리즘은 원하는 출력(Y)에서 얼마나 멀리 떨어져 있고 도달하는 방법을 이해하려고 계속 노력해야 합니다. 이 프로세스에서 출력(Y)과 가장 잘 일치하도록 매개변수 또는 입력 값(X)을 지속적으로 조정합니다. 이것은 원하는 출력 모델로 높은 수준의 유사성과 정확성에 도달할 때까지 계속됩니다.

기계 학습을 배우는 방법 – 단계별

'경사하강법' 학습 접근법

우리가 '지능형' 기계를 만드는 데 성공했다는 것은 사실일 수 있지만 학습 속도는 다릅니다. 기계는 느리게 가는 경향이 있습니다. 그들은 "경사 하강" 학습 과정을 믿습니다. 한 번에 도약하는 것이 아니라 아기 걸음을 내딛고 천천히 정상에서 내려옵니다(여기서 은유는 산을 오르는 것과 같습니다).

산을 내려갈 때 점프하거나 뛰거나 한 번에 넘어지지 않습니다. 대신, 안전하게 바닥으로 내려가 사고를 피하기 위해 측정되고 계산된 조치를 취합니다.

ML 알고리즘은 이 접근 방식을 사용합니다. 최종적으로 원하는 결과를 얻기 위해 변화하는 매개변수(산의 거칠고 탐험되지 않은 지형을 다시 그려보세요)에 계속 스스로를 조정합니다.

결론적으로…

모든 기계 학습 알고리즘의 기본 목표는 특정 입력 데이터에 가장 잘 일반화되는 예측 모델을 개발하는 것입니다. ML 알고리즘과 시스템은 다양한 종류의 입력/변수/매개변수를 통해 스스로 훈련하기 때문에 방대한 데이터 풀을 보유하는 것이 필수적입니다. 이는 ML 알고리즘이 다양한 종류의 데이터와 상호 작용하여 동작을 학습하고 원하는 결과를 생성할 수 있도록 하기 위한 것입니다.

이 게시물을 통해 기계 학습의 작동 원리를 이해할 수 있기를 바랍니다!

모두를 위한 머신 러닝‎

애플리케이션을 구축하고 AI 및 머신 러닝을 구현하여 실제 문제를 해결합니다. upGrad에서 기계 학습 및 AI PG 디플로마를 취득하십시오.
지금 등록 @ 업그레이드