베이지안 네트워크: 소개, 예제 및 실제 적용

게시 됨: 2020-02-23

데이터나 통계 작업을 해 본 사람이라면 누구나 한 가지 확실히 알고 있습니다. 상관 관계가 반드시 인과 관계를 의미하거나 암시하는 것은 아니라는 것입니다. 이제 이것이 매우 당연하게 들릴 수 있지만 대부분의 데이터 오류가 두 용어 간의 혼동으로 인해 발생한다는 사실을 알게 되면 충격을 받을 수 있습니다. 이는 주로 상관관계를 정의하는 것이 편리하지만 인과관계를 정의하거나 수량화하는 것이 거의 불가능하기 때문입니다.

사실, Causality: Models, Reasoning, and Inference 의 저자인 Judea Pearl 은 책에서 인간은 확률론적 및 통계적 추론에 수학적 노력을 집중하고 인과 관계에 대한 고려는 "직관과 올바른 판단에 맡긴다"고 말합니다. 그는 이것이 우리가 과학적 진보 측면에서 여전히 크게 뒤처져 있는 주요 요인이라고 말합니다.

이것은 베이지안 네트워크가 우리를 쉽게 해줄 때입니다. 다양한 독립 원인을 한 번에 볼 수 있도록 하여 상관 관계와 인과 관계를 구별하는 데 도움이 됩니다. 머신 러닝 알고리즘이 주관성이나 직관에 따라 작동하지 않기 때문에 이 모든 것이 정확하게 수행됩니다. 그들은 데이터 작업을 합니다.

베이지안 네트워크가 어떻게 작동하는지 이해하기 위해 예를 살펴보겠습니다.

목차

베이지안 네트워크의 예

이 예를 위해 세상이 극히 드물지만 치명적인 질병에 시달리고 있다고 가정해 보겠습니다. 당신이 이 질병에 감염될 확률이 1000분의 1이라고 말합니다.

이제 누군가가 질병으로 고통받고 있는지 알아보기 위해 의사는 검사를 개발합니다. 문제는 정확도가 99%에 불과하다는 것입니다.

자신이 질병에 걸렸는지 아닌지 어떻게 알 수 있습니까? 다른 시험을 치면 결과에 영향을 미칩니까?

수행할 때 어떤 일이 발생하는지 봅시다...

테스트 1

이 질병은 1000명 중 1명에게만 영향을 미치므로 감염될 확률은 다음과 같습니다.

감염된 0.001
무료 0.999

질병 CPT(조건부 확률표)

분명히, 1000명 중 1명이 질병에 걸릴 확률이 있는 것처럼 1000명 중 999명은 질병이 없습니다.

마찬가지로 테스트 확률을 계산하는 테이블을 생성합니다. 앞서 언급했듯이 테스트의 정확도는 99%에 불과합니다. 즉, 결과가 참일 확률은 99%에 불과합니다. 부정적인 결과의 경우도 마찬가지입니다.

바이러스 존재 감염된 무료
테스트 1(양성) 0.99 0.01
테스트 1(음성) 0.01 0.99

Test1 CPT(조건부 확률표)

이제 테스트 결과가 질병의 존재에 어떤 영향을 미치는지 그래프를 그려 보겠습니다.

이 셀을 테스트 결과로 채우면 다음과 같은 결과가 나타납니다.

이미지 소스

보시다시피 검사가 양성으로 나오면 질병에 걸릴 확률은 9%에 불과합니다.

자, 어떻게 이 번호를 얻었습니까?

베이즈 정리!

이미지 소스

우리의 예에서,

P(H|E) = P(H) x P(E|H) / P(E)

  • P(H|E) = P(H) x P(E|H) / {P(E|H) x P(H) + P(E|Hc) x P(Ec)}
  • P(H|E) = (0.99 x 0.001) / (0.001 x 0.99 + 0.999 x 0.01) = 0.9 = 9%

이것은 우리에게 무엇을 말해주는가?

검사가 양성이라고 해도 희귀질환으로 발병확률은 9%에 불과하다.

그래서, 당신이 확신하기 위해 다른 테스트를 했을 때 어떤 일이 일어났는지, 그것도 양성으로 판명되었습니다.

읽기: 초보자를 위한 기계 학습 프로젝트 아이디어

테스트 2

다시 말하지만, 두 번째 테스트도 99%만 정확할 것입니다.

바이러스 존재 감염된 무료
테스트 2(양성) 0.99 0.01
테스트 2(음성) 0.01 0.99

이제 베이지안 네트워크는 다음과 같습니다.

이미지 소스

결과가 반전되었습니다!

즉, 2개의 테스트에서 2개의 양성 결과가 나오면 바이러스에 감염될 확률이 9%에서 91%로 증가합니다. 하지만 다시 말하지만 100%는 아닙니다!

이제 테스트에서 하나의 양성 결과와 하나의 음성 결과가 나오면 어떻게 될까요?

이미지 소스

보시다시피 두 검사 중 하나가 음성인 경우 질병이 없을 확률이 100%입니다.

테스트 3

세 가지 테스트를 수행하고 모두 사실로 나오면 더욱 좋습니다.

이미지 소스

분명히, 이제 당신이 감염될 확률이 100%입니다.

이제 테스트 중 하나는 음성이지만 다른 두 개는 양성일 때 어떤 일이 발생하는지 봅시다.

이미지 소스

다시 말하지만, 결과는 바이러스의 존재에 대해 91% 양성입니다.

베이지안 네트워크 및 데이터 모델링

위의 예에서 베이지안 네트워크는 정확한 결과를 제공하기 위해 데이터를 모델링할 때 중요한 역할을 한다는 것을 알 수 있습니다.

실제로 결과에 영향을 미칠 수 있는 더 많은 요소를 포함하여 네트워크를 개선하면 베이지안 네트워크를 사용하여 다양한 시나리오를 시각화하고 시뮬레이션할 수도 있습니다.

베이지안 네트워크는 또한 데이터의 불공정성을 수량화하고 이러한 불공정성을 줄이기 위한 기술을 선별하는 훌륭한 도구입니다.

이러한 경우 경로별 기술을 사용하여 최종 결과에 영향을 미치는 민감한 요소를 식별하는 것이 가장 좋습니다.

베이지안 네트워크의 상위 5가지 실용적인 응용 프로그램

베이지안 네트워크는 불확실한 데이터로 정확한 결과를 얻기 위해 데이터 과학 분야에서 널리 사용되고 있습니다.

베이지안 네트워크의 응용

1. 스팸 필터

Gmail이 스팸 이메일(원치 않는 이메일과 원치 않는 이메일. 가장 강력한 필터인 베이지안 스팸 필터를 사용합니다.

2. 터보 코드

베이지안 네트워크는 고성능 순방향 오류 수정 코드인 터보 코드를 생성하는 데 사용됩니다. 이들은 3G 및 4G 모바일 네트워크에서 사용됩니다.

3. 이미지 처리

베이지안 네트워크는 수학적 연산을 사용하여 이미지를 디지털 형식으로 변환합니다. 또한 이미지 향상을 허용합니다.

4. 생체 모니터링

화학 물질의 농도를 정량화하는 것은 Bayesian Networks보다 더 쉬울 수 없습니다. 여기서 인간의 혈액과 조직의 양은 지표를 사용하여 측정됩니다.

5. 유전자 조절 네트워크(GNR)

GNR은 단백질 및 RNA 발현 산물을 통해 다른 세포 내용물과 상호작용하는 세포의 다양한 DNA 단편을 포함합니다. 동작 예측은 베이지안 네트워크를 사용하여 분석할 수 있습니다.

결론

이 온라인 블로그 게시물에서 베이지안 네트워크가 현재 데이터에서 정확한 결과를 얻는 데 어떻게 도움이 되는지 배웠습니다. 데이터의 작은 변화라도 최종 결과에 상당한 영향을 미칠 수 있습니다. 베이지안 네트워크는 상관 관계 대신 인과 관계를 사용하여 데이터를 분석하는 데 도움이 됩니다.

그들은 데이터 과학 분야에서 혁명적인 것으로 입증되었습니다. 분명히, 이 과학 분야에서 경력을 쌓는 것이 꿈의 직업을 얻는 데 도움이 될 수 있습니다. 따라서 데이터 과학 과정 중 하나에 등록하고 전문가로부터 배우십시오! 우리는 또한 최고 수준의 경험이 풍부한 직업 카운슬러로부터 무료 직업 지원을 제공합니다. 이 과정에 대해 자세히 알아보려면 브로셔를 다운로드하십시오.

기계 학습 및 인공 지능 분야의 경력에 ​​대해 더 알고 싶다면 IIT 마드라스와 upGrad의 기계 학습 및 클라우드 고급 인증을 확인하십시오.

베이지안 네트워크의 구성 요소는 무엇입니까?

베이지안 네트워크는 유명한 영국 수학자 Thomas Bayes의 이름을 따서 명명된 Bayes Theorem에서 시작되었습니다. 이 정리는 본질적으로 조건부 확률을 결정하는 데 사용되는 수학 공식입니다. 인공 지능 분야의 베이지안 네트워크는 베이지안 정리를 기본 계층으로 하는 베이지안 통계에서 파생됩니다. 베이지안 네트워크는 양적 모듈의 조건부 확률과 질적 모듈의 방향성 비순환 그래프의 두 가지 모듈로 구성됩니다. AI 및 기계 학습에서 베이지안 네트워크는 불확실한 믿음을 기반으로 추론 및 모델링에 사용되는 도구입니다.

기계 학습을 위해 얼마나 많은 확률과 통계를 알아야 합니까?

AI의 상당 부분과 다양한 하위 필드는 확률과 통계를 기반으로 합니다. 머신 러닝은 확률, 통계, 다양한 알고리즘을 활용하는 학제간 영역으로 생각해야 합니다. 통계와 확률은 사건의 상대적 발생을 분석하는 데 사용되는 수학의 관련 분야입니다. 통계, 확률 및 알고리즘의 이러한 조합은 궁극적으로 데이터에서 학습하고 귀중한 통찰력을 제공하는 지능형 애플리케이션을 구축하는 데 사용됩니다. 따라서 머신러닝을 배우려면 통계와 확률에 대한 기본적인 이해가 필수입니다. 경험적 및 이론적 확률, 결합 확률, 조건부 확률, 베이즈 정리, 기술 통계, 일변량 및 이변량 기술 통계, 상관 관계 등과 같은 기본 개념에 익숙해야 합니다.

AI에서 베이지안 네트워크를 사용하면 어떤 이점이 있습니까?

베이지안 네트워크는 복잡하고 불확실한 영역에 대한 모델을 생성하는 데 널리 사용되는 기술입니다. 베이지안 네트워크를 사용하면 생태계 및 환경 관리와 같은 불확실한 환경에 대해 수학적으로 논리적이고 강력한 프레임워크를 개발할 수 있습니다. 이 기술을 사용할 때의 가장 중요한 이점은 이기종 소스와 다양한 정확도 수준의 데이터를 수학적으로 일관된 모델에 쉽게 통합할 수 있다는 것입니다. 이것은 전문 지식을 데이터가 없는 변수에 대한 데이터와 결합하는 데 도움이 됩니다.