바둑과 인공 일반 지능에 대한 도전

게시 됨: 2018-02-15

이 글은 게임 '바둑'과 인공지능의 관계를 탐구하는 것을 목적으로 한다. 목표는 질문에 답하는 것입니다. 바둑 게임을 특별하게 만드는 것은 무엇입니까? 컴퓨터에서 바둑을 마스터하는 것이 어려운 이유는 무엇입니까? 1997년에 컴퓨터 프로그램이 체스 그랜드마스터를 이길 수 있었던 이유는 무엇입니까? Go를 해독하는 데 거의 20년이 걸린 이유는 무엇입니까?

“신사들은 시시한 게임에 시간을 허비하지 말고 바둑을 공부해야 한다”

– 공자
사실, 인공 지능 전문가들은 컴퓨터가 2027년까지 바둑 세계 챔피언을 이길 수 있을 것이라고 생각했습니다. Google 산하 인공 지능 회사인 DeepMind 덕분에 이 막중한 작업은 10년 전에 달성되었습니다. 이 기사에서는 DeepMind가 바둑 세계 챔피언을 이기기 위해 사용한 기술에 대해 설명합니다. 마지막으로 이 게시물에서는 이 기술을 사용하여 복잡한 실제 문제를 해결하는 방법에 대해 설명합니다.

가 - 뭐야?
바둑과 인공지능(AI)에 대한 도전
AlphaGo의 작동 방식
- 심층 신경망
- 심층 강화 학습
- 정책 및 가치 네트워크
  - 정책 및 가치 네트워크 결합
  - 정책 및 가치 네트워크를 MCTS(Monte Carlo Tree Search) 및 롤아웃과 결합
실제 문제에 AlphaGo 적용
- 에너지 소비 감소
- 두경부암에 대한 방사선 치료 계획
심층 강화 학습의 한계는 무엇입니까?
Monte Carlo Tree Search 사용의 단점은 무엇입니까?
AlphaZero는 AlphaGo Zero와 어떻게 다릅니까?
인공 일반 지능(AGI)과 인공 협지능(ANI)의 차이점은 무엇입니까?
인공 일반 지능(AGI)의 범위는 무엇입니까?
몬테카를로 트리 검색(MCTS)이란 무엇입니까?

가 - 뭐야?

바둑은 3000년 역사의 중국 전략 보드 게임으로, 오랜 세월 동안 인기를 유지해 왔습니다. 전 세계적으로 수천만 명이 플레이하는 바둑은 단순한 규칙과 직관적인 전략을 갖춘 2인용 보드 게임입니다. 이 게임을 플레이하는 데 다양한 보드 크기가 사용됩니다. 전문가는 19×19 보드를 사용합니다.
인공 일반 지능에 대한 Go와 도전 UpGrad Blog
게임은 빈 보드에서 시작됩니다. 그런 다음 각 플레이어는 검은색과 흰색 돌(검은색이 먼저 표시됨)을 보드의 교차점에 놓습니다(체스와 달리 사각형에 말을 놓습니다). 플레이어는 사방에서 그것을 둘러싸서 상대방의 돌을 잡을 수 있습니다. 캡처한 각 돌에 대해 일부 점수가 플레이어에게 수여됩니다. 게임의 목표는 상대방의 돌을 캡처하는 것과 함께 보드에서 최대 영역을 차지하는 것입니다.
바둑은 파괴에 관한 체스와 달리 창조에 관한 것입니다. 바둑은 게임을 마스터하기 위해 자유, 창의성, 직관, 균형, 전략 및 지적 깊이가 필요합니다. 바둑을 하는 것은 두뇌의 양쪽 모두를 포함합니다. 사실, 바둑 선수의 두뇌 스캔은 바둑이 두 뇌 반구 사이의 연결을 개선함으로써 두뇌 발달에 도움이 된다는 것을 보여주었습니다.
인형을 위한 신경망: 종합 가이드

바둑과 인공지능(AI)에 대한 도전

컴퓨터는 1952년 에 Tic-Tac-Toe 를 마스터할 수 있었습니다 . Deep Blue는 1997년 에 체스 그랜드 마스터 Garry Kasparov 를 이길 수 있었습니다 . 컴퓨터 프로그램은 2001년 Jeopardy (미국 인기 게임)에서 세계 챔피언을 상대로 승리할 수 있었습니다 . DeepMind의 AlphaGo는 2016년 바둑 세계 챔피언 을 물리칠 수 있었습니다 . 컴퓨터 프로그램이 바둑을 마스터하는 것이 왜 어려운 일입니까?
체스는 8×8 판에서 하는 반면 바둑은 19×19 판을 사용합니다. 체스 게임이 시작될 때 플레이어는 20개의 가능한 이동을 할 수 있습니다. 바둑 오프닝에서 플레이어는 361개의 가능한 이동을 할 수 있습니다. 가능한 바둑판 위치의 수는 10의 170승입니다. 우리 우주의 원자 수보다 많습니다! 보드 위치의 잠재적인 수는 Gogoogol 곱(10의 100제곱)을 체스보다 복잡하게 만듭니다.
체스에서 각 단계에 대해 플레이어는 35개의 이동 중 하나를 선택해야 합니다. 평균적으로 바둑 선수는 각 단계에서 250개의 가능한 이동을 할 수 있습니다. 체스에서는 주어진 위치에서 컴퓨터가 무차별 대입 검색을 수행하고 승리 가능성을 최대화하는 가능한 최선의 움직임을 선택하는 것이 상대적으로 쉽습니다. 바둑의 경우 각 단계에 허용되는 법적 이동의 잠재적 수가 엄청나기 때문에 무차별 대입 검색은 불가능합니다.
컴퓨터가 체스를 마스터하려면 보드에서 조각을 제거하기 때문에 게임이 진행되면서 더 쉬워집니다. 바둑에서는 게임이 진행되면서 보드에 돌이 추가되기 때문에 컴퓨터 프로그램이 더 어려워집니다. 일반적으로 바둑 게임은 체스 게임보다 3배 더 오래 지속됩니다.
이러한 모든 이유 때문에 최고의 컴퓨터 바둑 프로그램은 새로운 기계 학습 기술이 폭발적으로 증가한 2016년에야 바둑 세계 챔피언을 따라잡을 수 있었습니다. DeepMind에서 일하는 과학자들은 세계 챔피언 이세돌을 물리친 AlphaGo 라는 컴퓨터 프로그램을 만들 수 있었습니다 . 과제를 달성하는 것은 쉽지 않았습니다. DeepMind의 연구원들은 AlphaGo를 만드는 과정에서 많은 참신한 혁신을 생각해 냈습니다.

"바둑의 규칙은 매우 우아하고 유기적이며 엄격하게 논리적이어서 지능적인 생명체가 우주 다른 곳에 존재한다면 거의 확실하게 바둑을 둡니다."

– 에드워드 라스카
신경망: 현실 세계의 애플리케이션

AlphaGo의 작동 방식

AlphaGo는 범용 알고리즘이므로 다른 작업을 해결하는 데에도 사용할 수 있습니다. 예를 들어, IBM의 Deep Blue는 특히 체스 게임을 위해 설계되었습니다. 체스의 규칙은 수세기 동안 게임을 하며 축적된 지식과 함께 프로그램의 두뇌에 프로그래밍됩니다. Deep Blue는 Tic-Tac-Toe와 같은 사소한 게임에도 사용할 수 없습니다. 그것은 체스를 하는 것과 같이 아주 잘하는 한 가지 특정한 일만 할 수 있습니다. AlphaGo는 Go 외에 다른 게임도 배울 수 있습니다. 이러한 범용 알고리즘은 인공 일반 지능이라고 하는 새로운 연구 분야를 구성합니다.
AlphaGo는 DNN(Deep Neural Networks), RL(Reinforcement Learning), MCTS(Monte Carlo Tree Search), DQN(Deep Q Networks)과 같은 최첨단 방법을 사용합니다. 몇 가지 예를 들자면 강화 학습이 포함된 네트워크입니다. 그런 다음 이 모든 방법을 혁신적으로 결합하여 바둑 게임에서 초인적 수준의 숙달을 달성합니다.
당면한 과제를 달성하기 위해 이 조각들이 어떻게 연결되어 있는지 알아보기 전에 이 퍼즐의 각 개별 조각을 먼저 살펴보겠습니다.

심층 신경망

DNN은 인간 두뇌의 기능에서 느슨하게 영감을 받아 기계 학습을 수행하는 기술입니다. DNN의 아키텍처는 뉴런 레이어로 구성됩니다. DNN은 명시적으로 프로그래밍하지 않고도 데이터의 패턴을 인식할 수 있습니다.
누구도 동일하게 특별히 프로그래밍하지 않고 입력을 출력에 매핑합니다. 예를 들어 네트워크에 많은 고양이와 강아지 사진을 제공했다고 가정해 보겠습니다. 동시에 특정 이미지가 고양이인지 강아지인지(이를 지도 학습이라고 함) 시스템에 알려(레이블 형식으로) 시스템을 훈련하고 있습니다. DNN은 사진에서 패턴을 인식하여 고양이와 개를 성공적으로 구별하는 방법을 학습합니다. 훈련의 주요 목적은 DNN이 개 또는 고양이의 새로운 사진을 볼 때 이를 올바르게 분류할 수 있어야 한다는 것입니다. 즉, 고양이인지 개인지 예측합니다.

인공 일반 지능에 대한 Go와 도전 UpGrad Blog
간단한 DNN의 아키텍처를 이해합시다. 입력 레이어의 뉴런 수는 입력 크기에 해당합니다. 고양이와 강아지 사진이 28×28 이미지라고 가정해 보겠습니다. 각 행과 열은 각각 28픽셀로 구성되어 각 사진에 대해 총 784픽셀이 됩니다. 이러한 경우 입력 레이어는 각 픽셀에 하나씩 784개의 뉴런으로 구성됩니다. 출력 레이어의 뉴런 수는 출력을 분류해야 하는 클래스 수에 따라 달라집니다. 이 경우 출력 레이어는 두 개의 뉴런으로 구성됩니다. 하나는 'cat'에, 다른 하나는 'dog'에 해당합니다.
차세대 혁신: 머신 러닝을 주시하세요

입력 레이어와 출력 레이어 사이에 많은 뉴런 레이어가 있을 것입니다('Deep Neural Network'에서 'Deep'라는 용어를 사용한 기원). 이를 "숨겨진 레이어"라고 합니다. 은닉층의 수와 각 층의 뉴런 수는 고정되어 있지 않습니다. 실제로 이러한 값을 변경하는 것이 바로 성능 최적화로 이어지는 것입니다. 이러한 값을 하이퍼파라미터라고 하며 당면한 문제에 따라 조정해야 합니다. 신경망을 둘러싼 실험은 주로 최적의 하이퍼파라미터 수를 찾는 것과 관련됩니다.
DNN의 훈련 단계는 순방향 패스와 역방향 패스로 구성됩니다. 첫째, 뉴런 간의 모든 연결은 임의의 가중치로 초기화됩니다. 정방향 통과 동안 네트워크에는 단일 이미지가 제공됩니다. 입력(이미지의 픽셀 데이터)은 네트워크의 매개변수(가중치, 편향 및 활성화 함수)와 결합되고 은닉층을 통해 피드포워드되어 출력으로 전달되며, 이는 사진이 각각에 속하는 확률을 반환합니다. 클래스의.
그런 다음 이 확률을 실제 클래스 레이블과 비교하여 "오류"를 계산합니다. 이 시점에서 역방향 전달이 수행됩니다. 이 오류 정보는 "역전파"라는 기술을 통해 네트워크를 통해 다시 전달됩니다. 훈련의 초기 단계에서 이 오류는 높을 것이고 좋은 훈련 메커니즘은 이 오류를 점진적으로 줄일 것입니다.
DNN은 가중치 변경이 멈출 때까지(이를 수렴이라고 함) 정방향 및 역방향 패스로 훈련합니다. 그러면 DNN은 높은 정확도로 이미지를 예측하고 분류할 수 있습니다. 즉, 사진에 고양이가 있는지 개가 있는지 여부입니다.

연구는 우리에게 다양한 심층 신경망 아키텍처를 제공했습니다. Computer Vision 문제(예: 이미지 관련 문제)의 경우 CNN(Convolution Neural Networks)은 전통적으로 좋은 결과를 제공했습니다. 시퀀스와 관련된 문제(음성 인식 또는 언어 번역)의 경우 RNN(Recurrent Neural Networks)이 우수한 결과를 제공합니다.
자연어 이해를 위한 초보자 가이드

AlphaGo의 경우 프로세스는 다음과 같습니다. 먼저 수백만 개의 보드 위치 이미지에 대해 CNN(Convolution Neural Network)을 훈련했습니다. 다음으로, 네트워크의 훈련 단계에서 각 경우에 인간 전문가가 수행한 후속 조치에 대해 네트워크에 정보를 제공했습니다. 앞에서 언급한 것과 같은 방식으로 실제 값을 출력과 비교한 결과 일종의 "오류" 메트릭이 발견되었습니다.
인공 일반 지능에 대한 Go와 도전 UpGrad Blog
훈련이 끝나면 DNN은 전문 인간 플레이어가 플레이할 확률과 함께 다음 움직임을 출력합니다. 이러한 종류의 네트워크는 인간 전문가 플레이어가 수행하는 단계만 생각해 낼 수 있습니다. DeepMind는 인간의 움직임을 60%의 정확도로 예측할 수 있었습니다. 그러나 바둑에서 인간 전문가를 이기기 위해서는 이것으로 충분하지 않습니다. DNN의 출력은 심층 신경망과 강화 학습을 결합한 DeepMind가 구상한 접근 방식인 Deep Reinforcement Network에 의해 추가 처리됩니다.

심층 강화 학습

강화 학습(RL)은 새로운 개념이 아닙니다. 노벨상 수상자 Ivan Pavlov는 개에 대한 고전적 조건화를 실험했고 1902년 강화 학습의 원리를 발견했습니다. RL은 또한 인간이 새로운 기술을 배우는 방법 중 하나입니다. 쇼에 등장하는 돌고래가 어떻게 물에서 그렇게 높은 곳까지 점프하도록 훈련되는지 궁금하신가요? RL의 도움으로 이루어집니다. 먼저 돌고래를 준비하는 데 사용되는 로프를 수영장에 잠깁니다. 돌고래가 정상에서 케이블을 건널 때마다 먹이로 보상을 받습니다. 로프를 넘지 않으면 보상이 철회됩니다. 천천히 돌고래는 그것이 위에서 코드를 통과할 때마다 지불된다는 것을 배울 것입니다. 돌고래를 훈련시키기 위해 로프의 높이가 점차 증가합니다.
인공 일반 지능에 대한 Go와 도전 UpGrad Blog
자연어 생성: 알아야 할 주요 사항

강화 학습의 에이전트도 동일한 원칙을 사용하여 훈련됩니다. 에이전트는 조치를 취하고 환경과 상호 작용합니다. 에이전트가 취한 조치로 인해 환경이 변경됩니다. 또한 에이전트는 환경에 대한 피드백을 받았습니다. 에이전트는 행동과 목표에 따라 보상을 받거나 받지 않습니다. 중요한 점은 당면한 이 목표가 에이전트에 대해 명시적으로 명시되어 있지 않다는 것입니다. 충분한 시간이 주어지면 에이전트는 미래의 보상을 최대화하는 방법을 배웁니다.

DeepMind는 이것을 DNN과 결합하여 DRL(Deep Reinforcement Learning) 또는 DQN(Deep Q Networks)을 발명했습니다. 여기서 Q는 얻을 수 있는 최대 보상을 나타냅니다. DQN은 Atari 게임 에 처음 적용되었습니다 . DQN은 상자에서 꺼내자마자 다양한 유형의 Atari 게임을 플레이하는 방법을 배웠습니다. 획기적인 것은 다양한 종류의 Atari 게임을 표현하기 위해 명시적인 프로그래밍이 필요하지 않다는 것입니다. 하나의 프로그램으로 게임의 모든 다양한 환경을 학습할 수 있을 만큼 똑똑했고, 셀프 플레이를 통해 많은 환경을 마스터할 수 있었습니다.

2014년에 DQN은 49개 게임 중 43개 게임에서 이전 머신 러닝 방법을 능가했습니다(현재 70개 이상의 게임에서 테스트되었습니다). 실제로 절반 이상의 게임에서 프로 인간 플레이어 수준의 75% 이상을 수행했습니다. 특정 게임에서 DQN은 달성 가능한 최대 점수를 달성할 수 있도록 하는 놀랍도록 멀리 내다보는 전략을 내놓기도 했습니다. 예를 들어 Breakout 에서는 먼저 벽돌 벽의 한쪽 끝에 터널을 파서 공이 튀도록 하는 방법을 배웠습니다. 뒤에서 벽돌을 두드리십시오.

정책 및 가치 네트워크

AlphaGo에는 두 가지 주요 유형의 네트워크가 있습니다.
AlphaGo의 DQN의 목표 중 하나는 스스로 수백만 번 플레이하여 가중치를 점진적으로 개선함으로써 인간의 전문가 플레이를 넘어 새롭고 혁신적인 움직임을 모방하는 것입니다. 이 DQN은 일반 DNN에 대해 80%의 승률을 보였습니다. DeepMind는 이 두 개의 신경망(DNN 및 DQN)을 결합하여 첫 번째 유형의 네트워크인 '정책 네트워크'를 형성하기로 결정했습니다. 간단히 말해서, 정책 네트워크의 역할은 다음 움직임에 대한 탐색의 폭을 줄이고 더 탐구할 가치가 있는 몇 가지 좋은 움직임을 찾는 것입니다.

인공 일반 지능에 대한 Go와 도전 UpGrad Blog 정책 네트워크가 정지되면 수백만 번 자체적으로 작동합니다. 이 게임은 다양한 보드 위치와 게임 결과로 구성된 새로운 바둑 데이터 세트를 생성합니다. 이 데이터세트는 평가 함수를 만드는 데 사용됩니다. 두 번째 유형의 기능인 '가치 네트워크'는 게임의 결과를 예측하는 데 사용됩니다. 다양한 보드 위치를 입력으로 사용하고 게임의 결과와 그 측정을 예측하는 방법을 배웁니다.

정책 및 가치 네트워크 결합

이 모든 교육을 거친 후 DeepMind는 마침내 두 개의 신경망인 Policy와 Value Networks를 갖게 되었습니다. 정책 네트워크는 이사회 위치를 입력으로 사용하고 해당 위치에서 각 이동의 가능성으로 확률 분포를 출력합니다. 가치 네트워크는 다시 보드의 위치를 입력으로 취하고 0과 1 사이의 단일 실수를 출력합니다. 네트워크의 출력이 0이면 흰색이 완전히 이기고 있음을 의미하고 1은 검정색을 가진 플레이어가 완전한 승리를 나타냅니다 돌.
정책 네트워크는 현재 위치를 평가하고 가치 네트워크는 미래 움직임을 평가합니다. DeepMind가 이 두 네트워크로 작업을 분할한 것이 AlphaGo의 성공의 주요 원인 중 하나였습니다.

정책 및 가치 네트워크를 MCTS(Monte Carlo Tree Search) 및 롤아웃과 결합

신경망 자체로는 충분하지 않습니다. 바둑에서 이기려면 더 많은 전략이 필요합니다. 이 계획은 MCTS의 도움으로 이루어집니다. Monte Carlo Tree Search는 두 개의 신경망을 혁신적인 방식으로 연결하는 데도 도움이 됩니다. 신경망은 차선책에 대한 효율적인 검색을 지원합니다.
인공 일반 지능에 대한 Go와 도전 UpGrad Blog
이 모든 것을 훨씬 더 잘 시각화하는 데 도움이 되는 예제를 구성해 보겠습니다. 게임이 이전에 만난 적이 없는 새로운 위치에 있다고 상상해 보십시오. 이러한 상황에서 정책 네트워크는 현재 상황과 가능한 미래 경로를 평가해야 합니다. 몬테카를로 롤아웃에서 지원하는 가치 네트워크에 의한 각 이동의 가치와 경로의 바람직함.
정책 네트워크는 가능한 모든 "좋은" 움직임을 찾고 가치 네트워크는 각각의 결과를 평가합니다. Monte Carlo 롤아웃에서는 정책 네트워크에서 인식하는 위치에서 수천 개의 무작위 게임이 실행됩니다. Monte Carlo 출시에 대한 가치 네트워크의 상대적 중요성을 결정하기 위한 실험이 수행되었습니다. 이 실험의 결과로 DeepMind는 Value 네트워크에 80% 가중치를 할당하고 Monte Carlo 롤아웃 평가 기능에 20% 가중치를 할당했습니다.
정책 네트워크는 200개의 가능한 이동에서 4개 또는 5개의 최상의 이동으로 검색 폭을 줄입니다. 정책 네트워크는 고려해야 할 이러한 4~5단계에서 트리를 확장합니다. 가치 네트워크는 해당 위치에서 게임 결과를 즉시 반환하여 트리 검색의 깊이를 줄이는 데 도움이 됩니다. 마지막으로, 가장 높은 Q 값을 갖는 이동, 즉 최대 이점을 갖는 단계가 선택됩니다.

" 이 게임은 주로 직관과 느낌을 통해 진행되며, 그 아름다움, 미묘함 및 지적 깊이로 인해 수세기 동안 인간의 상상력을 사로잡았습니다."

– 데미스 하사비스

실제 문제에 AlphaGo 적용

웹 사이트에서 제공하는 DeepMind의 비전은 매우 시사하는 바가 많습니다. "지능을 해결하십시오. 이 지식을 사용하여 세상을 더 나은 곳으로 만드십시오.” 이 알고리즘의 최종 목표는 복잡한 실제 문제를 해결하는 데 사용할 수 있도록 범용으로 만드는 것입니다. DeepMind의 AlphaGo는 AGI 탐색에서 중요한 단계입니다. DeepMind는 기술을 성공적으로 사용하여 실제 문제를 해결했습니다. 몇 가지 예를 살펴보겠습니다.

에너지 소비 감소

DeepMind의 AI를 성공적으로 활용하여 Google의 데이터 센터 냉각 비용을 40% 절감했습니다. 대규모 에너지 소비 환경에서 이러한 개선은 경이적인 발전입니다. 데이터 센터의 주요 에너지 소비원 중 하나는 냉각입니다. 서버 실행에서 발생하는 많은 열은 서버를 계속 작동시키기 위해 제거해야 합니다. 이것은 펌프, 냉각기 및 냉각탑과 같은 대규모 산업 장비에 의해 수행됩니다. 데이터 센터의 환경은 매우 역동적이므로 최적의 에너지 효율성으로 운영하는 것이 어렵습니다. 이 문제를 해결하기 위해 DeepMind의 AI가 사용되었습니다.
첫째, 데이터 센터 내의 수천 개의 센서가 수집한 과거 데이터를 사용하여 진행했습니다. 이 데이터를 사용하여 평균 미래 전력 사용 효율성(PUE)에 대해 DNN 앙상블을 훈련했습니다. 범용 알고리즘인 만큼 데이터센터 환경에서 다른 과제에도 적용될 예정이다.
이 기술의 가능한 응용 프로그램에는 동일한 입력 단위에서 더 많은 에너지를 얻고 반도체 제조 에너지 및 물 사용량을 줄이는 등이 포함됩니다. DeepMind는 블로그 게시물에서 이 지식이 다른 데이터 센터, 산업용 운영자와 궁극적으로 환경은 이 중요한 단계에서 큰 이점을 얻을 수 있습니다.

두경부암에 대한 방사선 치료 계획

DeepMind는 암 치료의 세계적인 리더인 University College London Hospital의 NHS Foundation Trust의 방사선 치료 부서와 협력했습니다.
빅 데이터와 머신 러닝이 암에 대항하는 방법

남성 75명 중 1명, 여성 150명 중 1명은 일생 동안 구강암 진단을 받습니다. 머리와 목 부위의 구조와 장기는 민감하기 때문에 방사선 전문의는 치료 시 각별한 주의를 기울여야 합니다.
방사선 요법을 시행하기 전에 치료할 부위와 피해야 할 부위가 표시된 상세한 지도를 작성해야 합니다. 이를 세분화라고 합니다. 이 분할된 지도는 방사선 촬영 기계에 입력되어 건강한 세포에 해를 끼치지 않고 암세포를 표적으로 삼습니다.
두경부암의 경우 매우 민감한 장기를 침범하기 때문에 방사선과 전문의에게 힘든 작업입니다. 방사선 전문의가 이 영역에 대한 분할된 지도를 만드는 데 약 4시간이 걸립니다. DeepMind는 알고리즘을 통해 분할된 지도를 생성하는 데 필요한 시간을 4시간에서 1시간으로 줄이는 것을 목표로 하고 있습니다. 이렇게 하면 방사선 전문의의 시간이 크게 줄어듭니다. 더 중요한 것은 이 분할 알고리즘이 신체의 다른 부분에 활용될 수 있다는 것입니다.

요약하자면, AlphaGo는 2016년 5전 2선승제 토너먼트에서 18회 세계 바둑 챔피언 이세돌을 4번 꺾는 데 성공했습니다. 2017년에는 세계 최고의 선수들로 구성된 팀을 꺾기도 했습니다. DNN과 DQN의 조합을 차선책을 위한 정책 네트워크로 사용하고, 하나의 DNN을 가치 네트워크로 사용하여 게임의 결과를 평가합니다. Monte Carlo 트리 검색은 검색의 폭과 깊이를 줄이기 위해 정책 및 가치 네트워크와 함께 사용되며 평가 기능을 개선하는 데 사용됩니다. 이 알고리즘의 궁극적인 목적은 보드 게임을 푸는 것이 아니라 인공 일반 지능 알고리즘을 발명하는 것입니다. AlphaGo는 의심할 여지 없이 그 방향으로 큰 걸음을 내디뎠습니다.
데이터 과학, 머신 러닝, 빅 데이터의 차이점!

물론 다른 효과도 있었다. 알파고와 이세돌의 대결이 알려지면서 바둑 수요가 10배나 뛰었다. 많은 매장에서 바둑판 품절 사례를 보고했고 바둑판 구매가 어려워졌습니다.
운 좋게도 방금 하나를 찾아서 나와 내 아이를 위해 주문했습니다. 보드를 구입하고 바둑을 배울 계획입니까?

세계 최고의 대학에서 ML 과정을 배우십시오. 석사, 이그 제 큐 티브 PGP 또는 고급 인증 프로그램을 획득하여 경력을 빠르게 추적하십시오.

심층 강화 학습의 한계는 무엇입니까?

DL은 새로운 데이터나 정보가 도입되면 이전에 얻은 지식을 잊어버리므로 도전하지 않습니다. 너무 많은 강화는 때때로 상태를 초과하여 효율성을 낮출 수 있습니다. 데이터 모델의 복잡성으로 인해 교육 비용이 매우 많이 듭니다. 딥 러닝은 또한 값비싼 GPU와 수백 대의 워크스테이션을 사용해야 합니다. 결과적으로 사용하는 것이 덜 경제적이 됩니다.

Monte Carlo Tree Search 사용의 단점은 무엇입니까?

MCTS는 실행하기 쉬운 알고리즘이지만 특정 단점이 있습니다. 몇 번의 반복 후에 트리가 커지면 많은 메모리가 필요합니다. 턴제 게임에 적용하면 특정 조건에서 상대에게 패배로 이어지는 단일 분기 또는 경로가 있을 수 있습니다. 결과적으로 약간 덜 신뢰할 수 있습니다. 많은 반복 후에 Monte Carlo Tree Search는 가장 효과적인 경로를 결정하는 데 오랜 시간이 걸립니다.

AlphaZero는 AlphaGo Zero와 어떻게 다릅니까?

이전 버전의 AlphaGo는 손으로 엔지니어링한 소수의 기능을 통합했지만 AlphaGo Zero는 바둑판의 검은색과 흰색 돌을 입력으로 사용했습니다. 이전 버전의 AlphaGo는 정책 네트워크에 의존하여 다음 움직임을 선택하고 가치 네트워크에 의존하여 각 위치에서 게임의 승자를 추정했습니다. 이것들은 AlphaGo Zero에 병합되어 보다 효율적인 교육과 평가를 가능하게 합니다. 이러한 모든 차이점은 시스템의 향상된 성능과 일반화에 기여합니다. 반면에 알고리즘 조정은 시스템을 훨씬 더 강력하고 효율적으로 만듭니다.