캡슐 신경망: 정의, 작동 원리, 아키텍처 및 구성 요소

게시 됨: 2020-04-03

사물을 어떻게 인식합니까? 내가 '그들의'와 '그들의'라고 쓰면 둘 다 '그들의'로 읽겠습니까? 당신의 대답은 아마도 예일 것입니다.

뇌는 주요 기능을 식별하고 사물을 인식하는 데 도움을 줄 수 있습니다. 그래서 얼굴을 쉽게 찾을 수 있습니다. 캡슐 신경망도 유사하게 작동합니다. 이 기사에서 우리는 그것들이 무엇이며 어떻게 작동하는지 살펴볼 것입니다. 기계 학습 알고리즘에 관심 이 있다면 이 기사를 좋아할 것입니다. 시작하겠습니다.

캡슐 신경망이란 무엇입니까?

캡슐 신경망은 생물학적 신경망의 복제에 초점을 맞춰 더 나은 인식과 분할을 수행합니다. 그들은 일종의 인공 신경망입니다. 그들은 캡슐 신경망의 한 레이어 아래에 중첩된 레이어를 가지고 있습니다. 이것이 '캡슐'이라는 단어가 나타내는 것입니다.

이러한 네트워크의 캡슐은 개체 기능의 매개변수를 결정합니다. 캡슐 네트워크가 얼굴을 식별해야 한다고 가정합니다. 캡슐은 특정 얼굴 특징이 있는지 여부를 결정하는 데 중점을 둡니다. 그들은 이것에만 국한되지 않습니다. 또한 특정 얼굴의 특징이 어떻게 구성되어 있는지 확인합니다. 따라서 시스템은 캡슐이 해당 얼굴의 요소가 올바른 순서라고 판단할 때만 얼굴을 식별할 수 있습니다.

이러한 기능의 순서를 어떻게 결정하는지 궁금할 것입니다. 이러한 네트워크는 귀하가 제공한 입력으로 인해 그렇게 할 수 있습니다. 수백(또는 수천)개의 이미지를 검사했을 때 이 작업을 효율적으로 수행할 수 있습니다.

자세히 알아보기: 신경망: 실제 세계의 애플리케이션

캡슐 네트워크는 어떻게 작동합니까?

이제 이러한 네트워크가 어떻게 작동하는지 살펴보겠습니다. 처음에 캡슐은 입력 벡터와 가중치 행렬의 행렬 곱셈을 수행합니다. 이것은 우리에게 몇 가지 낮은 수준과 높은 수준의 기능 간의 공간적 관계에 대한 정보를 제공합니다.

그 후 캡슐은 부모 캡슐을 선택합니다. 그들은 이 기사의 뒷부분에서 논의한 동적 라우팅을 통해 선택합니다. 일단 부모 캡슐을 선택하면 방향을 유지할 때 벡터의 합이 0과 1 사이에서 눌려지는 것을 찾습니다. 좌표계의 노름을 존재 확률로, 코사인 거리를 일치의 척도로 사용하여 스쿼싱을 수행합니다.

표준 신경망과 캡슐 신경망 사이에는 상당한 차이가 있습니다. 캡슐 네트워크는 이미지에 대한 필수 정보를 캡슐화하기 위해 캡슐을 사용하지만 표준 신경망은 이러한 목적으로 뉴런을 사용합니다. 캡슐은 벡터를 생성하지만 뉴런은 스칼라 양만 생성할 수 있습니다. 이러한 이유로 캡슐은 얼굴(또는 특정 특징)의 방향을 식별할 수 있지만 뉴런은 식별할 수 없습니다. 특징의 방향을 변경하는 경우 벡터의 값은 동일하게 유지되지만 방향은 위치 변경에 따라 변경됩니다.

캡슐 네트워크는 작은 데이터 세트에서 놀라운 성능을 발휘하며 강력한 이미지를 더 쉽게 해석할 수 있습니다. 그 외에도 질감, 위치 및 포즈를 포함하여 사진의 모든 정보를 유지합니다. 그들의 유일한 단점은 방대한 데이터 세트를 능가할 수 없다는 것입니다.

읽기: 신경망에서 활성화 기능의 6가지 유형

캡슐 신경망의 아키텍처는 무엇입니까?

캡슐 네트워크의 주요 두 구성 요소는 인코더와 디코더입니다. 총 6개의 레이어가 있습니다. 인코더에는 처음 세 개의 레이어가 있으며 입력 이미지를 가져와 벡터(16차원)로 변환하는 역할을 합니다. 인코더의 첫 번째 계층은 합성곱 신경망으로 그림의 기본 특징을 추출합니다.

두 번째 계층은 PrimaryCaps 네트워크이며 이러한 필수 기능을 가져와서 그 중에서 더 자세한 패턴을 찾습니다. 예를 들어 특정 획 사이의 공간적 관계를 볼 수 있습니다. PrimaryCaps 네트워크에서 데이터 세트마다 캡슐 수가 다릅니다. 예를 들어 MNIST 데이터 세트에는 32개의 캡슐이 있습니다. 세 번째 계층은 DigitCaps 네트워크이며 그 안에 있는 캡슐의 수도 다양합니다. 이 레이어 다음에 인코더에는 디코더로 가는 16차원 벡터가 있습니다.

디코더에는 3개의 연결된 레이어가 있습니다. 16차원 벡터를 사용하여 가지고 있는 데이터의 도움으로 동일한 이미지를 처음부터 재구성하려고 시도합니다. 이러한 방식으로 네트워크는 지식에 따라 예측을 할 수 있으므로 더욱 강력해집니다.

더 읽어보기: Python의 순환 신경망

CNN의 계산

행렬 곱셈

첫 번째 레이어와 두 번째 레이어 사이에서 행렬 곱셈을 수행합니다. 이는 공간 관계 정보를 인코딩하고 인코딩된 정보는 레이블 분류의 확률을 보여줍니다.

스칼라 가중치

이 계산 단계에서 하위 캡슐은 상위 캡슐의 가중치에 따라 가중치를 조정합니다. 그들은 고급 캡슐의 무게와 일치하도록 그렇게 합니다. 고급 캡슐은 무게 분포를 그래프로 표시하고 통과할 가장 큰 할당을 수락합니다. 그들은 모두 동적 라우팅을 통해 서로 통신합니다.

동적 라우팅

동적 라우팅에서 하위 캡슐은 데이터를 상위 캡슐로 보냅니다. 그들 모두는 그들에 따라 가장 적합한 캡슐에 데이터를 보내고, 대부분의 데이터를 받는 캡슐이 부모 캡슐이 됩니다. 상위 캡슐은 계약을 따르고 그에 따라 가중치를 할당합니다.

동적 라우팅을 이해하기 위해 캡슐 네트워크에 집의 이미지를 제공한다고 가정합니다. 그것은 집의 지붕을 식별하는 데 몇 가지 문제에 직면해 있습니다. 따라서 캡슐은 이미지, 특히 상수 부분을 분석합니다. 그들은 벽과 지붕과 관련하여 집의 프레임을 조정합니다.

그들은 먼저 대상이 집인지 여부를 결정한 다음 예측을 상위 캡슐에 보냅니다. 벽에 관한 지붕의 투영이 저수준 캡슐의 다른 예측과 일치하는 경우 출력은 대상이 집이라고 표시합니다. 이것은 합의에 의한 라우팅 프로세스입니다.

벡터 대 벡터 비선형성

동적 라우팅이 완료되면 시스템이 정보를 압축합니다. 즉, 해당 정보를 압축합니다. 캡슐이 특정 기능을 인식할지 여부에 대한 확률을 제공합니다.

마지막 생각들

이 기사를 읽은 후에는 캡슐 신경망과 그 작동에 대해 잘 알고 있을 것입니다. 당신은 또한 그들의 행동이 얼마나 유용한지 깨달았을 것입니다.

기계 학습 알고리즘에 대해 자세히 알아보려면 블로그를 확인하십시오. 지식이 있는 기사를 찾을 수 있습니다.

기계 학습에 대해 자세히 알아보려면 IIIT-B 및 upGrad의 기계 학습 및 AI PG 디플로마를 확인하세요. 이 PG 디플로마는 일하는 전문가를 위해 설계되었으며 450시간 이상의 엄격한 교육, 30개 이상의 사례 연구 및 과제, IIIT- B 동문 자격, 5개 이상의 실용적인 실습 캡스톤 프로젝트 및 최고의 기업과의 취업 지원.

변압기 신경망이란 무엇입니까?

신경망이 일련의 벡터를 입력으로 받아 벡터라는 벡터로 변경한 다음(프로세스를 인코딩이라고 함) 다시 다른 시퀀스로 디코딩하는 경우 이를 변환기 신경망이라고 합니다. 변환기는 일반 언어 텍스트, 음향 신호, 게놈 시퀀스 및 시계열 데이터를 포함한 순차적 데이터를 처리하기 위해 많은 신경망 아키텍처에서 발견되는 구성 요소입니다. 변환기 신경망의 가장 일반적인 응용 프로그램은 자연어 처리입니다.

그래픽 신경망이란 무엇이며 그래프는 어떻게 작동합니까?

그래프 신경망 또는 GNN은 그래프 노드 간의 메시지 전송을 사용하여 그래프 종속성을 나타내는 신경 모델입니다. 이러한 네트워크는 주어진 그래프 구조에서 직접 작동합니다. 간단히 말해서 그래프의 모든 노드에는 레이블이 있고 신경망은 정답을 기반으로 레이블 노드를 예측하는 데 사용됩니다. GNN은 최근 소셜 네트워크, 지식 그래프, 추천 시스템, 심지어 생명 과학을 포함한 다양한 분야에서 두각을 나타냈습니다.

캡슐은 캡슐 네트워크와 다른가요?

캡슐과 캡슐 네트워크라는 용어는 모두 딥 러닝과 연결되어 있지만 같은 것은 아닙니다. 활동 벡터가 개체와 같은 특정 항목의 인스턴스화 매개변수를 나타내는 뉴런 그룹을 캡슐이라고 합니다. 그러나 캡슐 네트워크는 풀링 작업 과정에서 데이터 손실을 최소화하기 위해 지리 정보 및 기타 중요한 측면을 검색할 수 있는 네트워크입니다.