신경망에서 알아야 할 6가지 유형의 활성화 기능

게시 됨: 2020-02-13

딥 러닝이 주류 기술이 되면서 최근 ANN 또는 인공 신경망에 대한 이야기가 많이 나오고 있습니다. 오늘날 ANN은 필기 인식, 이미지 압축, 증권 거래소 예측 등과 같은 다양한 신흥 영역의 핵심 구성 요소입니다. 기계 학습의 인공 신경망 유형에 대해 자세히 알아보세요.

그러나 인공 신경망이란 무엇입니까?

인공 신경망은 인간 두뇌의 신경 구조에서 영감을 얻은 딥 러닝 모델입니다. ANN은 경험을 통해 학습하고 상황에 따라 적응하는 인간 두뇌의 기능을 모방하도록 설계되었습니다. 인간의 뇌가 계층 구조로 배열된 수십억 개의 뉴런을 포함하는 다층 구조를 갖고 있는 것처럼 ANN에도 축색 돌기를 통해 서로 연결된 뉴런 네트워크가 있습니다.

이 상호 연결된 뉴런은 한 층에서 다른 층으로 전기 신호(시냅스라고 함)를 전달합니다. 이러한 두뇌 모델링 모방을 통해 ANN은 사람의 개입 없이 경험을 통해 학습할 수 있습니다.

읽기: 데이터 마이닝의 인공 신경망

따라서 ANN은 지식 표현을 위한 대규모 계산을 수행할 수 있는 인공 뉴런으로 알려진 상호 연결된 적응 요소를 포함하는 복잡한 구조입니다. 그들은 학습 능력, 견고성, 비선형성, 높은 병렬성, 내결함성, 부정확하고 모호한 정보를 처리하는 능력, 일반화 능력을 포함하여 생물학적 뉴런 시스템의 모든 기본 특성을 가지고 있습니다.

세계 최고의 대학에서 온라인으로 인공 지능 과정 (석사, 대학원 대학원 프로그램, ML 및 AI 고급 인증 프로그램)에 참여하여 경력을 빠르게 추적하십시오 .

인공 신경망의 핵심 특성

비선형성은 데이터에 더 나은 적합성을 부여합니다.
높은 병렬 처리는 빠른 처리 및 하드웨어 장애 허용을 촉진합니다.
일반화를 통해 학습되지 않은 데이터에 모델을 적용할 수 있습니다.
불확실한 데이터 및 측정 오류에 대해서도 정확한 예측이 가능한 노이즈 둔감성.
학습 및 적응성을 통해 모델은 변화하는 환경에 따라 내부 아키텍처를 업데이트할 수 있습니다.

ANN 기반 컴퓨팅은 주로 인간 두뇌의 정보 처리 및 지식 습득 기능을 모방하여 인공 신경망이 학습할 수 있도록 하는 고급 수학적 알고리즘을 설계하는 것을 목표로 합니다.

인공 신경망의 구성 요소

ANN은 입력 계층, 은닉 계층 및 출력 계층의 세 가지 핵심 계층 또는 단계로 구성됩니다.

입력 계층: 첫 번째 계층에는 입력, 즉 원시 데이터가 제공됩니다. 외부 세계에서 네트워크로 정보를 전달합니다. 이 계층에서는 계산이 수행되지 않습니다. 노드는 정보를 은닉 계층으로 전달하기만 합니다.
숨겨진 계층: 이 계층에서 노드는 입력 계층 뒤에 숨겨져 있으며 모든 신경망의 추상화 부분을 구성합니다. 입력 레이어를 통해 입력된 기능에 대한 모든 계산은 은닉 레이어에서 발생한 다음 결과를 출력 레이어로 전송합니다.
출력 계층: 이 계층은 네트워크가 외부 세계로 수행한 계산 결과를 나타냅니다.

원천

신경망은 은닉층의 활동에 따라 다양한 유형으로 분류될 수 있습니다. 예를 들어, 단순한 신경망에서 은닉 유닛은 입력에 대한 고유한 표현을 구성할 수 있습니다. 여기서 은닉 유닛과 입력 유닛 사이의 가중치는 각 은닉 유닛이 활성화되는 시점을 결정합니다.

따라서 이러한 가중치를 조정하여 은닉층이 무엇을 나타내야 하는지 선택할 수 있습니다. 다른 아키텍처에는 단일 계층 및 다중 계층 모델이 포함됩니다. 단일 레이어에는 일반적으로 입력 및 출력 레이어만 있으며 숨겨진 레이어는 없습니다. 반면, 다층 모델에는 하나 이상의 은닉층이 있습니다.

신경망에서 활성화 기능이란 무엇입니까?

앞서 언급했듯이 ANN은 우리 주변의 세계를 혁신하는 데 도움이 되는 많은 구조의 중요한 구성 요소입니다. 그러나 ANN이 실제 문제에 대한 솔루션을 찾기 위해 어떻게 최첨단 성능을 제공하는지 궁금해 한 적이 있습니까?

답은 – 활성화 기능입니다.

ANN은 활성화 함수(AF)를 사용하여 숨겨진 계층에서 복잡한 계산을 수행한 다음 그 결과를 출력 계층으로 전송합니다. AF의 주요 목적은 신경망에 비선형 속성을 도입하는 것입니다.

노드의 선형 입력 신호를 비선형 출력 신호로 변환하여 심층 네트워크의 경우 1도를 초과하는 고차 다항식 학습을 용이하게 합니다. AF의 독특한 측면은 미분할 수 있다는 것입니다. 이는 신경망의 역전파 동안 AF가 기능하는 데 도움이 됩니다.

비선형성이 필요한 이유는 무엇입니까?

활성화 함수가 적용되지 않으면 출력 신호는 1차 다항식인 선형 함수가 됩니다. 선형 방정식을 푸는 것은 쉽지만 복잡도 지수가 제한되어 있으므로 데이터에서 복잡한 기능 매핑을 학습할 수 있는 힘이 적습니다. 따라서 AF가 없으면 신경망은 능력이 제한된 선형 회귀 모델이 됩니다.

이것은 확실히 우리가 신경망에서 원하는 것이 아닙니다. 신경망의 임무는 매우 복잡한 계산을 계산하는 것입니다. 또한 AF가 없으면 신경망은 이미지, 음성, 비디오, 오디오 등 다른 복잡한 데이터를 학습하고 모델링할 수 없습니다.

AF는 신경망이 복잡한 아키텍처를 가진 복잡하고 고차원적이며 비선형적인 빅 데이터 세트를 이해하도록 돕습니다. 여기에는 입력 레이어와 출력 레이어 사이에 여러 개의 은닉 레이어가 포함됩니다.

읽기: 딥 러닝 대 신경망

이제 더 이상 고민하지 않고 ANN에서 사용되는 다양한 유형의 활성화 기능에 대해 알아보겠습니다.

활성화 기능의 유형

1. 시그모이드 함수

ANN에서 시그모이드 함수는 주로 피드포워드 신경망에서 사용되는 비선형 AF입니다. 실제 입력 값에 대해 정의된 미분 가능한 실수 함수이며 특정 평활도를 가진 모든 곳에 양의 도함수를 포함합니다. 시그모이드 함수는 딥 러닝 모델의 출력 레이어에 나타나며 확률 기반 출력을 예측하는 데 사용됩니다. 시그모이드 함수는 다음과 같이 표현됩니다.

원천

일반적으로 시그모이드 함수의 도함수는 학습 알고리즘에 적용됩니다. 시그모이드 함수의 그래프는 'S'자 모양입니다.

시그모이드 함수의 주요 단점 중 일부는 그라디언트 포화, 느린 수렴, 더 깊은 은닉층 내에서 입력 레이어로의 역전파 중 급격한 댐핑 그라디언트, 그라디언트 업데이트가 다양한 방향으로 전파되도록 하는 0이 아닌 중심 출력을 포함합니다.

2. 쌍곡선 탄젠트 함수(Tanh)

쌍곡선 탄젠트 함수(tanh 함수라고도 함)는 AF의 또 다른 유형입니다. -1에서 1 사이의 범위를 갖는 보다 부드러운 0 중심 함수입니다. 결과적으로 tanh 함수의 출력은 다음과 같이 표시됩니다.

원천

tanh 함수는 다층 신경망에 더 나은 훈련 성능을 제공하기 때문에 시그모이드 함수보다 훨씬 더 광범위하게 사용됩니다. tanh 함수의 가장 큰 장점은 0 중심 출력을 생성하여 역전파 프로세스를 지원한다는 것입니다. tanh 함수는 자연어 처리 및 음성 인식 작업을 위한 순환 신경망에서 주로 사용되었습니다.

그러나 tanh 함수에도 한계가 있습니다. Sigmoid 함수와 마찬가지로 소실 기울기 문제를 해결할 수 없습니다. 또한 tanh 함수는 입력 값이 0(x는 0)일 때만 1의 기울기를 얻을 수 있습니다. 결과적으로 함수는 계산 과정에서 일부 죽은 뉴런 을 생성할 수 있습니다.

3. 소프트맥스 기능

softmax 함수는 실수 벡터로부터 확률 분포를 계산하기 위해 신경망에서 사용되는 AF의 또 다른 유형입니다. 이 함수는 값이 0과 1 사이이고 확률의 합이 1인 출력을 생성합니다. softmax 함수는 다음과 같이 표시됩니다.

원천

이 함수는 주로 대상 클래스가 가장 높은 확률을 갖는 각 클래스의 확률을 반환하는 다중 클래스 모델에서 사용됩니다. 이는 사용되는 DL 아키텍처의 거의 모든 출력 계층에 나타납니다. Sigmoid AF와 softmax AF의 주요 차이점은 전자가 이진 분류에 사용되는 반면 후자는 다변수 분류에 사용된다는 것입니다.

4. 소프트사인 기능

softsign 기능은 신경망 컴퓨팅에서 사용되는 또 다른 AF입니다. 주로 회귀 계산 문제에 있지만 요즘에는 DL 기반 텍스트 음성 변환 응용 프로그램에서도 사용됩니다. 다음과 같이 표현되는 이차 다항식입니다.

원천

여기서 "x"는 입력의 절대값과 같습니다.

softsign 함수와 tanh 함수의 주요 차이점은 기하급수적으로 수렴하는 tanh 함수와 달리 softsign 함수는 다항식으로 수렴한다는 것입니다.

5. ReLU(Rectified Linear Unit) 기능

DL 모델에서 가장 인기 있는 AF 중 하나인 ReLU(Rectified Linear Unit) 기능은 뛰어난 결과와 함께 최첨단 성능을 제공할 것을 약속하는 빠른 학습 AF입니다. sigmoid 및 tanh 함수와 같은 다른 AF에 비해 ReLU 함수는 딥 러닝에서 훨씬 더 나은 성능과 일반화를 제공합니다. 이 함수는 선형 모델의 속성을 유지하는 거의 선형 함수이므로 기울기-하강법으로 쉽게 최적화할 수 있습니다.

ReLU 함수는 0보다 작은 모든 값이 0으로 설정된 각 입력 요소에 대해 임계값 연산을 수행합니다. 따라서 ReLU는 다음과 같이 표시됩니다.

원천

0보다 작은 입력 값을 수정하고 0으로 설정함으로써 이 함수는 이전 유형의 활성화 함수(sigmoid 및 tanh)에서 관찰된 기울기 소실 문제를 제거합니다.

계산에 ReLU 함수를 사용하는 가장 중요한 이점은 더 빠른 계산을 보장한다는 것입니다. 지수와 나눗셈을 계산하지 않으므로 전체 계산 속도가 향상됩니다. ReLU 함수의 또 다른 중요한 측면은 0에서 최대값 사이의 값을 압축하여 숨겨진 단위에 희소성을 도입한다는 것입니다.

6. 지수 선형 단위(ELU) 함수

지수 선형 단위(ELU) 함수는 ReLU 함수와 마찬가지로 신경망 훈련 속도를 높이는 데에도 사용되는 AF입니다. ELU 함수의 가장 큰 장점은 양의 값에 대해 항등식을 사용하고 모델의 학습 특성을 개선하여 기울기 소실 문제를 해결할 수 있다는 것입니다.

ELU는 평균 단위 활성화를 0에 가깝게 밀어내는 음수 값을 가지므로 계산 복잡성이 감소하고 학습 속도가 향상됩니다. ELU는 ReLU의 훌륭한 대안입니다. 훈련 과정에서 평균 활성화를 0으로 밀어서 편향 이동을 줄입니다.

지수 선형 단위 함수는 다음과 같이 표현됩니다.

ELU 방정식의 도함수 또는 기울기는 다음과 같이 표시됩니다.

원천

여기서 "α"는 음의 순 입력에 대한 포화점을 제어하는 ELU 하이퍼파라미터와 같으며 일반적으로 1.0으로 설정됩니다. 그러나 ELU 기능에는 제한이 있습니다. 즉, 0 중심이 아닙니다.

결론

오늘날 ReLU 및 ELU와 같은 AF는 훈련 프로세스 훈련에서 주요 문제를 야기하고 신경망 모델의 정확도와 성능을 저하시키는 소실 그라디언트 문제를 제거하는 데 도움이 되기 때문에 최대의 주목을 받았습니다.

기계 학습뿐만 아니라 클라우드 인프라를 사용하여 기계 학습의 효과적인 배포를 가르치는 프로그램을 만들려면 국내 최고의 공학 학교인 IIT Madras와 함께 기계 학습 및 클라우드 고급 인증 프로그램을 확인하십시오. 이 프로그램의 목표는 미국에서 가장 선택적인 기관의 문을 열고 학습자가 높고 성장하는 기술을 습득하기 위해 놀라운 교수진 및 리소스에 액세스할 수 있도록 하는 것입니다.

인공 신경망이란 무엇입니까?

ANN은 인간 두뇌의 신경 구조에서 영감을 받은 딥 러닝 모델입니다. ANN은 경험을 통해 학습하고 주변 환경에 적응하는 인간 두뇌의 활동을 복제하도록 만들어졌습니다. ANN은 인간의 마음이 계층 구조로 배열된 수십억 개의 뉴런으로 구성된 다층 구조를 갖는 것과 유사하게 축색 돌기로 서로 연결된 뉴런 네트워크를 포함합니다. 전기 신호(시냅스라고 함)는 연결된 뉴런에 의해 한 층에서 다음 층으로 전송됩니다. ANN은 이러한 뇌 모델링 근사 덕분에 사람의 개입 없이도 경험을 통해 학습할 수 있습니다.

신경망에서 활성화 함수는 무엇입니까?

ANN은 숨겨진 계층에서 활성화 함수(AF)를 사용하여 복잡한 계산을 수행한 다음 결과를 출력 계층으로 전송합니다. AF의 기본 목표는 신경망에 비선형 품질을 제공하는 것입니다. 노드의 선형 입력 신호를 비선형 출력 신호로 변환하여 심층 네트워크가 1차 이상의 고차 다항식을 학습할 수 있도록 합니다. AF는 미분할 수 있다는 점에서 구별되며, 이는 신경망 역전파 동안의 역할을 돕습니다.

비선형성이 필요한 이유는 무엇입니까?

활성화 함수를 사용하지 않는 경우 출력 신호는 1차 다항식인 선형 변환입니다. 선형 방정식은 풀기 쉽지만 복잡성 지수가 낮아 데이터에서 복잡한 매핑을 학습하는 능력이 제한됩니다. AF가 없는 신경망은 기능이 제한된 일반화된 선형 모델이 됩니다. 이것은 우리가 신경망에서 원하는 종류의 성능이 아닙니다. 신경망은 매우 복잡한 계산을 수행하는 데 사용됩니다. 또한 신경망은 사진, 음성, 영화, 오디오 등과 같은 AF 없이는 다른 복잡한 데이터를 학습하고 표현할 수 없습니다.