본문 바로가기
인공지능 수학

신경망의 활성화 함수

by note1328 2025. 8. 5.

Create With AI Studio

활성화 함수(Activation Function)는 인공신경망(Artificial Neural Network, ANN)의 핵심 구성 요소로, 비선형성을 추가해 복잡한 패턴을 학습할 수 있게 한다. 이 글에서는 딥러닝에서 사용되는 주요 활성화 함수와 그 수학적 원리, 역할, 응용을 정리한다.

1. 활성화 함수의 역할

신경망은 입력 ( x ), 가중치 ( W ), 편향 ( b )를 사용해 가중합 ( z = Wx + b )를 계산한다. 활성화 함수는 이 가중합을 비선형적으로 변환해 출력 ( a = \sigma(z) )를 생성한다. 주요 역할은 다음과 같다:

  • 비선형성 제공: 선형 연산만으로는 복잡한 데이터 패턴을 학습할 수 없음.
  • 결정 경계 형성: 분류 문제에서 클래스 간 경계를 만듦.
  • 출력 조정: 확률, 범위 제한 등 특정 출력 형태로 변환.

2. 주요 활성화 함수와 수학적 원리

2.1. 시그모이드 함수 (Sigmoid)

  • 공식:
    [ \sigma(z) = \frac{1}{1 + e^{-z}} ]
  • 특징: 출력 범위는 (0, 1). 이진 분류에서 확률로 해석 가능.
  • 수학적 원리: 지수 함수로 부드러운 비선형성을 제공. 미분 가능:
    [ \sigma'(z) = \sigma(z)(1 - \sigma(z)) ]
  • 장점: 출력이 확률로 해석 가능.
  • 단점: 기울기 소실(Vanishing Gradient) 문제로 깊은 신경망에서 비효율적.
  • 응용: 로지스틱 회귀, 이진 분류 출력층.

2.2. ReLU (Rectified Linear Unit)

  • 공식:
    [ f(z) = \max(0, z) ]
  • 특징: ( z < 0 )일 때 0, ( z \geq 0 )일 때 ( z ). 단순하고 비선형.
  • 수학적 원리: 미분은 ( z > 0 )일 때 1, ( z < 0 )일 때 0. 기울기 소실 문제 완화.
  • 장점: 계산이 빠르고, 깊은 신경망에서 효과적.
  • 단점: 음수 입력에서 기울기가 0이 되는 Dying ReLU 문제.
  • 응용: CNN, 트랜스포머의 은닉층.

2.3. 탄젠트 하이퍼볼릭 (Tanh)

  • 공식:
    [ \tanh(z) = \frac{e^z - e^{-z}}{e^z + e^{-z}} ]
  • 특징: 출력 범위는 (-1, 1). 시그모이드보다 원점 중심.
  • 수학적 원리: 미분 가능:
    [ \tanh'(z) = 1 - \tanh^2(z) ]
  • 장점: 출력이 0을 중심으로 대칭, 초기 학습 안정.
  • 단점: 여전히 기울기 소실 문제 존재.
  • 응용: RNN, 초기 신경망의 은닉층.

2.4. 소프트맥스 (Softmax)

  • 공식:
    [ \sigma(z)i = \frac{e^{z_i}}{\sum{j=1}^k e^{z_j}} ]
  • 특징: 다중 클래스 분류에서 클래스별 확률 분포를 출력. 출력 합은 1.
  • 수학적 원리: 지수 함수로 큰 값 강조, 미분 가능해 역전파 가능.
  • 장점: 확률 해석 가능.
  • 단점: 계산 비용이 상대적으로 높음.
  • 응용: 출력층(예: 이미지 분류, BERT).

2.5. Leaky ReLU

  • 공식:
    [ f(z) = \max(\alpha z, z), \quad \alpha \text{는 작은 상수 (예: 0.01)} ]
  • 특징: 음수 입력에 작은 기울기(( \alpha ))를 부여해 Dying ReLU 문제 완화.
  • 수학적 원리: 미분은 ( z > 0 )일 때 1, ( z < 0 )일 때 ( \alpha ).
  • 장점: ReLU의 장점을 유지하며 음수 입력 처리.
  • 응용: 깊은 신경망의 은닉층.

3. 활성화 함수의 수학적 중요성

  • 미분 가능성: 역전파를 위해 활성화 함수는 미분 가능해야 한다. 예: ReLU는 ( z = 0 )에서 미분 불가능하지만, 실제로는 무시 가능.
  • 비선형성: 선형 함수만으로 복잡한 패턴(예: XOR 문제)을 학습할 수 없음.
  • 기울기 관리: 기울기 소실(시그모이드, Tanh)이나 폭발 문제를 완화하는 함수(ReLU, Leaky ReLU) 선택이 중요.

4. 실제 응용 사례

  • 컴퓨터 비전: CNN에서 ReLU로 빠른 학습, 소프트맥스로 클래스 확률 출력.
  • 자연어 처리: 트랜스포머에서 ReLU 또는 Leaky ReLU로 비선형성 추가.
  • 강화학습: 정책 네트워크에서 Tanh로 출력 범위 제한.

5. 도전 과제

  • 기울기 소실: 시그모이드, Tanh는 깊은 신경망에서 학습 느림.
  • 하이퍼파라미터: Leaky ReLU의 ( \alpha ) 설정 등 조정 필요.
  • 문제별 선택: 적절한 활성화 함수 선택은 데이터와 모델 구조에 의존.

6. 결론

활성화 함수는 신경망의 비선형성을 제공해 복잡한 패턴 학습을 가능케 한다. 시그모이드, ReLU, Tanh, 소프트맥스, Leaky ReLU는 각기 다른 수학적 특성으로 모델의 성능을 좌우한다. 이들의 원리를 이해하면 모델 설계와 최적화가 가능하며, 이는 딥러닝의 핵심 수학이다.