
인공지능(AI), 특히 머신러닝과 딥러닝은 수학적 공식에 기반해 데이터를 학습하고 예측한다. 이 글에서는 AI에서 자주 사용되는 핵심 수학 공식 5가지와 그 역할을 정리한다.
1. 그래디언트 디센트 (Gradient Descent)
- 공식:
[ w = w - \eta \cdot \frac{\partial L}{\partial w} ] - 설명: 그래디언트 디센트는 손실 함수 ( L )을 최소화하기 위해 모델 파라미터(가중치 ( w ))를 업데이트한다. ( \eta )는 학습률로, 기울기 ( \frac{\partial L}{\partial w} )의 반대 방향으로 파라미터를 조정한다.
- 역할: 신경망 학습의 핵심. 예: CNN, RNN에서 가중치를 최적화.
- 응용: 이미지 분류, 언어 모델 학습에서 손실 함수(예: 크로스엔트로피)를 최소화.
2. 손실 함수: 평균제곱오차 (Mean Squared Error, MSE)
- 공식:
[ MSE = \frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2 ] - 설명: MSE는 실제값 ( y_i )와 예측값 ( \hat{y}_i ) 간 오차의 제곱 평균을 계산한다. 회귀 문제에서 모델 성능을 평가한다.
- 역할: 모델의 예측 정확도를 측정하고, 학습 중 최적화 목표로 사용.
- 응용: 주가 예측, 주택 가격 예측 같은 연속값 예측 문제.
3. 소프트맥스 함수 (Softmax Function)
- 공식:
[ \sigma(z)i = \frac{e^{z_i}}{\sum{j=1}^k e^{z_j}} ] - 설명: 소프트맥스는 입력 벡터 ( z )를 클래스별 확률 분포로 변환한다. 각 출력 ( \sigma(z)_i )는 0~1 사이 값이며, 합은 1이다.
- 역할: 다중 클래스 분류에서 확률을 출력. 예: 이미지에서 고양이, 개, 새 중 하나를 예측.
- 응용: CNN 출력층, 트랜스포머 모델(예: BERT)에서 클래스 예측.
4. 크로스엔트로피 손실 (Cross-Entropy Loss)
- 공식:
[ L = -\sum_{i=1}^k y_i \log(\hat{y}_i) ] - 설명: 크로스엔트로피는 실제 레이블 ( y_i )와 예측 확률 ( \hat{y}_i ) 간 차이를 측정한다. 분류 문제에서 모델의 성능을 평가한다.
- 역할: 모델이 올바른 클래스를 예측하도록 학습. 소프트맥스와 함께 사용.
- 응용: 텍스트 분류, 스팸 필터링, 객체 인식.
5. 체인 룰 (Chain Rule for Backpropagation)
- 공식:
[ \frac{\partial L}{\partial w} = \frac{\partial L}{\partial z} \cdot \frac{\partial z}{\partial w} ] - 설명: 체인 룰은 복합 함수의 도함수를 계산한다. 역전파(Backpropagation)에서 손실 함수 ( L )에 대한 가중치 ( w )의 기울기를 계산해 학습한다.
- 역할: 다층 신경망에서 기울기를 효율적으로 전파해 가중치를 업데이트.
- 응용: 모든 딥러닝 모델(예: 트랜스포머, GAN)에서 학습의 핵심.
6. 결론
이 5가지 공식—그래디언트 디센트, MSE, 소프트맥스, 크로스엔트로피, 체인 룰—은 AI 학습의 핵심이다. 이들은 모델의 예측, 평가, 최적화를 가능케 하며, 컴퓨터 비전, 자연어 처리, 추천 시스템 등에 적용된다. AI를 이해하려면 이 공식들의 수학적 원리를 숙지해야 하며, 이는 모델의 동작을 설명하는 언어다.
'인공지능 수학' 카테고리의 다른 글
| 베이즈 정리가 AI에 미치는 영향 (3) | 2025.08.04 |
|---|---|
| 딥러닝 모델의 손실 함수와 수학적 원리 (0) | 2025.08.03 |
| 그래디언트 디센트: AI 학습의 핵심 수학 (1) | 2025.08.02 |
| 확률 분포로 풀어보는 머신러닝의 비밀 (2) | 2025.08.01 |
| AI와 벡터 공간: 데이터의 기하학적 해석 (1) | 2025.08.01 |