본문 바로가기
인공지능 수학

강화학습의 수학적 기초: MDP와 벨만 방정식

by note1328 2025. 8. 9.

Create With Whisk

강화학습(Reinforcement Learning, RL)은 에이전트가 환경과 상호작용하며 보상을 최대화하도록 학습하는 AI 분야다. 그 수학적 기초는 마르코프 결정 과정(MDP)와 벨만 방정식(Bellman Equation)에 기반한다. 이 글에서는 MDP와 벨만 방정식의 수학적 원리, 강화학습에서의 역할, 응용을 정리한다.

1. 마르코프 결정 과정(MDP)

MDP는 강화학습의 문제를 수학적으로 정의하는 틀이다. MDP는 다음과 같은 요소로 구성된다:

  • 상태 집합 (( S )): 에이전트가 관찰 가능한 환경의 모든 상태.
  • 행동 집합 (( A )): 에이전트가 취할 수 있는 행동.
  • 전이 확률 (( P(s'|s, a) )): 상태 ( s )에서 행동 ( a )를 취했을 때 다음 상태 ( s' )로 이동할 확률.
  • 보상 함수 (( R(s, a, s') )): 상태 ( s ), 행동 ( a ), 다음 상태 ( s' )에 따른 보상.
  • 할인율 (( \gamma )): 미래 보상의 현재 가치를 조정(0 ≤ ( \gamma ) < 1).

MDP는 마르코프 속성을 가정: 다음 상태와 보상은 현재 상태와 행동에만 의존한다.

2. 벨만 방정식

벨만 방정식은 MDP에서 최적 정책과 가치를 계산하는 핵심 공식이다. 이는 가치 함수(Value Function)를 정의하고, 최적 행동을 찾는다.

2.1. 상태 가치 함수 (State Value Function)

  • 공식:
    [ V^\pi(s) = \mathbb{E}_\pi \left[ R(s, a, s') + \gamma V^\pi(s') \right] ]
  • 설명: 정책 ( \pi ) 하에서 상태 ( s )의 기대 보상. 현재 보상과 할인된 미래 가치의 합.
  • 역할: 특정 상태의 장기적 가치를 평가.

2.2. 행동 가치 함수 (Action Value Function, Q-Function)

  • 공식:
    [ Q^\pi(s, a) = \mathbb{E} \left[ R(s, a, s') + \gamma \sum_{s'} P(s'|s, a) V^\pi(s') \right] ]
  • 설명: 상태 ( s )에서 행동 ( a )를 취했을 때의 기대 보상.
  • 역할: 특정 행동의 가치를 비교해 최적 행동 선택.

2.3. 최적 벨만 방정식

  • 공식:
    [ V^(s) = \max_a \mathbb{E} \left[ R(s, a, s') + \gamma V^(s') \right] ] [ Q^(s, a) = \mathbb{E} \left[ R(s, a, s') + \gamma \max_{a'} Q^(s', a') \right] ]
  • 설명: 최적 정책 하에서 최대 가치를 계산. 최적 행동은 가치가 최대가 되는 행동 선택.
  • 역할: 최적 정책을 도출.

3. 강화학습에서의 역할

MDP와 벨만 방정식은 강화학습의 이론적 토대다:

  • 문제 정의: MDP는 환경과 에이전트의 상호작용을 구조화.
  • 정책 학습: 벨만 방정식은 가치 함수를 통해 최적 정책을 탐색.
  • 탐험과 활용: Q-러닝, SARSA 같은 알고리즘은 벨만 방정식을 사용해 학습.

3.1. 주요 알고리즘

  • Q-러닝: 오프-폴리시(Off-Policy) 방법으로 최적 Q-함수를 학습: [ Q(s, a) \leftarrow Q(s, a) + \alpha \left[ R + \gamma \max_{a'} Q(s', a') - Q(s, a) \right] ]
  • 정책 그래디언트: 정책 ( \pi(a|s) )의 기울기를 계산해 보상 최대화: [ \nabla J(\theta) = \mathbb{E} \left[ \nabla_\theta \log \pi(a|s) Q(s, a) \right] ]

4. 실제 응용 사례

  • 게임 AI: 알파고는 MDP와 벨만 방정식을 활용해 바둑에서 최적 수 탐색.
  • 로봇 공학: 로봇이 환경에서 경로를 학습(예: 자율주행).
  • 금융: 포트폴리오 최적화에서 보상 최대화.
  • 자연어 처리: 대화 시스템에서 최적 응답 선택.

5. 도전 과제

  • 고차원 상태 공간: 상태와 행동이 많아지면 계산 복잡도 증가.
  • 불확실성: 전이 확률과 보상이 알려지지 않은 경우(모델 프리 RL).
  • 샘플 효율성: 많은 시뮬레이션이 필요할 수 있음.

6. 결론

MDP와 벨만 방정식은 강화학습의 수학적 기초로, 환경과 에이전트의 상호작용을 정의하고 최적 정책을 도출한다. Q-러닝, 정책 그래디언트 같은 알고리즘은 이를 활용해 게임, 로봇 공학, 금융 등에서 혁신을 이룬다. 이 원리를 이해하면 강화학습의 설계와 최적화가 가능하며, 이는 AI의 핵심 수학이다.