추가 유투브 강의

  1. 강화학습 문제 종류
    • prediction : value function을 찾는 문제
    • controll : optimal policy를 찾는 문제

Policy Evaluation

  • prediction 문제 : policy가 정해졌을 때 value function을 찾는 방법
  • 처음엔 각 state의 value function에는 dummy 값이 들어가 있음
  • 벨만 expectation 방정식을 이용해 value function을 구하는 것을 반복, value function이 수렴
  • policy를 평가하기 위해 value function만 구했는데 최적의 policy도 나온다…

Policy Iteration

  • controll 문제 : 반복을 통해 최적의 policy를 찾는 과정 (Policy 이용)
  • policy evaluation에서 이미 최적의 policy가 구해졌음. 이를 좀 더 체계적으로 이용.
    1. 정책 정하기
    2. 정책 평가하기
    3. 2번에서 나온 가치함수를 이용한 정책 도출
    4. 다시 정책 평가하고 반복
    5. 최적 정책 구하기
  • elvaluation -> improvment 계속 반복
  • 벨만 expectation 방정식 + greedy policy improvement

Value Iteration

  • controll 문제 : 반복을 통해 최적의 policy를 찾는 과정 (Value 이용)

  • 벨만 Optimality 방정식

Dynamic Programing