추가 유툽
추가 유투브 강의
- 강화학습 문제 종류
- prediction : value function을 찾는 문제
- controll : optimal policy를 찾는 문제
Policy Evaluation
- prediction 문제 : policy가 정해졌을 때 value function을 찾는 방법
- 처음엔 각 state의 value function에는 dummy 값이 들어가 있음
- 벨만 expectation 방정식을 이용해 value function을 구하는 것을 반복, value function이 수렴
- policy를 평가하기 위해 value function만 구했는데 최적의 policy도 나온다…
Policy Iteration
- controll 문제 : 반복을 통해 최적의 policy를 찾는 과정 (Policy 이용)
- policy evaluation에서 이미 최적의 policy가 구해졌음. 이를 좀 더 체계적으로 이용.
- 정책 정하기
- 정책 평가하기
- 2번에서 나온 가치함수를 이용한 정책 도출
- 다시 정책 평가하고 반복
- 최적 정책 구하기
- elvaluation -> improvment 계속 반복
- 벨만 expectation 방정식 + greedy policy improvement
Value Iteration
-
controll 문제 : 반복을 통해 최적의 policy를 찾는 과정 (Value 이용)
-
벨만 Optimality 방정식