추가 유툽

추가 유투브 강의

강화학습 문제 종류
- prediction : value function을 찾는 문제
- controll : optimal policy를 찾는 문제

Policy Evaluation

prediction 문제 : policy가 정해졌을 때 value function을 찾는 방법
처음엔 각 state의 value function에는 dummy 값이 들어가 있음
벨만 expectation 방정식을 이용해 value function을 구하는 것을 반복, value function이 수렴
policy를 평가하기 위해 value function만 구했는데 최적의 policy도 나온다…

Policy Iteration

controll 문제 : 반복을 통해 최적의 policy를 찾는 과정 (Policy 이용)
policy evaluation에서 이미 최적의 policy가 구해졌음. 이를 좀 더 체계적으로 이용.
1. 정책 정하기
2. 정책 평가하기
3. 2번에서 나온 가치함수를 이용한 정책 도출
4. 다시 정책 평가하고 반복
5. 최적 정책 구하기
elvaluation -> improvment 계속 반복
벨만 expectation 방정식 + greedy policy improvement

Value Iteration

controll 문제 : 반복을 통해 최적의 policy를 찾는 과정 (Value 이용)
벨만 Optimality 방정식

Dynamic Programing