강화학습/RL Introduction 책 요약 3

유한 state의 Markov Decision Process(Chapter 3)

sutton 교수의 Reinforcement Learning An Introduction을 읽고 공부하기 chapter 3 요약하기 이번 챕터에서는 finite Markov Decision Process의 문제를 소개한다. MDP는 연속적인 decision making을 공식화한 것으로 연속적인 decision making이란 에이전트가 지금 선택한 action이 즉각적인 reward뿐만 아니라 그 후의 상황, state, 미래의 reward에까지 영향을 미치는 것을 의미한다. MDP는 강화학습문제에서 수학적으로 이상적인 형태로 핵심적인 요소들로는 return, value function, Bellman equation같은 것들이 있다. 우리는 finite MDP로 공식화할 수 있는 예제들을 볼 것이다...

Multi-armed Bandit(Chapter 2)

sutton 교수의 Reinforcement Learning An Introduction을 읽고 공부하기 chapter 2 살펴보기 강화학습 내용 잠깐 강화학습이 기존의 학습방식들과 다른점은 올바른 action을 학습하는 것이 아니라 에이전트가 선택한 action이 얼마나 좋은 action인지 평가한 것을 학습에 사용하는 것이다. 지도학습처럼 어떤 action이 가장 좋은 action인지 알고 시작하는 것이 아니기 때문에 좋은 action을 찾기 위해서는 적극적인 exploration이 필요하다. 여기서 에이전트가 선택한 action에 대해서 피드백을 해주는 두가지 방식이 존재한다. Evaluative feedback Evaluative feedback에서는 에이전트가 선택한 action들에 의존적인 피..

강화학습이란 무엇인가(Chapter 1)

sutton 교수의 Reinforcement Learning An Introduction을 읽고 공부하기 Chapter 1 요약(?) 강화학습이란? 강화학습은 에이전트가 받는 보상을 최대화하면서 학습하는 방법으로 에이전트는 어떤 action을 해야하는지가 아니라 어떤 action을 해야 가장 많은 보상을 받을 수 있는지를 학습한다. 그리고 에이전트가 선택하는 action은 바로 눈앞의 reward뿐만 아니라 한참 나중에 받을 reward에도 영향을 미친다. 이런 두가지 특성 trial and error search(보상을 많이 주는 action 탐색)와 delayed reward(즉각적인 보상뿐만 아니라 나중에 받을 보상)는 강화학습의 중요한 특징이다. 강화학습은 지도학습, 비지도학습과는 다른 머신러닝의..