강화학습/Reinforcement Learning An Introduction

Reinforcement Learning 책 읽고 공부하기(1-2, Exercise)

APinCan 2020. 2. 11. 20:48

sutton 교수의 Reinforcement Learning An Introduction을 읽고 공부하기

이번에는 챕터1에서 봤던 exercise들을 풀어봄

Exercise 1.1: Self-Play 학습하는 에이전트가 스스로와 틱택토게임을 하면 어떤 일이 일어날까? 에이전트는 action을 선택할 때 서로 다른 policy를 학습할까?

그러니까 알파고는 알파고 스스로와 게임을 했다고 하는데 마치 알파고처럼 스스로와 게임을 하면 그렇지 않은 상태와 비교해 각각의 알파고는 다른 policy를 학습할까?라고 물어보는 것 같다.

 틱택토 게임의 경우 X가 먼저두고 O이 나중에 둔다. 아무것도 놓지 않은 틱택토의 초기 상태는 모든 state 테이블이 0.5의 값을 가지고 있다. 하지만 X가 먼저 게임을 시작하면 그에 따라 state 테이블의 값도 변할 것이다. 그러니까... O를 두는 에이전트는 항상 X를 둔 다음이니 두 개의 에이전트는 환경이 다르고 policy도 다르지 않을까?

 알파고를 예를 들어보자면 두 알파고가 게임을 하면서 항상 같은 policy를 학습한다면 더 발전된 형태의 알파고는 나오기 힘들었을 것. 그러므로 똑같은 에이전트끼리 게임을 해도 서로 다른 policy를 학습할 것 같다.

Exercise 1.2: Symmetrics 틱택토 게임에서 포지션은 다른데 대칭때문에 같은 포지션들이 있음. 이를 학습에 유용하게 쓸 수 있는법? 그리고 대칭적으로 동일한 위치는 필수적으로 같은 value를 가져야 하나?

질문은 결국 대칭적으로 동일한 위치는 필수적으로 같은 value를 가져야 하나를 묻고 있는 듯 하다. 대답은... 대칭인 위치는 어느 곳에 돌을 두던 이길 확률이 똑같지 않을까? 그래서 필수적으로 같은 value를 가져야한다고 생각한다.

Exercise 1.3: Greedy Play 강화학습 에이전트가 greedy할 때, nongreedy 에이전트와 비교해 어떤 문제가 일어날 수 있을까?

무조건적인 greedy 학습은 탐험을 무시하기 때문에 local에 갇힐 수 있다. 최적정책인줄 알고 학습했는데 알고보니 최적정책은 따른 봉우리에 있었다는 말

Exercise 1.4: Learning from Exploration 

이건 뭔소리인지 잘 모르겠는데 나중에 한번 더 봐야할 듯... 이해를 아직 잘 못한 것 같다.

Exercise 1.5: Other Improvements 강화학습 에이전트를 향상시킬 수 있는 다른 방법이 있을까? 틱택토문제를 풀 수있는 더 좋은 방법은 무엇일까?

이런 단순한 문제는 유전 알고리즘이 나을 수도 있다. policy의 크기가 작고 탐색에 충분한 시간이 주어지면 유전 알고리즘이 더 좋다고 책에서는 말했다.

 

Reference : Reinforcement Learning : An Introduction