ai 12

Reinforcement Learning 책 읽고 공부하기(1-2, Exercise)

sutton 교수의 Reinforcement Learning An Introduction을 읽고 공부하기 이번에는 챕터1에서 봤던 exercise들을 풀어봄 Exercise 1.1: Self-Play 학습하는 에이전트가 스스로와 틱택토게임을 하면 어떤 일이 일어날까? 에이전트는 action을 선택할 때 서로 다른 policy를 학습할까? 그러니까 알파고는 알파고 스스로와 게임을 했다고 하는데 마치 알파고처럼 스스로와 게임을 하면 그렇지 않은 상태와 비교해 각각의 알파고는 다른 policy를 학습할까?라고 물어보는 것 같다. 틱택토 게임의 경우 X가 먼저두고 O이 나중에 둔다. 아무것도 놓지 않은 틱택토의 초기 상태는 모든 state 테이블이 0.5의 값을 가지고 있다. 하지만 X가 먼저 게임을 시작하면 ..

Reinforcement Learning 책 읽고 공부하기(1)

sutton 교수의 Reinforcement Learning An Introduction을 읽고 공부하기 Introduction 환경과 상호작용을 통해 학습하는 것은 아주 기본적인 아이디어다 의심의 여지 없이 우리의 삶에서 환경과 상호작용하며 학습하는 것은 환경과 우리 자신에 더 잘 알 수 있는 방법이다 이 책에서는 이러한 상호작용으로 목표에 달성하는 다양한 learning method들을 평가한다 reinforcement learning은 다른 어떠한 머신러닝 알고리즘보다 목표지향적인 알고리즘이라 할 수 있다 1.1 Reinforcement Learning Reinforcement Learning은 reward signal을 최대화 시키면서 학습한다. 에이전트는 어떤 action을 해야하는지가 아니라 ..