'Reinforcement Learning' 태그의 글 목록 (2 Page)

Reinforcement Learning 14

Reinforcement Learning 책 읽고 공부하기(2-3)

sutton 교수의 Reinforcement Learning An Introduction을 읽고 공부하기 2.7 Upper-Confidence-Bound Action Selection action-value 추정치의 정확도가 항상 불확실하기 때문에 exlporation은 필요하다. $ \epsilon $-greedy action 선택은 non-greedy action을 선택할 수 있게 한다. 실제로 optimal일 가능성에 따라 non-greedy action을 선택하는 것이 좋다. 여기서 추정치가 최대치에 얼마나 근접한지, 그리고 그 추정치의 부확실성을 고려해 action을 선택한다. 이렇게 action을 선택하는 하나의 효과적인 방법은 아래와 같다. $$ {A}_{t} \doteq \left[ {..

강화학습/Reinforcement Learning An Introduction 2020.02.21

Reinforcement Learning 책 읽고 공부하기(2)

sutton 교수의 Reinforcement Learning An Introduction을 읽고 공부하기 Chapter 2 Multi-armed Bandits 강화학습이 다른 타입의 학습방법들과 구분되는 특징은 올바른 action으로 학습하는 것이 아니라 선택한 action을 평가한 것을 훈련 정보로 사용하는 것이다. 이는 좋은 행동을 찾기 위한 적극적인 exploration의 필요성을 말해준다. Evaluative feedback은 에이전트가 선택한 action이 얼마나 좋은지를 말해주지만 이 action이 가능한 best인지 worst인지는 말해주지 않는다. Instructive feedback은 반면에, 실제로 선택한 action과 독립적으로 선택해야 하는 올바른 action을 가리킨다. 이 두 f..

강화학습/Reinforcement Learning An Introduction 2020.02.15

Reinforcement Learning 책 읽고 공부하기(1-2, Exercise)

sutton 교수의 Reinforcement Learning An Introduction을 읽고 공부하기 이번에는 챕터1에서 봤던 exercise들을 풀어봄 Exercise 1.1: Self-Play 학습하는 에이전트가 스스로와 틱택토게임을 하면 어떤 일이 일어날까? 에이전트는 action을 선택할 때 서로 다른 policy를 학습할까? 그러니까 알파고는 알파고 스스로와 게임을 했다고 하는데 마치 알파고처럼 스스로와 게임을 하면 그렇지 않은 상태와 비교해 각각의 알파고는 다른 policy를 학습할까?라고 물어보는 것 같다. 틱택토 게임의 경우 X가 먼저두고 O이 나중에 둔다. 아무것도 놓지 않은 틱택토의 초기 상태는 모든 state 테이블이 0.5의 값을 가지고 있다. 하지만 X가 먼저 게임을 시작하면 ..

강화학습/Reinforcement Learning An Introduction 2020.02.11

Reinforcement Learning 책 읽고 공부하기(1)

sutton 교수의 Reinforcement Learning An Introduction을 읽고 공부하기 Introduction 환경과 상호작용을 통해 학습하는 것은 아주 기본적인 아이디어다 의심의 여지 없이 우리의 삶에서 환경과 상호작용하며 학습하는 것은 환경과 우리 자신에 더 잘 알 수 있는 방법이다 이 책에서는 이러한 상호작용으로 목표에 달성하는 다양한 learning method들을 평가한다 reinforcement learning은 다른 어떠한 머신러닝 알고리즘보다 목표지향적인 알고리즘이라 할 수 있다 1.1 Reinforcement Learning Reinforcement Learning은 reward signal을 최대화 시키면서 학습한다. 에이전트는 어떤 action을 해야하는지가 아니라 ..

강화학습/Reinforcement Learning An Introduction 2020.02.09

1 2

귀차니스트

인공지능, Taxi, 강화학습, OpenAI, ValueIteration, ai, Reinforcement Learning, OpenAI gym, PolicyIteration,

Today :
Yesterday :

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

귀차니스트

Reinforcement Learning 14

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역