강화학습 17

윈도우 10에서 OpenAI gym 설치 및 에러 해결

gym을 설치하는 방법은 매우 간단함. 일단 아나콘다를 준비하고 0. pip install gym==0.7.0 이렇게 설치 근데 책을 보며 연습하는데 CarRacing 예제가 실행이 안됨 import gym env = gym.make('CarRacing-v0') 오류 내용은 ModuleNotFoundError: No module named 'Box2D' 모듈이 없다고 해서 pip install box2d로 설치하려고했는데 이것도 안됨 그래서 스택오버플로우 다음 글을 참고 https://stackoverflow.com/questions/51811263/problems-pip-installing-box2d/52572657 Problems pip installing Box2D I'm learning Reinf..

Reinforcement Learning 책 읽고 공부하기(3)

sutton 교수의 Reinforcement Learning An Introduction을 읽고 공부하기 Chapter 3 Finite Markov Decision Processes 이번 챕터에서는 finite Markov decision processes(finite MDPs)의 문제를 소개한다. 이 문제는 bandit문제와 마찬가지로 evaluative feedback을 포함할 뿐만 아니라 associative aspect(다른 상황에서는 다른 action들을 선택) 또한 포함한다. MDPs는 연속적인 decision making을 공식화한 것이다. 연속적인 decision making이란 지금 선택한 action이 즉각적인 reward뿐만 아니라 그 후에 상황, state, 미래의 reward에 까..

Reinforcement Learning 책 읽고 공부하기(2-4, Exercise)

sutton 교수의 Reinforcement Learning An Introduction을 읽고 공부하기 챕터 2에서 본 연습문제들 풀어보기 Exercise 2.1 \( \epsilon \)-greedy action 선택에서 두 개의 action을 선택해야 하는데 \( \epsilon \)=0.5인 경우 greedy action을 선택할 확률은 얼마인가? 일단 \( \epsilon \)-greedy action의 경우 \( \epsilon \)만큼의 확률로 greedy하지 않은 action을 선택하는 것임. 그리고 \( \epsilon \)-greedy에서는 optimal action을 선택할 확률이 1-\( \epsilon \)보다 큰 수렴, 즉 거의 확실하게 수렴함을 의미함. 그래서 여기서 greed..

Reinforcement Learning 책 읽고 공부하기(2-3)

sutton 교수의 Reinforcement Learning An Introduction을 읽고 공부하기 2.7 Upper-Confidence-Bound Action Selection action-value 추정치의 정확도가 항상 불확실하기 때문에 exlporation은 필요하다. \( \epsilon \)-greedy action 선택은 non-greedy action을 선택할 수 있게 한다. 실제로 optimal일 가능성에 따라 non-greedy action을 선택하는 것이 좋다. 여기서 추정치가 최대치에 얼마나 근접한지, 그리고 그 추정치의 부확실성을 고려해 action을 선택한다. 이렇게 action을 선택하는 하나의 효과적인 방법은 아래와 같다. $$ {A}_{t} \doteq \left[ {..

Reinforcement Learning 책 읽고 공부하기(2)

sutton 교수의 Reinforcement Learning An Introduction을 읽고 공부하기 Chapter 2 Multi-armed Bandits 강화학습이 다른 타입의 학습방법들과 구분되는 특징은 올바른 action으로 학습하는 것이 아니라 선택한 action을 평가한 것을 훈련 정보로 사용하는 것이다. 이는 좋은 행동을 찾기 위한 적극적인 exploration의 필요성을 말해준다. Evaluative feedback은 에이전트가 선택한 action이 얼마나 좋은지를 말해주지만 이 action이 가능한 best인지 worst인지는 말해주지 않는다. Instructive feedback은 반면에, 실제로 선택한 action과 독립적으로 선택해야 하는 올바른 action을 가리킨다. 이 두 f..

Reinforcement Learning 책 읽고 공부하기(1-2, Exercise)

sutton 교수의 Reinforcement Learning An Introduction을 읽고 공부하기 이번에는 챕터1에서 봤던 exercise들을 풀어봄 Exercise 1.1: Self-Play 학습하는 에이전트가 스스로와 틱택토게임을 하면 어떤 일이 일어날까? 에이전트는 action을 선택할 때 서로 다른 policy를 학습할까? 그러니까 알파고는 알파고 스스로와 게임을 했다고 하는데 마치 알파고처럼 스스로와 게임을 하면 그렇지 않은 상태와 비교해 각각의 알파고는 다른 policy를 학습할까?라고 물어보는 것 같다. 틱택토 게임의 경우 X가 먼저두고 O이 나중에 둔다. 아무것도 놓지 않은 틱택토의 초기 상태는 모든 state 테이블이 0.5의 값을 가지고 있다. 하지만 X가 먼저 게임을 시작하면 ..

Reinforcement Learning 책 읽고 공부하기(1)

sutton 교수의 Reinforcement Learning An Introduction을 읽고 공부하기 Introduction 환경과 상호작용을 통해 학습하는 것은 아주 기본적인 아이디어다 의심의 여지 없이 우리의 삶에서 환경과 상호작용하며 학습하는 것은 환경과 우리 자신에 더 잘 알 수 있는 방법이다 이 책에서는 이러한 상호작용으로 목표에 달성하는 다양한 learning method들을 평가한다 reinforcement learning은 다른 어떠한 머신러닝 알고리즘보다 목표지향적인 알고리즘이라 할 수 있다 1.1 Reinforcement Learning Reinforcement Learning은 reward signal을 최대화 시키면서 학습한다. 에이전트는 어떤 action을 해야하는지가 아니라 ..