인공지능 11

Reinforcement Learning 책 읽고 공부하기(4)

sutton 교수의 Reinforcement Learning An Introduction을 읽고 공부하기 Dynamic Programming Dynamic programming(DP)는 MDP로 환경의 완벽한 모델이 주어졌을 때 optimal policy를 계산하기 위한 알고리즘들의 collection이다. 전통적인 DP 알고리즘들은 완벽한 모델의 대한 가정과 엄청난 계산량 때문에 강화학습에서의 활용성은 제한되었다. 하지만 이론적으로는 여전히 중요하다. DP는 이 책에 나머지 부분에 설명되는 방법들을 이해하기 위한 필수적인 기초를 제공해준다. 사실 이러한 모든 방법들은 계산을 덜하고 환경에 대한 완벽한 정보없이, DP와 동일한 효과를 달성하기 위한 시도들이라고 볼 수도 있다. 우리는 보통 환경을 fini..

Reinforcement Learning 책 읽고 공부하기(3, Exercise2)

sutton 교수의 Reinforcement Learning An Introduction을 읽고 공부하기 Exercise 3.11 현재 state가 \( {S}_{t} \), action이 확률적 policy \( \pi \)에 의해 선택될 때 4개의 아규먼트를 가지는 함수 p(3.2)와 \( \pi \)를 사용해 \( {R}_{t+1} \)의 기대값을 표현해라. p(3.2)를 다시 가져와보기 여기서 \( \pi \)를 사용해 다시 나타내보기 $$ {R}_{t+1} = p \left( s^{'}, r | {s}_{t}, {a}_{t} \right) \times \pi \left( {a}_{t} | {s}_{t} \right) $$ 다음과 같이 않을까 라고 예상함 Exercise 3.12 \( {q}_{\..

Reinforcement Learning 책 읽고 공부하기(3-3)

sutton 교수의 Reinforcement Learning An Introduction을 읽고 공부하기 3.5 Policies and Value Functions 거의 모든 강화학습 알고리즘들은 에이전트가 해당 state에 있는게 얼마나 좋은지 계산하는 value function(state의 function 또는 state-action쌍)을 포함한다.(또는 주어진 state에서 주어진 action을 하는게 얼마나 좋은지). "얼마나 좋은지"는 미래 reward의 기대값, 즉 expected return으로 정의한다. 당연하게도 미래에 받을 것이라 기대하는 reward는 에이전트가 어떤 action을 할지에 달려있다. 따라서 value function은 어떻게 policy라 부르는 어떻게 acting해야..

Reinforcement Learning 책 읽고 공부하기(3-2)

sutton 교수의 Reinforcement Learning An Introduction을 읽고 공부하기 3.2 Goals and Rewards 강화학습에서 에이전트의 목적(목표)는 reward라는 환경을 거쳐 에이전트에게 가는 특별한 신호로 공식화한다. 각 타임스텝에서 reward는 실수범위 내의 간단한 숫자이다. 비공식적으로 에이전트의 목표는 이 reward들의 총합을 최대화하는 것이다. 즉각적인 reward가 아닌 긴 시간에 걸쳐 쌓인 reward를 최대화하겠다는 의미다. 이 아이디어를 reward hypothesis라 한다: 목표와 목적에 의해 reward라 불리는 스칼라 신호의 누적 합의 기대값(expected value)의 최대화 목표의 아이디어를 공식화하기 위해 reward signal의 사..

Reinforcement Learning 책 읽고 공부하기(3, Exercise)

sutton 교수의 Reinforcement Learning An Introduction을 읽고 공부하기 Exercise 3.1 MDP 프레임워크에 맞는 자신만의 세가지 예제를 생각해보자. states, actions, rewards들을 확인하자. 가능한 각각 다른 예제로 세개 만들어보자. MDP 프레임워크는 추상적이고 유연하며 다양한 방법으로 적용할 수 있다. 첫번째로 자전거 문제를 생각해 볼 수 있을듯. action = 핸들을 꺾는 각도, 좌/우. state = 자전거의 속력, 좌/우로 기울어진 각도. reward = 속력이 증가하면 +1, 속력이 0이되면 negative reward 두번째: 온도 자동 조절 에어컨. action = 온도를 올리거나 내리거나. state = 현재 온도, 습도, 밖의 ..

Reinforcement Learning 책 읽고 공부하기(3)

sutton 교수의 Reinforcement Learning An Introduction을 읽고 공부하기 Chapter 3 Finite Markov Decision Processes 이번 챕터에서는 finite Markov decision processes(finite MDPs)의 문제를 소개한다. 이 문제는 bandit문제와 마찬가지로 evaluative feedback을 포함할 뿐만 아니라 associative aspect(다른 상황에서는 다른 action들을 선택) 또한 포함한다. MDPs는 연속적인 decision making을 공식화한 것이다. 연속적인 decision making이란 지금 선택한 action이 즉각적인 reward뿐만 아니라 그 후에 상황, state, 미래의 reward에 까..

Reinforcement Learning 책 읽고 공부하기(2-4, Exercise)

sutton 교수의 Reinforcement Learning An Introduction을 읽고 공부하기 챕터 2에서 본 연습문제들 풀어보기 Exercise 2.1 \( \epsilon \)-greedy action 선택에서 두 개의 action을 선택해야 하는데 \( \epsilon \)=0.5인 경우 greedy action을 선택할 확률은 얼마인가? 일단 \( \epsilon \)-greedy action의 경우 \( \epsilon \)만큼의 확률로 greedy하지 않은 action을 선택하는 것임. 그리고 \( \epsilon \)-greedy에서는 optimal action을 선택할 확률이 1-\( \epsilon \)보다 큰 수렴, 즉 거의 확실하게 수렴함을 의미함. 그래서 여기서 greed..

Reinforcement Learning 책 읽고 공부하기(2-3)

sutton 교수의 Reinforcement Learning An Introduction을 읽고 공부하기 2.7 Upper-Confidence-Bound Action Selection action-value 추정치의 정확도가 항상 불확실하기 때문에 exlporation은 필요하다. \( \epsilon \)-greedy action 선택은 non-greedy action을 선택할 수 있게 한다. 실제로 optimal일 가능성에 따라 non-greedy action을 선택하는 것이 좋다. 여기서 추정치가 최대치에 얼마나 근접한지, 그리고 그 추정치의 부확실성을 고려해 action을 선택한다. 이렇게 action을 선택하는 하나의 효과적인 방법은 아래와 같다. $$ {A}_{t} \doteq \left[ {..

Reinforcement Learning 책 읽고 공부하기(2)

sutton 교수의 Reinforcement Learning An Introduction을 읽고 공부하기 Chapter 2 Multi-armed Bandits 강화학습이 다른 타입의 학습방법들과 구분되는 특징은 올바른 action으로 학습하는 것이 아니라 선택한 action을 평가한 것을 훈련 정보로 사용하는 것이다. 이는 좋은 행동을 찾기 위한 적극적인 exploration의 필요성을 말해준다. Evaluative feedback은 에이전트가 선택한 action이 얼마나 좋은지를 말해주지만 이 action이 가능한 best인지 worst인지는 말해주지 않는다. Instructive feedback은 반면에, 실제로 선택한 action과 독립적으로 선택해야 하는 올바른 action을 가리킨다. 이 두 f..

Reinforcement Learning 책 읽고 공부하기(1-2, Exercise)

sutton 교수의 Reinforcement Learning An Introduction을 읽고 공부하기 이번에는 챕터1에서 봤던 exercise들을 풀어봄 Exercise 1.1: Self-Play 학습하는 에이전트가 스스로와 틱택토게임을 하면 어떤 일이 일어날까? 에이전트는 action을 선택할 때 서로 다른 policy를 학습할까? 그러니까 알파고는 알파고 스스로와 게임을 했다고 하는데 마치 알파고처럼 스스로와 게임을 하면 그렇지 않은 상태와 비교해 각각의 알파고는 다른 policy를 학습할까?라고 물어보는 것 같다. 틱택토 게임의 경우 X가 먼저두고 O이 나중에 둔다. 아무것도 놓지 않은 틱택토의 초기 상태는 모든 state 테이블이 0.5의 값을 가지고 있다. 하지만 X가 먼저 게임을 시작하면 ..