'강화학습' 카테고리의 글 목록 (4 Page)

Reinforcement Learning 책 읽고 공부하기(2-2)

sutton 교수의 Reinforcement Learning An Introduction을 읽고 공부하기 2.4 Incremental Implementation 모든 action-value의 추정값은 관찰한 reward들의 sample average값이다. 이러한 평균을 효과적으로 계산할 수 있는 방법을 알아본다. 단일 action에만 집중하기 위해 표기를 단순화한다. $ {R}_{i} $는 i번째 action을 선택한 후 받는 reward다. $ {Q}_{n} $은 n-1번째까지 action을 선택한 후의 action value의 추정값이다. 아래와 같이 쓸 수 있다. $$ {Q}_{n} \doteq \frac{ {R}_{1}+{R}_{2}+ \cdot\cdot\cdot + {R}_{n-1} }..

강화학습/Reinforcement Learning An Introduction 2020.02.17

Reinforcement Learning 책 읽고 공부하기(2)

sutton 교수의 Reinforcement Learning An Introduction을 읽고 공부하기 Chapter 2 Multi-armed Bandits 강화학습이 다른 타입의 학습방법들과 구분되는 특징은 올바른 action으로 학습하는 것이 아니라 선택한 action을 평가한 것을 훈련 정보로 사용하는 것이다. 이는 좋은 행동을 찾기 위한 적극적인 exploration의 필요성을 말해준다. Evaluative feedback은 에이전트가 선택한 action이 얼마나 좋은지를 말해주지만 이 action이 가능한 best인지 worst인지는 말해주지 않는다. Instructive feedback은 반면에, 실제로 선택한 action과 독립적으로 선택해야 하는 올바른 action을 가리킨다. 이 두 f..

강화학습/Reinforcement Learning An Introduction 2020.02.15

Reinforcement Learning 책 읽고 공부하기(1-2, Exercise)

sutton 교수의 Reinforcement Learning An Introduction을 읽고 공부하기 이번에는 챕터1에서 봤던 exercise들을 풀어봄 Exercise 1.1: Self-Play 학습하는 에이전트가 스스로와 틱택토게임을 하면 어떤 일이 일어날까? 에이전트는 action을 선택할 때 서로 다른 policy를 학습할까? 그러니까 알파고는 알파고 스스로와 게임을 했다고 하는데 마치 알파고처럼 스스로와 게임을 하면 그렇지 않은 상태와 비교해 각각의 알파고는 다른 policy를 학습할까?라고 물어보는 것 같다. 틱택토 게임의 경우 X가 먼저두고 O이 나중에 둔다. 아무것도 놓지 않은 틱택토의 초기 상태는 모든 state 테이블이 0.5의 값을 가지고 있다. 하지만 X가 먼저 게임을 시작하면 ..

강화학습/Reinforcement Learning An Introduction 2020.02.11

Reinforcement Learning 책 읽고 공부하기(1)

sutton 교수의 Reinforcement Learning An Introduction을 읽고 공부하기 Introduction 환경과 상호작용을 통해 학습하는 것은 아주 기본적인 아이디어다 의심의 여지 없이 우리의 삶에서 환경과 상호작용하며 학습하는 것은 환경과 우리 자신에 더 잘 알 수 있는 방법이다 이 책에서는 이러한 상호작용으로 목표에 달성하는 다양한 learning method들을 평가한다 reinforcement learning은 다른 어떠한 머신러닝 알고리즘보다 목표지향적인 알고리즘이라 할 수 있다 1.1 Reinforcement Learning Reinforcement Learning은 reward signal을 최대화 시키면서 학습한다. 에이전트는 어떤 action을 해야하는지가 아니라 ..

강화학습/Reinforcement Learning An Introduction 2020.02.09

[강화학습] 딥살사, 폴리시 그레디언트

다이내믹 프로그래밍에서의 한계는 1. 계산 복잡도, 2. 차원의 저주 3. 환경에 대한 정보 이 세가지 몬테카를로 예측, 살사, 큐러닝에서는 3번 문제만 해결했음 1, 2번 문제를 해결하기 위해 다른 방법이 필요 인공신경망을 사용하자, 기존의 살사 알고리즘의 큐함수를 인공신경망으로 근사 --> 딥살사 살사의 큐함수 업데이트식은 이랬음 딥살사에서 인공신경망의 업데이트는 경사하강법 이용, 오차함수는 MSE를 사용 강화학습은 지도학습이 아니라 정답이 없으므로 정답으로 살사의 큐함수 업데이트에서 정답 역할을 하던 것을 정답으로 사용, 그게 바로 이 식 그리고 예측 역할을 하던 것은 이제 정답과 예측을 MSE에 집어넣어 오차함수를 만들기 이제 큐함수를 근사하는 인공신경망을 오차함수 MSE를 통해 업데이트 시킬 수..

강화학습 2020.01.18

[강화학습] 살사, 큐러닝

몬테카를로 예측 다이내믹 프로그래밍 --> 강화학습 넘어가는 아이디어를 제공 에피소드를 진행하고 받은 실제 반환값을 구해 이 반환값들로 각 상태의 가치함수 업데이트 가치함수 업데이트 위해 하나의 에피소드를 다 진행해야 함 다이내믹 프로그래밍은 상태와 차원이 증가할수록 계산복잡도가 증가 계산을 통한 가치함수 업데이트가 아닌 에이전트의 경험으로 참 가치함수를 업데이트 하자! 몬테카를로 예측은 원래 값 모르지만 샘플을 통해 원래의 값을 추정하는 것 정책 이터레이션의 정책 평가를 몬테카를로 근사로 가치함수 추정, 가치함수를 추정할 때 에이전트가 한번의 에피소드를 진행한게 샘플링 샘플링으로 얻은 샘플링 평균으로 참 가치함수 추정, 이 때 몬테카를로 근사를 사용하므로 몬테카를로 예측이라 부름 가치함수는 이렇게 생겼..

강화학습 2020.01.18

[강화학습]다이내믹 프로그래밍

다이내믹 프로그래밍 다이내믹 프로그래밍을 이용해 벨만 방정식을 풀기 가치함수를 구하는 과정을 작은 과정 여러개로 쪼개어 반복 계산 모든 상태에 대해 한번 가치함수 업데이트 다음 계산 때는 업데이트 된 가치함수를 이용해 다시 모든 상태에 대해서 가치함수 업데이트 이걸 반복 가치함수에 대한 방정식 벨만 기대 방정식 --> 정책 이터레이션 벨만 최적 방정식 --> 가치 이터레이션 정책/가치 이터레이션 --> SARSA --> 큐러닝 정책 이터레이션 정책 이터레이션에서는 정책을 평가하는 도구로 가치함수 사용, 이터레이션을 반복할수록 최적에 도달 정책과 가치함수를 분리시킴 벨만 기대 방정식을 이용해 강화학습 문제 품, 가장 높은 보상을 얻게 하는 정책을 알고 싶은데 처음에는 알 수가 없음 그래서 무작위 정책으로 ..

강화학습 2020.01.15

[강화학습]벨만 방정식

가치함수 에이전트가 어떤 정책이 더 좋은 정책인지 판단하는 기준, 현재 선택한 정책에서 예상되는 보상의 합 하나의 에피소드를 진행할 때 현재 시점 t에서 에이전트가 어떤 행동을 하면서 받을 보상을 다 합치면 다음과 같이 표현 가능 현재 받을 보상과 나중에 받을 보상은 다르기 때문에 감가율을 고려해 시간이 지날수록 받는 보상은 감소, 이를 반환값 G로 표현, 반환값은 에이전트가 에피소드를 끝낸 후 실제로 받은 과거의 보상들을 정산한 것 어떠한 상태에 있을 때 앞으로 얼마의 보상을 받을 것인지에 대한 기대값이 가치함수, 상태 S에서 반환값 G의 기대값으로 표현, 에이전트는 가치함수가 제일 높은 상태를 선택 위의 식들을 이용해 가치함수를 다음과 같이 표현 가능 but 에이전트가 실제로 받은 보상이 아닌 앞으로..

강화학습 2020.01.15

일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

귀차니스트

강화학습 38

티스토리툴바