귀차니스트

HER 논문 리뷰

Hindsight Experience Replay - NIPS 2017 논문의 핵심 - sparse and binary reward 환경을 위한 방법 - 복잡한 reward design 대신 replay buffer에 샘플을 더 추가하는 방법을 사용 - 에이전트에게 하나의 골이 아닌 여러개의 goal을 주는 방법 Introduction Reward design RL에서 reward design은 task마다 조심스럽게 다뤄야 하는 문제. 따라서 RL expertise와 domain-specific knowledge가 필요. 사람의 학습방법에서 영감을 얻어서... 사람은 보통 실패에서도 학습 가능함. 예를 들어 축구공을 차서 골대에 넣어야하는 경우를 생각해보면, 우리는 어떻게 차야지 골대에 공이 들어가는지..

강화학습/논문리뷰 2021.09.15

DDPG 논문 리뷰

CONTINOUS CONTROL WITHT DEEP REINFORCEMENT LEARNING - ICLR 2016 논문의 핵심 - DQN을 continous action domain으로 확장 - off-polciy algorithm actor-critic 사용 Introduction 이전 연구 DQN은 high-dimensional observation space에서의 문제(예를 들어 아타리)를 풀어냈는데, discrete and low-dimensional action space에서만 사용 가능하다는 문제점이 존재. 왜냐하면 DQN은 continous and high-dimensional action space에 그대로 적용할 수가 없음. 그래서 DDPG는... model-free, off-policy..

강화학습/논문리뷰 2021.09.15

Reinforcement Learning 책 읽고 공부하기(4-2)

sutton 교수의 Reinforcement Learning An Introduction을 읽고 공부하기 4.3 Policy Iteration 일단 policy \( \pi \)는 더 좋은 policy \( \pi' \)를 만들기 위해 \( v_{\pi} \)를 사용해 개선되었고, 우리는 \( v_{\pi'} \)를 계산해서 더 나은 \( \pi'' \)을 만들기 위해 다시 개선할 수 있다. 따라서 다음과 같이 단조롭게 개선되고 있는 policy와 value function을 얻을 수 있다. 여기서 \( \overset{E}{\rightarrow} \)는 policy evaluation을 나타내고 \( \overset{I}{\rightarrow} \)는 policy improvement를 나타낸다. 각 ..

강화학습/Reinforcement Learning An Introduction 2020.12.14

TF-IDF

TF-IDF(Term Frenquency-Inverse Document Frequency) 여러 문서들로 이루어진 문서군에서 어떤 단어가 특정 문서 내에서 얼마나 중요한 것인지 나타내는 통계적 수치. 문서에서 핵심어를 추출하거나 문서들 사이의 유사도를 구하는 정도로 사용 가능. TF(Term Frequency): 어떤 한 문서에서 해당 단어가 얼마나 자주 나왔는지를 나타내는 것. 예를 들어 현재 문서에서 '문서'라는 단어가 4번 나온다면 현재 문서에서 '문서'라는 단어의 TF=4이 된다. DF(Document Frequency): TF가 한 문서에서 단어가 몇번 등장했는지를 나타내는 것이라면, DF는 몇 개의 문서에서 해당 단어가 등장했는지를 나타낸다. 예를 들어 10개의 문서에서 2개의 문서에 '문서'..

머신러닝 2020.09.07

모두를 위한 RL강좌 정리하기(Lecture7 ~ Lab7)

앞에서는 큐네트워크를 이용해 CartPole문제를 풀려고 했지만 잘 풀리지 않는 것을 보았다. 그건 강화학습+신경망의 문제 때문인데 그 문제는 각 샘플들간의 상관관계와 target이 유동적이기 때문이다. 이 두개가 정말 큰 문제이다. 근데 DQN을 만든 딥마인드는 이 문제들을 풀어냈고 이 것들을 어떻게 풀어냈는지 보자. 일단 첫번째로 샘플들간의 상관관계가 있는데 내가 카트폴을 training 시킨다고 했을 때, 카트폴이 움직일 때 정말 조금조금씩 움직이므로 이렇게 연속적으로 받은 데이터들은 굉장히 유사할 것이다. 그래서 이 데이터(샘플)들 간에 연관성이 있다는 얘기이다. 예를 들어 데이터의 분포가 위와 같을 때 인접한 데이터들끼리만 학습을 시킨다고 하면 그림처럼 전체 데이터와는 아주 다르게 학습을 할 것..

강화학습/RL 강의 정리 2020.08.30

모두를 위한 RL강좌 정리하기(Lecture 6 ~ Lab 6)

이전까지는 강화학습 에이전트를 학습시킬 때 큐테이블을 사용해서 학습시켰다. 이전의 Frozen Lake는 state는 16개, 각각의 action은 4개가 있는 테이블로 만들 수가 있었다. 근데 과연 큐테이블을 Frozen Lake뿐만 아니라 좀 더 어려운 예제에 적용시킬 수가 있을까 답은 힘들다. 이 큐테이블은 실생활의 더 어려운 예제에는 적용하기가 힘들다. 예를 들어 100x100의 미로는 100x100x4의 큐테이블로 표현할 수 있지만 만약 그림같은 게임이라면 이는 엄청나게 커지기 때문에 큐 테이블로는 표현하기가 힘들다. 그렇다면 큐테이블을 안쓰고 어떻게 큐함수들을 표현할 수 있을까? 그래서 신경망을 이용해 큐테이블을 근사한다. 이 신경망은 마치 큐테이블처럼 다음과 같이 어떤 state가 input..

강화학습/RL 강의 정리 2020.08.28

모두를 위한 RL강좌 정리하기(Lecture 5 ~ Lab 5)

사실 Frozen Lake라는 환경은 바람도 많이 불고 빙판길을 걸어가다가 미끄러질 수 있는 변수가 많은 환경이다. 그래서 에이전트는 자신이 원하는 곳으로 마음껏 갈 수 있는 것이 아니다. 그러니까 에이전트가 오른쪽으로 가고 싶다고 해서 항상 오른쪽으로 가는 것이 아니라 갑자기 왼쪽으로도 갈 수 있는 환경이 Frozen Lake라는 환경이다. 이번에는 이런 변수가 많은 환경에서 큐러닝을 적용시켜 본다. 위와 같이 변수가 많은 Frozen Lake 환경은 stochastic model이다. 대충 확률론적인 모델이라고 번역할 수 있는데 말했다시피 에이전트가 오른쪽으로 가는 action을 취했다고 해서 반드시 오른쪽으로 갈 수 있는 것이 아니다. 이와 반대로 deterministic model은 변수가 없는 ..

강화학습/RL 강의 정리 2020.08.16

모두를 위한 RL강좌 정리하기(Lecture 4 ~ Lab 4)

Lecture 3에서 프로토타입(?)같은 큐러닝을 배웠다면 여기서는 완전한 큐러닝을 배워보자 일단 저번시간에 본 큐테이블이다. 위의 경우는 에이전트가 우연히 발견한 길인데 딱 보기에도 에이전트가 목표지점에 가는 최적화된 길이 아님을 알 수 있다. 근데 이전에 배웠던 큐함수 식으로 큐값을 업데이트하게 된다면 랜덤하게 길을 찾고 한번 발견한 길로만 계속 가기 때문에 더 좋은 길이 있어도 그 길로 가지 않는다. 그래서 기존의 길이 아닌 새로운 길을 탐험하는 exploration이 필요하다. 강의에서는 이 exploit과 exploration을 음식점을 고르는 것에 비유했다. 내가 음식점을 가던 곳만 가면 더 맛있고 괜찮은 곳이 있어도 알 수가 없다. 그러니까 exploration을 해서 더 좋은 곳을 찾는다는..

강화학습/RL 강의 정리 2020.08.12

모두를 위한 RL강좌 정리하기(Lecture 3 ~ Lab 3)

이번에는 Q러닝에 대해서 배운다.에이전트가 목표를 찾아가는데 있어서 에이전트는 환경을 모르기 때문에 목표까지 어떻게 찾아갈 것인지를 정해야한다. 일단 첫번째로 에이전트는 랜덤하게 이동하면서 목표를 찾아갈 수 있다. 근데 다만, 이것보다는 이제부터 목표를 찾아가는 새로운 기준이 생기는데 그게 바로 Q다.Q는 에이전트에게 현재 상태에서 어디로 가야할지를 알려주는 것이라고 할 수 있다. 에이전트는 환경에 대해서는 잘 모르지만 Q를 알고 이 정보를 가지고 어디로 갈지를 결정하게 된다.Q함수는 다음과 같이 이루어져 있다. 즉 어떤 상태(state)와 행동(action)을 인풋으로 주면 그에 맞는 Q값이 리턴되는 것이다. 이런 함수같은 구조 때문에 Q함수라고도 부른다. 큐함수를 아는 에이전트는 그러면 이를 어떻게 ..

강화학습/RL 강의 정리 2020.08.11

Realtek rtl8822ce driver 리눅스에 설치하기

노트북을 새로 사고 리눅스를 설치했는데 와이파이가 잡히지 않는다근데 랜카드가 신제품인건지 뭔지 검색해도 정보가 잘 안나옴... 그래도 열심히 검색 그러다가 나랑 아주 똑같은 증상인 사람을 발견https://askubuntu.com/questions/1155793/18-04-no-wifi-adapter-found-asus-tuf-fx505du-wireless-connection-issues sudo apt install --install-recommends linux-generic-hwe-18.04 xserver-xorg-hwe-18.04그런 다음 재부팅하니 아주 잘된다.리눅스가 그래픽 드라이버도 제대로 못잡아서 해상도도 HD였는데 FHD로 잘 잡아줬다.아마 하드웨어에 맞게 드라이버를 전체적으로 잡아주는 ..

ETC 2020.05.28

귀차니스트

전체 글 44

티스토리툴바

« 2026/02 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28