귀차니스트

  • 홈
  • 태그
  • 방명록

강화학습/논문리뷰 2

HER 논문 리뷰

Hindsight Experience Replay - NIPS 2017 논문의 핵심 - sparse and binary reward 환경을 위한 방법 - 복잡한 reward design 대신 replay buffer에 샘플을 더 추가하는 방법을 사용 - 에이전트에게 하나의 골이 아닌 여러개의 goal을 주는 방법 Introduction Reward design RL에서 reward design은 task마다 조심스럽게 다뤄야 하는 문제. 따라서 RL expertise와 domain-specific knowledge가 필요. 사람의 학습방법에서 영감을 얻어서... 사람은 보통 실패에서도 학습 가능함. 예를 들어 축구공을 차서 골대에 넣어야하는 경우를 생각해보면, 우리는 어떻게 차야지 골대에 공이 들어가는지..

강화학습/논문리뷰 2021.09.15

DDPG 논문 리뷰

CONTINOUS CONTROL WITHT DEEP REINFORCEMENT LEARNING - ICLR 2016 논문의 핵심 - DQN을 continous action domain으로 확장 - off-polciy algorithm actor-critic 사용 Introduction 이전 연구 DQN은 high-dimensional observation space에서의 문제(예를 들어 아타리)를 풀어냈는데, discrete and low-dimensional action space에서만 사용 가능하다는 문제점이 존재. 왜냐하면 DQN은 continous and high-dimensional action space에 그대로 적용할 수가 없음. 그래서 DDPG는... model-free, off-policy..

강화학습/논문리뷰 2021.09.15
이전
1
다음
더보기
프로필사진

귀차니스트

  • 분류 전체보기 (44)
    • 비전 (2)
    • 안드로이드 (1)
    • 신경망 (0)
      • CNN (0)
    • 강화학습 (38)
      • Reinforcement Learni.. (14)
      • RL 강의 정리 (6)
      • RL Introduction 책 요약 (3)
      • OpenAI gym (9)
      • 논문리뷰 (2)
    • ETC (2)
    • 머신러닝 (1)

Tag

강화학습, ai, OpenAI gym, PolicyIteration, Taxi, OpenAI, ValueIteration, 인공지능, Reinforcement Learning,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2025/07   »
일 월 화 수 목 금 토
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

티스토리툴바