Hindsight Experience Replay - NIPS 2017 논문의 핵심 - sparse and binary reward 환경을 위한 방법 - 복잡한 reward design 대신 replay buffer에 샘플을 더 추가하는 방법을 사용 - 에이전트에게 하나의 골이 아닌 여러개의 goal을 주는 방법 Introduction Reward design RL에서 reward design은 task마다 조심스럽게 다뤄야 하는 문제. 따라서 RL expertise와 domain-specific knowledge가 필요. 사람의 학습방법에서 영감을 얻어서... 사람은 보통 실패에서도 학습 가능함. 예를 들어 축구공을 차서 골대에 넣어야하는 경우를 생각해보면, 우리는 어떻게 차야지 골대에 공이 들어가는지..