강화학습/논문리뷰

DDPG 논문 리뷰

APinCan 2021. 9. 15. 23:00

CONTINOUS CONTROL WITHT DEEP REINFORCEMENT LEARNING - ICLR 2016

 

논문의 핵심

 - DQN을 continous action domain으로 확장

 - off-polciy algorithm actor-critic 사용

 

Introduction

이전 연구

DQN은 high-dimensional observation space에서의 문제(예를 들어 아타리)를 풀어냈는데, discrete and low-dimensional action space에서만 사용 가능하다는 문제점이 존재. 왜냐하면 DQN은 continous and high-dimensional action space에 그대로 적용할 수가 없음.

그래서 DDPG는...

model-free, off-policy actor-critic 알고리즘을 사용해 high-dimensional continuous action space에서 policy를 학습하게 함. 

 

Algorithm

기본적으로...

이 논문은 DQN의 방법론과 actor-critic을 사용하기 때문에 이 두가지 방법에 대한 기본적인 지식이 필수

DQN을 continouus action space에 적용하기 위한 방법

Q-learning을 continous action space에 그대로 적용하는 것은 불가능. 왜냐하면 Q-learning에서는 greedy policy를 사용해서 매번 step마다 가장 큰 Q value를 갖는 action을 찾고 optimization을 함. 하지만 continous action space에서는 이런 optimziation이 너무나 큰 action space이기 때문에 불가능.

그래서 저자가 사용한 것은...

따라서 저자는 DPG를 기반으로 한 actor-critic 접근법을 사용. 그리고 이를 neural network으로 approximate한 것이 DDPG. 근데 단순히 DPG를 approximate해서는 안됨.

왜 안되지?

기본적으로 neural network는 샘플이 i.i.d.해야하는데 RL의 경우 샘플들이 sequential하기 때문에 이런 가정을 위반하게 됨. 그래서 저자들은 DQN처럼 replay buffer를 사용해 이런 문제를 해결하고자 했음. 그래서 replay buffer에서 미니배치로 샘플을 뽑아 neural network를 학습시킴.

i.i.d만 문제일까?

Q-learning에 그대로 neural network를 사용한다면 학습이 매우 unstable하기 때문에 DQN에서 타겟 네트워크를 만들어서 임시적으로 Q 값을 고정시키는 방법을 여기서도 적용. 다만 actor-critic에 맞게 수정을해서 'soft' target update를 사용함. soft target update는 target network를 update할 때 가중치에 따라서 업데이트 전의 target network를 어느정도 유지함. 따라서 target value는 매우 느리게 변화하므로 learning stability가 올라가게 됨. 다만 learning속도는 느림.

근데 기존의 Q-learning에 맞는 exploration은 안될텐데?

continous action space의 가장 중요한 문제는 exploration. 저자들은 noise를 추가해서 exploraiton을 수행함. 저자들이 추가한 노이즈는 Ornstein-Uhlenbeck process. ( 사실 이게 어떤 노이즈인지는 잘 모르겠음. 다만 이 노이즈뿐만 아니라 가우시안 노이즈 등 다른 것들도 사용 가능)

이건 약간 다른 문제

이거는 observation과 관련된 문제. 저자들은 low dimensinal feature vector observation에서 학습을 하려고 하는데 vector 안에 다양한 component들이 존재하고 이런 component들의 value는 environment마다 다름. 이는 network의 하이퍼파라미터 튜닝을 힘들게 하므로 저자들은 batch normalization을 사용함.

요거는 알고리즘

 

Experiments

저자들은 low-dimensional state descrionption과 high-dienional rendering에서 실험을 수행.

MuJoCo 환경과 Torcs

결과는 성공적.

 

 

Summary

 - 기본적인 네트워크 디자인은 Deep Deterministic Policy Gradient

 - 여기에다가 DQN에서 아이디어를 얻은 replay buffer와 soft traget update를 적용

 - explorationo은 noise를 이용해서 수행

 

Reference

 [1] https://arxiv.org/abs/1509.02971

'강화학습 > 논문리뷰' 카테고리의 다른 글

HER 논문 리뷰  (0) 2021.09.15