큐러닝의 경우 살사와 너무 유사해서 이번에는 다른 예제를 가지고 큐러닝을 해보자. 이번의 예제는 OpenAI gym의 Taxi-v1. 일단 Taxi-v1의 깃허브 코드를 보며 state와 action 등에 대해서 파악. Description 에피소드가 시작하면 택시는 랜덤한 위치에서 시작하고 승객은 랜덤한 location(위치, R,G,B,Y)에서 시작한다. 택시 드라이버는 승객의 위치로 가서 승객을 태우고 승객의 목적지로 간다. 여기서 목적지는 승객이 출발하는 위치를 제외한 나머지 위치 중 하나이다. 승객이 목적지에서 내리면 에피소드는 끝난다. observations 500개의 이산적인 states들이 있는데 25개의 taxi 위치, 승객의 위치(택시 안에 있는것도 포함) 5개 그리고 4개의 목적지를 ..