이번에는 신경망을 사용할건데 새로운 gym 환경인 OpenAI gym의 CartPole-v1을 사용함. 그리고 tensorflow를 설치해서 사용. Deep SARSA의 경우 원래 구현했던 SARSA 알고리즘에서 state가 실제로 받을 값과 예측한 값을 신경망의 정답과 예측값으로 주어 학습시키는 방법임. 일단 카트폴 예제가 무엇인지 한번 보자. 바로 이런 카트와 폴이 있을 때 카트를 좌 우로 움직여 폴이 떨어지지 않게 하는게 카트폴 문제의 핵심이라고 할 수 있음. Observation 0 : 카트의 위치 1 : 카트의 속도 2 : 폴의 각도 3 : 폴의 각속도 상태는 위와 같이 4개가 있고 각 상태마다 제한된 min max값이 있음. 여기서 확인 Action 0 : 카트를 왼쪽으로 밀기 1 : 카트를 ..