OpenAI gym의 FrozenLake-v0를 이용해 PolicyIteration을 구현해보자 import gym import numpy as np GAMMA=0.9 THRESHOLD = 1e-10 INIT_POLICY=[0.25,0.25,0.25,0.25] EPSIODE = 100 일단 다음과 같이 선언함 감가율인 감마는 0.9로 업데이트하기 전의 가치함수와 업데이트 후의 가치함수를 비교해 임계값보다 같거나 낮으면 반복 중단 각 상태의 초기 정책은 모두 동일하게 설정 env = gym.make('FrozenLake-v0') 다음으로 환경을 만들자 # 현재 정책에 대한 참 가치함수를 리턴 def policy_evaluation(env, value_func, policy): after_value_func..