가치함수 에이전트가 어떤 정책이 더 좋은 정책인지 판단하는 기준, 현재 선택한 정책에서 예상되는 보상의 합 하나의 에피소드를 진행할 때 현재 시점 t에서 에이전트가 어떤 행동을 하면서 받을 보상을 다 합치면 다음과 같이 표현 가능 현재 받을 보상과 나중에 받을 보상은 다르기 때문에 감가율을 고려해 시간이 지날수록 받는 보상은 감소, 이를 반환값 G로 표현, 반환값은 에이전트가 에피소드를 끝낸 후 실제로 받은 과거의 보상들을 정산한 것 어떠한 상태에 있을 때 앞으로 얼마의 보상을 받을 것인지에 대한 기대값이 가치함수, 상태 S에서 반환값 G의 기대값으로 표현, 에이전트는 가치함수가 제일 높은 상태를 선택 위의 식들을 이용해 가치함수를 다음과 같이 표현 가능 but 에이전트가 실제로 받은 보상이 아닌 앞으로..