sutton 교수의 Reinforcement Learning An Introduction을 읽고 공부하기 2.4 Incremental Implementation 모든 action-value의 추정값은 관찰한 reward들의 sample average값이다. 이러한 평균을 효과적으로 계산할 수 있는 방법을 알아본다. 단일 action에만 집중하기 위해 표기를 단순화한다. \( {R}_{i} \)는 i번째 action을 선택한 후 받는 reward다. \( {Q}_{n} \)은 n-1번째까지 action을 선택한 후의 action value의 추정값이다. 아래와 같이 쓸 수 있다. $$ {Q}_{n} \doteq \frac{ {R}_{1}+{R}_{2}+ \cdot\cdot\cdot + {R}_{n-1} }..