밑바닥부터 시작하는 딥러닝 4권. 강화학습의 기초를 설명하는 책이다. 왜 진작 밑바닥 시리즈를 읽지 않았는지 안타까움이 생길 정도로 단계적으로 이해하기 쉽게 설명하는 책이었다. 이 책을 통해서 겨우, 강화학습을 좀 이해하게 되었다. 지도학습 : 정답지로 배우는 학습비지도 학습 : 데이터로 배우는 학습강화학습 : '행동'과 '보상'(보상은 정답이 아니다)을 통해 trial & error로 배우는 학습. . 시간순서가 없을 때실행횟수가 추가될 때 1/n만큼의 증분으로 표현되는 Qn의 수식을 주목하자.1/n을 임의의 알파로 바꿀수도 있으며, 그러면 그것은 동일가중이 아닌 기하적인 가중치를 의미하게 된다. 이것이 일반적으로 사용되는 증분형태의 가치/Q함수 수식이다. 벨만 방정식앞에서는 시간 순서가 없었으나, 이..