강화학습 이론&실습

도서명:강화학습 이론&실습
저자/출판사:황현석/비제이퍼블릭
쪽수:392쪽
출판일:2023-10-04
ISBN:9791165922450
목차
프롤로그
1. 환경 설정
1.1 윈도우 버전
1.2 리눅스 버전
2. 강화 학습을 위한 사전 지식
2.1 머신 러닝과 강화 학습
2.1.1 머신 러닝
2.1.2 강화 학습
2.2 기초 수학
2.2.1 기초 선형 대수
2.2.2 기초 미분과 적분
2.2.3 기초 확률 통계
2.3 최적화
2.3.1 뉴턴-랩슨법(Newton-Raphson method)
2.3.2 경사 하강법(Gradient descent method)
2.4 목적 함수
2.4.1 최소 제곱
2.4.2 확률 엔트로피와 쿨백-라이블러 발산
2.5 인공 신경망
2.5.1 신호 전·후 처리
2.5.2 순방향 전파
2.5.3 역방향 전파
2.6 초간단 파이토치 튜토리얼
2.6.1 MNIST
2.6.2 회귀 분석
2.7 매개 변수 탐색법
2.7.1 격자 탐색법(Grid search)
2.7.2 베이지****탐색법(Bayesian optimization)
3. 마르코프 의사 결정과 동적 계획법 풀이 전략
3.1 마르코프 의사 결정
3.2 동적 계획법
3.3 [실습] 잭의 렌터카 업체 운영 전략 - 동적 계획법을 이용한 마르코프 의사 결정
4. 밸만 방정식부터 강화 학습까지
4.1 몬테-카를로 추정법
4.2 시간차 학습
4.2.1 TD(0)
4.2.2 TD(λ)
4.3 Monte-Carlo vs Temporal Difference
4.4 에이전트 학습
4.4.1 SARSA
4.4.2 Q-learning
4.4.3 실습
5. Q-함수는 신경망에 맡긴다 - DQN
5.1 DQN 208
5.1.1 이론 209
5.1.2 실습 219
5.2 파생 알고리즘 256
5.2.1 DDQN 256
5.2.2 PER 260
6. 즉각적인 학습이 필요할 때 - Policy gradient
6.1 Actor-Critic
6.1.1 이론
6.1.2 실습
6.2 파생 알고리즘
6.2.1 Asynchronous Advantage Actor-Critic
6.2.2 LSTM-Based Advantage Actor-Critic
6.2.3 [고급] Trust Region Policy Optimization
6.2.4 [고급] Proximal Policy Optimization
7. 탐험의 전략 - Model based learning
7.1 사전 지식 - 밴딧 모델
7.2 이론 - Monte-Carlo Tree Search
7.3 실습
7.3.1 CartPole
7.3.2 Tic-Tac-Toe
찾아보기