본문 바로가기
장바구니0

단단한 강화학습 > 컴퓨터공학

상품간략정보 및 구매기능

단단한 강화학습

기본설명

상품 선택옵션 0 개, 추가옵션 0 개

제조사 제이펍
원산지 국내산
브랜드 제이펍
시중가격 35,000원
판매가격 31,500원
배송비결제 주문시 결제
최소구매수량 1 개
최대구매수량 999 개
  • 단단한 강화학습
    +0원

관련상품

등록된 관련상품이 없습니다.

  • 상품 정보

    상품 상세설명

    단단한 강화학습

    9791190665179.jpg

    도서명:단단한 강화학습
    저자/출판사:리처드,서튼,앤드류,바르토/제이펍
    쪽수:664쪽
    출판일:2020-03-31
    ISBN:9791190665179

    목차
    CHAPTER 01 소개 1
    1.1 강화학습 2
    1.2 예제 5
    1.3 강화학습의 구성 요소 7
    1.4 한계와 범위 9
    1.5 확장된 예제: 틱택토 10
    1.6 요약 16
    1.7 강화학습의 초기 역사 17
    참고문헌 27

    PART I 표 형태의 해법
    CHAPTER 02 다중 선택 31
    2.1 다중 선택 문제 32
    2.2 행동 가치 방법 34
    2.3 10중 선택 테스트 35
    2.4 점증적 구현 38
    2.5 비정상 문제의 흔적 40
    2.6 긍정적 초깃값 42
    2.7 신뢰 상한 행동 선택 44
    2.8 경사도 다중 선택 알고리즘 46
    2.9 연관 탐색(맥락적 다중 선택) 50
    2.10 요약 51
    참고문헌 및 역사적 사실 54

    CHAPTER 03 유한 마르코프 결정 과정 57
    3.1 에이전트-환경 인터페이스 58
    3.2 목표와 보상 64
    3.3 보상과 에피소드 66
    3.4 에피소딕 작업과 연속적인 작업을 위한 통합 표기법 69
    3.5 정책과 가치 함수 70
    3.6 최적 정책과 최적 가치 함수 76
    3.7 최적성과 근사 82
    3.8 요약 83
    참고문헌 및 역사적 사실 84

    CHAPTER 04 동적 프로그래밍 89
    4.1 정책 평가(예측) 90
    4.2 정책 향상 94
    4.3 정책 반복 97
    4.4 가치 반복 100
    4.5 비동기 동적 프로그래밍 103
    4.6 일반화된 정책 반복 104
    4.7 동적 프로그래밍의 효율성 106
    4.8 요약 107
    참고문헌 및 역사적 사실 109

    CHAPTER 05 몬테카를로 방법 111
    5.1 몬테카를로 예측 112
    5.2 몬테카를로 행동 가치 추정 118
    5.3 몬테카를로 제어 119
    5.4 시작 탐험 없는 몬테카를로 제어 123
    5.5 중요도추출법을 통한 비활성 정책 예측 126
    5.6 점증적 구현 133
    5.7 비활성 몬테카를로 제어 135
    5.8 할인을 고려한 중요도추출법 138
    5.9 결정 단계별 중요도추출법 139
    5.10 요약 141
    참고문헌 및 역사적 사실 143

    CHAPTER 06 시간차 학습 145
    6.1 TD 예측 146
    6.2 TD 예측 방법의 좋은점 150
    6.3 TD(0)의 최적성 153
    6.4 살사: 활성 정책 TD 제어 157
    6.5 Q 학습: 비활성 정책 TD 제어 160
    6.6 기댓값 살사 162
    6.7 최대화 편차 및 이중 학습 163
    6.8 게임, 이후상태, 그 밖의 특별한 경우들 166
    6.9 요약 168
    참고문헌 및 역사적 사실 169

    CHAPTER 07 n단계 부트스트랩 171
    7.1 n단계 TD 예측 172
    7.2 n단계 살사 177
    7.3 n단계 비활성 정책 학습 179
    7.4 제어 변수가 있는 결정 단계별 방법 181
    7.5 중요도추출법을 사용하지 않는 비활성 정책 학습: n단계 트리 보강 알고리즘 184
    7.6 통합 알고리즘: n단계 Q(σ) 187
    7.7 요약 189
    참고문헌 및 역사적 사실 190

    CHAPTER 08 표에 기반한 방법을 이용한 계획 및 학습 191
    8.1 모델과 계획 192
    8.2 다이나: 계획, 행동, 학습의 통합 194
    8.3 모델이 틀렸을 때 199
    8.4 우선순위가 있는 일괄처리 202
    8.5 기댓값 갱신 대 표본 갱신 206
    8.6 궤적 표본추출 210
    8.7 실시간 동적 프로그래밍 213
    8.8 결정 시점에서의 계획 217
    8.9 경험적 탐색 219
    8.10 주사위 던지기 알고리즘 221
    8.11 몬테카를로 트리 탐색 223
    8.12 요약 227
    8.13 1부 요약: 차원 228
    참고문헌 및 역사적 사실 231

    PART II 근사적 해법
    CHAPTER 09 근사를 이용한 활성 정책 예측 237
    9.1 가치 함수 근사 238
    9.2 예측 목적(VE) 239
    9.3 확률론적 경사도와 준경사도 방법 241
    9.4 선형 방법 246
    9.5 선형 방법을 위한 특징 만들기 253
    9.6 시간 간격 파라미터를 수동으로 선택하기 268
    9.7 비선형 함수 근사: 인공 신경망 269
    9.8 최소 제곱 TD 275
    9.9 메모리 기반 함수 근사 278
    9.10 커널 기반 함수 근사 280
    9.11 활성 정책 학습에 대한 보다 깊은 관찰: 관심과 강조 282
    9.12 요약 285
    참고문헌 및 역사적 사실 286

    CHAPTER 10 근사를 적용한 활성 정책 제어 293
    10.1 에피소딕 준경사도 제어 294
    10.2 준경사도 n단계 살사 297
    10.3 평균 보상: 연속적 작업을 위한 새로운 문제 설정 300
    10.4 할인된 설정에 대한 반대 304
    10.5 미분 준경사도 n단계 살사 307
    10.6 요약 308
    참고문헌 및 역사적 사실 308

    CHAPTER 11 근사를 활용한 비활성 정책 방법 311
    11.1 준경사도 방법 312
    11.2 비활성 정책 발산의 예제 315
    11.3 치명적인 삼위일체 320
    11.4 선형 가치 함수 기하 구조 322
    11.5 벨만 오차에서의 경사도 강하 327
    11.6 벨만 오차는 학습할 수 없다 332
    11.7 경사도 TD 방법 337
    11.8 강한 TD 방법 341
    11.9 분산 줄이기 343
    11.10 요약 345
    참고문헌 및 역사적 사실 346

    CHAPTER 12 적격 흔적 349
    12.1 λ 이득 350
    12.2 TD(λ) 355
    12.3 중단된 n단계 λ 이득 방법 359
    12.4 다시 갱신하기: 온라인 λ 이득 알고리즘 361
    12.5 진정한 온라인 TD(λ) 363
    12.6 몬테카를로 학습에서의 더치 흔적 366
    12.7 살사(λ) 368
    12.8 가변 λ 및 γ 372
    12.9 제어 변수가 있는 비활성 정책 흔적 374
    12.10 왓킨스의 Q(λ)에서 트리 보강(λ)로 378
    12.11 흔적을 이용한 안정적인 비활성 정책 방법 381
    12.12 구현 이슈 383
    12.13 결론 384
    참고문헌 및 역사적 사실 386

    CHAPTER 13 정책 경사도 방법 389
    13.1 정책 근사 및 정책 근사의 장점 390
    13.2 정책 경사도 정리 393
    13.3 REINFORCE: 몬테카를로 정책 경사도 395
    13.4 기준값이 있는 REINFORCE 399
    13.5 행동자-비평자 방법 401
    13.6 연속적인 문제에 대한 정책 경사도 403
    13.7 연속적 행동을 위한 정책 파라미터화 406
    13.8 요약 408
    참고문헌 및 역사적 사실 409

    PART III 더 깊이 들여다보기
    CHAPTER 14 심리학 413
    14.1 예측과 제어 414
    14.2 고전적 조건화 416
    14.3 도구적 조건화 433
    14.4 지연된 강화 438
    14.5 인지 지도 440
    14.6 습관적 행동과 목표 지향적 행동 442
    14.7 요약 447
    참고문헌 및 역사적 사실 449

    CHAPTER 15 신경과학 457
    15.1 신경과학 기본 458
    15.2 보상 신호, 강화 신호, 가치, 예측 오차 460
    15.3 보상 예측 오차 가설 463
    15.4 도파민 465
    15.5 보상 예측 오차 가설에 대한 실험적 근거 469
    15.6 TD 오차/도파민 유사성 473
    15.7 신경 행동자-비평자 479
    15.8 행동자와 비평자 학습 규칙 482
    15.9 쾌락주의 뉴런 488
    15.10 집단적 강화학습 490
    15.11 뇌에서의 모델 기반 방법 494
    15.12 중독 496
    15.13 요약 497
    참고문헌 및 역사적 사실 501

    CHAPTER 16 적용 및 사례 연구 511
    16.1 TD-가몬 511
    16.2 사무엘의 체커 선수 518
    16.3 왓슨의 이중 내기 522
    16.4 메모리 제어 최적화 526
    16.5 인간 수준의 비디오 게임 실력 531
    16.6 바둑 게임에 통달하다 539
    16.7 개인화된 웹 서비스 550
    16.8 열 상승 554

    CHAPTER 17 프론티어 559
    17.1 일반적인 가치 함수 및 보조 작업 559
    17.2 옵션을 통한 시간적 추상화 562
    17.3 관측과 상태 565
    17.4 보상 신호의 설계 572
    17.5 남아 있는 이슈들 576
    17.6 인공지능의 미래 580
    참고문헌 및 역사적 사실 584

    참고문헌 588
    찾아보기 626
    delivery.jpg
  • 사용후기

    사용후기가 없습니다.

  • 상품문의

    상품문의가 없습니다.

  • 배송/교환정보

    배송정보

    배송업체 : 한진택배 (1588-0011)
     배송비
     2,500원 (25,000원 이상 구매 시 무료 배송/일부상품제외) 군부대 및 도서산간 지역은 추가 배송비가 발생할 수 있습니다.
     ◆배송기간
     : 평일 오전 7시 이전 주문 시 당일 발송 (2~3일 소요) : 단, 공휴일, 연휴, 천재지변 등으로 인해 발송이 지연될 수 있습니다.
     ◆배송추적
     : 당일 발송건에 한해 익일 오전 9시 이후 확인 가능합니다.


    교환/반품

     ◆반품/교환을 원하는 경우 반드시 고객센터로 연락 후 신청하시기 바랍니다.
     ◆반품/교환은 상품 수령일로 부터 7일 이내에만 가능합니다. 단, 상품이 훼손되지 않았거나, 속 비닐이 있는 경우 듣지 않았을    때 가능합니다.
     •고객님의 변심 또는 잘못 주문하신 경우에는 왕복 배송비는 고객님의 부담입니다.
     ◆오배송, 파본, 불량 상품에 대해서는 고객센터로 연락주시면 상담 후 교환해 드립니다.
     ◆오배송, 파본, 불량상품의 배송비는 환불처에서 부담합니다.
     교환/반품
     ◆환불은 상품이 환불에 도착 시 처리됩니다. (카드 취소는 3~5일이 소요될 수 있습니다.)

고객센터 1234-5678

회사명 (주)꼭대기 주소 서울 특별시 마포구 연희로 11,5층 S-537호
사업자 등록번호 795-87-00429 대표 오주봉 전화 02-356-5779 팩스 02-356-5779
통신판매업신고번호 제2017-서울마포-0052호 개인정보 보호책임자 dhwnqhd

Copyright © 2001-2013 (주)꼭대기. All Rights Reserved.

상단으로