수학으로 풀어보는 강화학습 원리와 알고리즘 > 컴퓨터공학

본문 바로가기
쇼핑몰 검색
  • 회원가입
    2000

    로그인

    다양한 서비스와 이벤트 혜택을 누리실 수 있습니다.

    아이디 비밀번호
수학으로 풀어보는 강화학습 원리와 알고리즘 > 컴퓨터공학

수학으로 풀어보는 강화학습 원리와 알고리즘 요약정보 및 구매

기본설명

상품 선택옵션 0 개, 추가옵션 0 개

제조사 위키북스
원산지 국내산
브랜드 위키북스
시중가격 30,000원
판매가격 27,000원
배송비결제 주문시 결제
최소구매수량 1 개
최대구매수량 999 개

선택된 옵션

  • 수학으로 풀어보는 강화학습 원리와 알고리즘
    +0원
위시리스트

관련상품

등록된 상품이 없습니다.

  • 상품정보
  • 사용후기 0
  • 상품문의 0
  • 배송정보
  • 교환정보
  • 상품정보

    상품 기본설명

    기본설명

    상품 상세설명

    수학으로 풀어보는 강화학습 원리와 알고리즘

    9791158392734.jpg

    도서명:수학으로 풀어보는 강화학습 원리와 알고리즘
    저자/출판사:박성수/위키북스
    쪽수:436쪽
    출판일:2021-09-17
    ISBN:9791158392734

    목차
    ▣ 01장: 강화학습 수학
    1.1 확률과 랜덤 변수
    ___1.1.1 확률
    ___1.1.2 랜덤 변수
    ___1.1.3 누적분포함수와 확률밀도함수
    ___1.1.4 결합 확률함수
    ___1.1.5 조건부 확률함수
    ___1.1.6 독립 랜덤 변수
    ___1.1.7 랜덤 변수의 함수
    ___1.1.8 베이즈 정리
    ___1.1.9 샘플링
    1.2 기댓값과 분산
    ___1.2.1 기댓값
    ___1.2.2 분산
    ___1.2.3 조건부 기댓값과 분산
    1.3 랜덤벡터
    ___1.3.1 정의
    ___1.3.2 기댓값과 공분산 행렬
    ___1.3.3 샘플 평균
    1.4 가우시****분포
    1.5 랜덤 시퀀스
    ___1.5.1 정의
    ___1.5.2 평균함수와 자기 상관함수
    ___1.5.3 마르코프 시퀀스
    1.6 선형 확률 차분방정식
    1.7 표기법
    1.8 중요 샘플링
    1.9 엔트로피
    1.10 KL 발산
    1.11 추정기
    ___1.11.1 최대사후 추정기
    ___1.11.2 최대빈도 추정기
    1.12 벡터와 행렬의 미분
    ___1.12.1 벡터로 미분
    ___1.12.2 행렬로 미분
    1.13 촐레스키 분해
    1.14 경사하강법
    ___1.14.1 배치 경사하강법
    ___1.14.2 확률적 경사하강법
    1.15 경사하강법의 개선
    ___1.15.1 모멘텀
    ___1.15.2 RMSprop
    ___1.15.3 아담
    1.16 손실함수의 확률론적 해석
    ___1.16.1 가우시****오차 분포
    ___1.16.2 베르누이 오차 분포

    ▣ 02장: 강화학습 개념
    2.1 강화학습 개요
    2.2 강화학습 프로세스와 표기법
    2.3 마르코프 결정 프로세스
    ___2.3.1 정의
    ___2.3.2 가치함수
    ___2.3.3 벨만 방정식
    ___2.3.4 벨만 최적 방정식
    2.4 강화학습 방법

    ▣ 03장: 정책 그래디언트
    3.1 배경
    3.2 목적함수
    3.3 정책 그래디언트
    3.4 REINFORCE 알고리즘

    ▣ 04장: A2C
    4.1 배경
    4.2 그래디언트의 재구성
    4.3 분산을 감소시키기 위한 방법
    4.4 A2C 알고리즘
    4.5 A2C 알고리즘 구현
    ___4.5.1 테스트 환경
    ___4.5.2 코드 개요
    ___4.5.3 액터 클래스
    ___4.5.4 크리틱 클래스
    ___4.5.5 에이전트 클래스
    ___4.5.6 학습 결과
    ___4.5.7 전체 코드

    ▣ 05장: A3C
    5.1 배경
    5.2 그래디언트 계산의 문제
    ___5.2.1 샘플의 상관관계
    ___5.2.2 n-스텝 가치 추정
    5.3 비동기 액터-크리틱(A3C) 알고리즘
    5.4 그래디언트 병렬화 방식의 A3C 알고리즘 구현
    ___5.4.1 테스트 환경
    ___5.4.2 코드 개요
    ___5.4.3 액터 클래스
    ___5.4.4 크리틱 클래스
    ___5.4.5 에이전트 클래스
    ___5.4.6 학습 결과
    ___5.4.7 전체 코드
    5.5 데이터 병렬화 방식의 A3C 알고리즘 구현
    ___5.5.1 코드 개요
    ___5.5.2 전체 코드

    ▣ 06장: PPO
    6.1 배경
    6.2 그래디언트의 재구성
    6.3 정책 업데이트와 성능
    6.4 PPO 알고리즘
    6.5 어드밴티지 추정의 일반화 (GAE)
    6.6 PPO 알고리즘 구현
    ___6.6.1 테스트 환경
    ___6.6.2 코드 개요
    ___6.6.3 액터 클래스
    ___6.6.4 크리틱 클래스
    ___6.6.5 에이전트 클래스
    ___6.6.6 학습 결과
    ___6.6.7 전체 코드

    ▣ 07장: DDPG
    7.1 배경 240
    7.2 그래디언트의 재구성
    7.3 DDPG 알고리즘
    7.4 DDPG 알고리즘 구현
    ___7.4.1 테스트 환경
    ___7.4.2 코드 개요
    ___7.4.3 액터 클래스
    ___7.4.4 크리틱 클래스
    ___7.4.5 액터-크리틱 에이전트 클래스
    ___7.4.6 학습 결과
    ___7.4.7 전체 코드

    ▣ 08장: SAC
    8.1 배경
    8.2 소프트 벨만 방정식
    8.3 소프트 정책 개선
    8.4 SAC 알고리즘
    8.5 SAC 알고리즘 구현
    ___8.5.1 테스트 환경
    ___8.5.2 코드 개요
    ___8.5.3 액터 클래스
    ___8.5.4 크리틱 클래스
    ___8.5.5 에이전트 클래스
    ___8.5.6 학습 결과
    ___8.5.7 전체 코드

    ▣ 09장: 모델 기반 강화학습 기초
    9.1 배경
    9.2 최적제어
    ___9.2.1 LQR
    ___9.2.2 확률적 LQR
    ___9.2.3 가우시****LQR
    ___9.2.4 반복적 LQR
    9.3 모델 학습 방법

    ▣ 10장: 로컬 모델 기반 강화학습
    10.1 배경
    10.2 로컬 모델 피팅 기반 LQR
    10.3 로컬 모델 피팅
    ___10.3.1 조건부 가우시****방법
    ___10.3.2 GMM 사전분포를 이용한 로컬 모델 업데이트
    10.4 로컬 제어 법칙 업데이트
    ___10.4.1 대체 비용함수 계산
    ___10.4.2 KL 발산 계산
    ___10.4.3 h 조정
    ___10.4.4 e 조정
    10.5 가우시****LQR을 이용한 강화학습 알고리즘
    10.6 가우시****LQR을 이용한 강화학습 알고리즘 구현
    ___10.6.1 테스트 환경
    ___10.6.2 코드 개요
    ___10.6.3 궤적 생성
    ___10.6.4 로컬 모델 피팅
    ___10.6.5 가우시****LQR
    ___10.6.6 가우시****혼합 모델
    ___10.6.7 LQR-FLM 에이전트 클래스
    ___10.6.8 학습 결과
    ___10.6.9 전체 코드
    10.7 GPS로의 발전

    ▣ 참고문헌
    delivery.jpg
  • 사용후기

    등록된 사용후기

    사용후기가 없습니다.

  • 상품문의

    등록된 상품문의

    상품문의가 없습니다.

  • 배송정보

    배송정보

    배송업체 : 한진택배 (1588-0011)
     배송비
     2,500원 (25,000원 이상 구매 시 무료 배송/일부상품제외) 군부대 및 도서산간 지역은 추가 배송비가 발생할 수 있습니다.
     ◆배송기간
     : 평일 오전 7시 이전 주문 시 당일 발송 (2~3일 소요) : 단, 공휴일, 연휴, 천재지변 등으로 인해 발송이 지연될 수 있습니다.
     ◆배송추적
     : 당일 발송건에 한해 익일 오전 9시 이후 확인 가능합니다.


  • 교환정보

    교환/반품

     ◆반품/교환을 원하는 경우 반드시 고객센터로 연락 후 신청하시기 바랍니다.
     ◆반품/교환은 상품 수령일로 부터 7일 이내에만 가능합니다. 단, 상품이 훼손되지 않았거나, 속 비닐이 있는 경우 듣지 않았을    때 가능합니다.
     •고객님의 변심 또는 잘못 주문하신 경우에는 왕복 배송비는 고객님의 부담입니다.
     ◆오배송, 파본, 불량 상품에 대해서는 고객센터로 연락주시면 상담 후 교환해 드립니다.
     ◆오배송, 파본, 불량상품의 배송비는 환불처에서 부담합니다.
     교환/반품
     ◆환불은 상품이 환불에 도착 시 처리됩니다. (카드 취소는 3~5일이 소요될 수 있습니다.)

장바구니

오늘본상품

오늘 본 상품

  • 수학으로 풀어보는 강화학습 원리와 알고리즘
    수학으로 풀어보는 27,000

위시리스트

  • 보관 내역이 없습니다.
회사명 (주)꼭대기 주소 서울 특별시 마포구 연희로 11,5층 S-537호
사업자 등록번호 795-87-00429 대표 오주봉 전화 02-356-5779 팩스 02-356-5779
통신판매업신고번호 제2017-서울마포-0052호 개인정보 보호책임자 dhwnqhd

Copyright © 2001-2013 (주)꼭대기. All Rights Reserved.