본문 바로가기
장바구니0

파이썬과 케라스로 배우는 강화학습 > 프로그래밍/언어

상품간략정보 및 구매기능

파이썬과 케라스로 배우는 강화학습

기본설명

상품 선택옵션 0 개, 추가옵션 0 개

제조사 위키북스
원산지 국내산
브랜드 위키북스
시중가격 28,000원
판매가격 25,200원
배송비결제 주문시 결제
최소구매수량 1 개
최대구매수량 999 개
  • 파이썬과 케라스로 배우는 강화학습
    +0원

관련상품

등록된 관련상품이 없습니다.

  • 상품 정보

    상품 상세설명

    파이썬과 케라스로 배우는 강화학습

    9791158392017.jpg

    도서명:파이썬과 케라스로 배우는 강화학습
    저자/출판사:이웅원,양혁렬,김건우,이영무,이의령/위키북스
    쪽수:380쪽
    출판일:2020-04-07
    ISBN:9791158392017

    목차
    [1부] 강화학습 소개

    ▣ 1장: 강화학습 개요
    ___강화학습의 개념
    ___스키너의 강화 연구
    ___우리 주변에서의 강화
    ___머신러닝과 강화학습
    ___스스로 학습하는 컴퓨터, 에이전트
    강화학습 문제
    ___순차적 행동 결정 문제
    ___순차적 행동 결정 문제의 구성 요소
    ___방대한 상태를 가진 문제에서의 강화학습
    강화학습의 예시: 브레이크아웃
    ___딥마인드에 의해 다시 빛을 본 아타리 게임
    ___브레이크아웃의 MDP와 학습 방법
    정리
    ___강화학습의 개념
    ___강화학습 문제
    ___강화학습의 예시: 브레이크아웃

    [2부] 강화학습 기초

    ▣ 2장: 강화학습 기초 1 - MDP와 벨만 방정식
    MDP
    ___상태
    ___행동
    ___보상함수
    ___상태 변환 확률
    ___할인율
    ___정책
    가치함수
    ___가치함수
    큐함수
    벨만 방정식
    ___벨만 기대 방정식
    ___벨만 최적 방정식
    정리
    ___MDP
    ___가치함수
    ___벨만 방정식

    ▣ 3장: 강화학습 기초 2 - 그리드월드와 다이내믹 프로그래밍
    다이내믹 프로그래밍과 그리드월드
    ___순차적 행동 결정 문제
    ___다이내믹 프로그래밍
    ___격자로 이뤄진 간단한 예제: 그리드월드
    다이내믹 프로그래밍 1: 정책 이터레이션
    ___강화학습 알고리즘의 흐름
    ___정책 이터레이션
    ___정책 평가
    ___정책 발전
    ___정책 이터레이션 코드 설명
    ___정책 이터레이션 코드 실행
    다이내믹 프로그래밍 2: 가치 이터레이션
    ___명시적인 정책과 내재적인 정책
    ___벨만 최적 방정식과 가치 이터레이션
    ___가치 이터레이션 코드 설명
    ___가치 이터레이션 코드 실행
    다이내믹 프로그래밍의 한계와 강화학습
    ___다이내믹 프로그래밍의 한계
    ___모델 없이 학습하는 강화학습
    정리
    ___다이내믹 프로그래밍과 그리드월드
    ___다이내믹 프로그래밍 1: 정책 이터레이션
    ___다이내믹 프로그래밍 2: 가치 이터레이션
    ___다이내믹 프로그래밍의 한계와 강화학습

    ▣ 4장: 강화학습 기초 3 - 그리드월드와 큐러닝
    강화학습과 정책 평가 1: 몬테카를로 예측
    ___사람의 학습 방법과 강화학습의 학습 방법
    ___강화학습의 예측과 제어
    ___몬테카를로 근사의 예시
    ___샘플링과 몬테카를로 예측
    강화학습과 정책 평가 2: 시간차 예측
    ___시간차 예측
    강화학습 알고리즘 1: 살사
    ___살사
    ___살사 코드 설명
    ___살사 코드의 실행 및 결과
    강화학습 알고리즘 2: 큐러닝
    ___살사의 한계
    ___큐러닝 이론
    ___큐러닝 코드 설명
    ___큐러닝 코드의 실행 결과
    정리
    ___강화학습과 정책 평가 1: 몬테카를로 예측
    ___강화학습과 정책 평가 2: 시간차 예측
    ___강화학습 알고리즘 1: 살사
    ___강화학습 알고리즘 2: 큐러닝

    [3부] 강화학습 심화

    ▣ 5장: 강화학습 심화 1 - 그리드월드와 근사함수
    근사함수
    ___몬테카를로, 살사, 큐러닝의 한계
    ___근사함수를 통한 가치함수의 매개변수화
    인공신경망
    ___인공신경망 1: 인공신경망의 개념
    ___인공신경망 2: 노드와 활성함수
    ___인공신경망 3: 딥러닝
    ___인공신경망 4: 신경망의 학습
    인공신경망 라이브러리: 케라스
    ___텐서플로 2.0과 케라스 소개
    ___간단한 케라스 예제
    딥살사
    ___딥살사 이론
    ___딥살사 코드 설명
    ___딥살사의 실행 및 결과
    폴리시 그레이디언트
    ___정책 기반 강화학습
    ___폴리시 그레이디언트
    ___REINFORCE 코드 설명
    ___REINFORCE의 실행 및 결과
    정리
    ___근사함수
    ___인공신경망
    ___인공신경망 라이브러리: 케라스
    ___딥살사
    ___폴리시 그레이디언트

    ▣ 6장: 강화학습 심화 2 - 카트폴
    알고리즘 1: DQN
    ___카트폴 예제의 정의
    ___DQN 이론
    ___DQN 코드 설명
    ___DQN 실행 및 결과
    알고리즘 2: 액터-크리틱
    ___액터-크리틱 이론 소개
    ___액터-크리틱 코드 설명
    ___액터-크리틱 실행 및 결과
    ___연속적 액터-크리틱 이론 소개
    ___연속적 액터-크리틱 코드 설명
    ___연속적 액터-크리틱 실행 및 결과
    정리
    ___알고리즘 1: DQN
    ___알고리즘 2: 액터-크리틱

    ▣ 7장: 강화학습 심화 3 - 아타리
    브레이크아웃 DQN
    ___아타리: 브레이크아웃
    ___컨볼루션 신경망(CNN)이란?
    ___브레이크아웃의 컨볼루션 신경망
    ___DQN 학습 전 준비 사항
    ___DQN 코드 설명
    ___텐서보드 사용법
    ___브레이크아웃 DQN 실행 및 결과
    브레이크아웃 A3C
    ___DQN의 한계
    ___A3C란?
    ___멀티스레딩 소개
    ___브레이크아웃 A3C 코드 설명
    ___브레이크아웃 A3C 실행 결과
    정리
    ___브레이크아웃 DQN
    ___브레이크아웃 A3C

    ▣ 참고문헌
    delivery.jpg
  • 사용후기

    사용후기가 없습니다.

  • 상품문의

    상품문의가 없습니다.

  • 배송/교환정보

    배송정보

    배송업체 : 한진택배 (1588-0011)
     배송비
     2,500원 (25,000원 이상 구매 시 무료 배송/일부상품제외) 군부대 및 도서산간 지역은 추가 배송비가 발생할 수 있습니다.
     ◆배송기간
     : 평일 오전 7시 이전 주문 시 당일 발송 (2~3일 소요) : 단, 공휴일, 연휴, 천재지변 등으로 인해 발송이 지연될 수 있습니다.
     ◆배송추적
     : 당일 발송건에 한해 익일 오전 9시 이후 확인 가능합니다.


    교환/반품

     ◆반품/교환을 원하는 경우 반드시 고객센터로 연락 후 신청하시기 바랍니다.
     ◆반품/교환은 상품 수령일로 부터 7일 이내에만 가능합니다. 단, 상품이 훼손되지 않았거나, 속 비닐이 있는 경우 듣지 않았을    때 가능합니다.
     •고객님의 변심 또는 잘못 주문하신 경우에는 왕복 배송비는 고객님의 부담입니다.
     ◆오배송, 파본, 불량 상품에 대해서는 고객센터로 연락주시면 상담 후 교환해 드립니다.
     ◆오배송, 파본, 불량상품의 배송비는 환불처에서 부담합니다.
     교환/반품
     ◆환불은 상품이 환불에 도착 시 처리됩니다. (카드 취소는 3~5일이 소요될 수 있습니다.)

고객센터 1234-5678

회사명 (주)꼭대기 주소 서울 특별시 마포구 연희로 11,5층 S-537호
사업자 등록번호 795-87-00429 대표 오주봉 전화 02-356-5779 팩스 02-356-5779
통신판매업신고번호 제2017-서울마포-0052호 개인정보 보호책임자 dhwnqhd

Copyright © 2001-2013 (주)꼭대기. All Rights Reserved.

상단으로