프랙티컬 머신 러닝
도서명:프랙티컬 머신 러닝
저자/출판사:수닐라,골라푸디/에이콘출판
쪽수:572쪽
출판일:2017-05-25
ISBN:9788960777170
목차
1장. 머신 러닝의 소개
__머신 러닝
__머신 러닝의 정의
____머신 러닝 관련 핵심 개념과 주요 용어
____학습이란?
______데이터
______레이블이 있는 데이터와 레이블이 없는 데이터
______태스크
______알고리즘
______모델
____머신 러닝에서 데이터와 비일관성
______과소적합
______과적합
______데이터 불안정성
____실무 관점의 머신 러닝 주요 사례
______예측 불가한 데이터 포맷
______분류
____학습 알고리즘의 유형
______클러스터링
______전망, 예측, 회귀
______시뮬레이션
______최적화
______지도 학습
______준지도 학습
______비지도 학습
______강화 학습
______딥러닝
____성능 측정 함수
______분석 결과가 적정한가?
______평균제곱 오차(MSE)
______평균 절대 오차(MAE)
______정규화 MSE와 MAE(NMSE와 NMAE)
______에러 처리: 바이어스와 분산
____머신 러닝의 주요 분야
______데이터 마이닝
______인공지능
______통계 학습
______데이터 과학
____머신 러닝 프로세스 라이프 사이클과 솔루션 아키텍처
____머신 러닝 알고리즘
______의사 결정 트리 기반 알고리즘
______베이지언 기법 기반 알고리즘
______커널 기법 기반 알고리즘
______클러스터링 기법
______인공 신경망 기법(ANN)
______디멘전 축소화
______앙상블 기법
______인스턴스 기반 학습 알고리즘
______회귀 분석 기반 알고리즘
______연관 규칙 기반 학습 알고리즘
____머신 러닝 툴과 프레임워크
____요약
2장. 머신 러닝과 대규모 데이터셋
__빅데이터 및 대규모 분석을 위한 머신 러닝
____기능적 관점과 구조적 관점 : 방법론 측면에서의 미스매치
______정보의 상품화
______RDBMS가 갖는 이론적 한계
______저장소 스케일업과 스케일아웃
______분산형, 병렬형 컴퓨팅 전략
____머신 러닝: 확장성 및 성능 관점
______매우 많은 데이터 관점이나 인스턴스
______매우 많은 어트리뷰트나 피처
______응답 시간 윈도우 단축: 실시간 응답을 위해 필요
______매우 복잡한 알고리즘
______피드 포워드, 반복 예측 사이클
____모델 선정 프로세스
____대규모 머신 러닝 작업에서 주의할 사항
__알고리즘과 동시 실행
____동시 실행 알고리즘의 개발
__스케일업 머신 러닝을 위한 기술과 구현 방법
____맵리듀스 프로그래밍 패러다임
____메시지 패싱 인터페이스(MPI)를 지닌 고성능 컴퓨팅(HPC)
____LINQ 프레임워크
____LINQ를 이용한 데이터셋 가공 작업
____GPU
____FPGA
____멀티코어 또는 멀티프로세서 시스템
__요약
3장. 하둡 아키텍처와 하둡 에코시스템
__아파치 하둡의 소개
____하둡의 진화(플랫폼의 선택)
____하둡 플랫폼과 하둡의 핵심 요소
__빅데이터를 위한 (하둡 기반) 머신 러닝 솔루션 아키텍처
____데이터 소스 계층
____유입 계층
____하둡 스토리지 계층
____하둡 (물리) 인프라스트럭처 계층: 어플라이언스 지원
____하둡 플랫폼/처리 계층
____분석 계층
____소비 계층
______시각화를 이용한 데이터 설명 및 탐색
______보안과 모니터링 계층
______하둡 핵심 구성 요소 프레임워크
______HDFS에서 데이터 읽기/쓰기 작업
______장애 처리
______HDFS 커맨드라인
______RESTFul HDFS
__맵리듀스
____맵리듀스 아키텍처
____대규모 데이터셋에 맵리듀스가 필요한가?
____맵리듀스 전체 실행 흐름과 구성 요소
____맵리듀스 구성 요소 개발
__하둡 2.x
____하둡 에코시스템 구성 요소
____하둡 설치와 환경 설정
______JDK 1.7 설치
______하둡을 위한 시스템 유저 생성
______IPv6 비활성화
______하둡 2.6.0 설치 방법
______하둡 시작
____하둡 배포판 및 주요 업체
__요약
4장. 머신 러닝 툴과 라이브러리, 프레임워크
__머신 러닝 툴: landscape
__아파치 머하웃
____머하웃 동작 원리
____아파치 머하웃 설치와 설정
______메이븐 설정 방법
______이클립스 IDE를 이용한 아파치 머하웃 설정
______이클립스 없이 아파치 머하웃 설정
____머하웃 패키지 구성
____머하웃에서 벡터 구현
__R
____R 설치와 설정
____아파치 하둡과 R 통합
______방법 1: R과 하둡의 스트리밍 API를 이용
______방법 2: R의 Rhipe 패키지를 이용
______방법 3: RHadoop을 이용
______R/하둡 통합 방법 요약
____(예제를 이용한) R 프로그래밍
______R 표현식
______R 벡터
______R 행렬
______R 팩터
______R 데이터 프레임
______R 통계 프레임워크
______줄리아
______줄리아 설치와 설정
______줄리아 커맨드라인 버전을 다운로드해 사용
______주노 IDE를 이용한 줄리아 실행
______웹 브라우저에서 줄리아 실행
____커맨드라인에서 줄리아 코드 실행
____줄리아 코드 구현(예제)
____변수와 할당문 이용
______수치 기본 요소
______데이터 구조
______문자열과 문자열 조작 작업
______패키지
______연동 기법
______그래픽과 플로팅 방법
____줄리아의 장점
____줄리아와 하둡의 통합
__파이썬
____파이썬 툴킷 옵션
____(예제를 이용한) Python 구현
______파이썬 설치와 scikit-learn 설정
__아파치 스파크
__스칼라
____RDD를 이용한 프로그래밍
__스프링 XD
__요약
5장. 의사 결정 트리 기반 학습
__의사 결정 트리
____주요 용어
____목적과 용도
____의사 결정 트리의 구성
______결측치 처리
______의사 결정 트리 생성 시의 고려 사항
______의사 결정 트리 그래픽 표현
______의사 결정 트리의 구축 의사 : 결정 트리 알고리즘
______탐욕 의사 결정 트리
______의사 결정 트리의 장점
____특화된 형태의 의사 결정 트리
______사선 트리
______랜덤 포레스트
______진화 트리
______헬링거 트리
__의사 결정 트리 구현
____머하웃 사용
____R 사용
____스파크 사용
____파이썬(scikit-learn) 사용
____줄리아 사용
__요약
6장. 인스턴스 기반 학습과 커널 기반 학습
__인스턴스 기반 학습(IBL)
____최근접 이웃 알고리즘
______KNN에서 k의 값
______KNN에서의 거리 측정법
______사례 기반 추론(CBR)
______국지 가중 회귀
____KNN 알고리즘의 구현
______머하웃 사용
______R 사용
______스파크 사용
______파이썬(scikit-learn) 사용
______줄리아 사용
__커널 기법 기반 학습
____커널 함수
____서포트 벡터 머신(SVM)
______분리할 수 없는 데이터
____SVM 구현
______머하웃 사용
______R 사용
______스파크 사용
______줄리아 사용
______파이썬(scikit-learn) 사용
__요약
7장. 연관 규칙 기반 학습
__연관 규칙 기반 학습
____연관 규칙 정의
____Apriori 알고리즘
______규칙 생성 전략
____FP-growth 알고리즘
____Apriori와 FP-growth
__Apriori와 FP-growth의 구현
______머하웃 사용
______R 사용
______스파크 사용
______파이썬(scikit-learn) 사용
______줄리아 사용
__요약
8장. 클러스터링 기반 학습
__클러스터링 기반 학습
__클러스터링의 유형
____계층 클러스터링
____분할 클러스터링
__k-평균 클러스터링 알고리즘
____k-평균 클러스터링을 위한 수렴 또는 중단 기준
______디스크상 K-평균 클러스터링
____k-평균 알고리즘의 장점
____k-평균 알고리즘의 단점
____거리 측정법
____복잡도 측정법
__k-평균 클러스터링 구현
____머하웃 사용
____R 사용
____스파크 사용
____파이썬(scikit-learn) 사용
____줄리아 사용
__요약
9장. 베이지언 학습
__베이지언 학습
____통계학자의 생각
______중요 용어와 정의
______확률
______사건의 유형
______확률의 유형
______확률 분포
______베르누이 분포
______이항 분포
____베이즈 정리
____나이브 베이즈 분류기
______다항 나이브 베이즈 분류기
______베르누이 나이브 베이즈 분류기
__나이브 베이즈 알고리즘 구현
____머하웃 사용
____R 사용
____스파크 사용
____파이썬(scikit-learn) 사용
____줄리아 사용
__요약
10장. 회귀 기반 학습
__회귀 분석
____기초 통계량 복습
______기대치, 분산, 공분산의 속성
______ANOVA와 F 통계
____교란
____효과 변경
__회귀 기법
____선형 회귀 또는 단순 선형 회귀
____다중 회귀
____다항(비선형) 회귀
____일반화된 선형 모델(GLM)
____로지스틱 회귀(로짓 링크)
____로지스틱 회귀에서 오즈비
____포아송 회귀
__선형 회귀와 로지스틱 회귀의 구현
____머하웃 사용
____R 사용
____스파크 사용
____파이썬(scikit-learn) 사용
____줄리아 사용
__요약
11장. 딥러닝
__머신 러닝의 기본 사항
____인간의 뇌
____신경망
______뉴런
______시냅스
______인공 뉴런, 퍼셉트론
______신경망의 크기
______신경망의 종류
____역전파 알고리즘
____소프트맥스 회귀
__딥러닝의 종류
____컨볼루션 신경망(CNN/ConvNets)
______컨볼루션 레이어(CONV)
______풀링 레이어(POOL)
______풀커넥트 레이어(FC)
____순환 신경망(RNNs)
____RBM
____DBM
____오토인코더
__ANNs과 딥러닝 기법 구현
____머하웃 사용
____R 사용
____스파크 사용
____파이썬(scikit-learn) 사용
____줄리아 사용
__요약
12장. 강화 학습
__강화 학습(RL)
____강화 학습의 내용
______강화 학습 적용 사례
______평가 피드백
______강화 학습 문제: 그리드 월드 문제
______마르코프 결정 프로세스(MDP)
______기본 RL 모델: 에이전트-환경 인터페이스
______지연 보상
______정책
____강화 학습: 주요 특징
__강화 학습 솔루션 기법
____다이내믹 프로그래밍(DP)
______일반화된 정책 반복(GPI)
____몬테카를로 기법
____TD(Temporal difference) 학습
______살사: 온폴리시 TD
____Q-러닝: 오프폴리시 TD
____액터-평론가 기법(온폴리시)
____R-러닝(오프폴리시)
__강화 학습 알고리즘 구현
____머하웃 사용
____R 사용
____스파크 사용
____파이썬(scikit-learn) 사용
____줄리아 사용
__요약
13장. 앙상블 학습
__앙상블 학습법의 개념
____대중(또는 집단)의 지혜란?
____주요 적용 사례
______추천 시스템
______이상 탐지
______트랜스퍼 학습
______스트림 마이닝 또는 분류
____앙상블 기법
__지도 앙상블 기법
____비지도 앙상블 학습법
__앙상블 학습 구현
____머하웃 사용
____R 사용
____스파크 사용
____파이썬(scikit-learn) 사용
____줄리아 사용
__요약
14장. 머신 러닝을 위한 차세대 데이터 아키텍처
__데이터 아키텍처의 진화
__차세대 데이터 아키텍처를 위한 새로운 관점
__머신 러닝을 위한 최신 데이터 아키텍처
____시맨틱 데이터 아키텍처
____비즈니스 데이터 레이크
____시맨틱 웹 기술
____주요 솔루션 및 업체
__다중 모델 데이터베이스 아키텍처/폴리곳 지속성
____주요 솔루션 및 업체
__람다 아키텍처
____주요 솔루션 및 업체
__요약