리얼월드 머신러닝
도서명:리얼월드 머신러닝
저자/출판사:헨릭,브링크,조셉,W,리처드,마크,페더롤/위키북스
쪽수:296쪽
출판일:2017-10-24
ISBN:9791158390761
목차
[01부] 머신러닝 작업흐름
▣ 01장: 머신러닝이란 무엇인가?
1.1 기계가 학습하는 방법
1.2. 데이터에 근거한 결정
__1.2.1. 전통적 접근법
__1.2.2. 머신러닝 접근법
__1.2.3. 머신러닝의 다섯 가지 이점
__1.2.4. 문제점
1.3. 머신러닝 작업흐름 따라가기: 데이터에서 배포까지
__1.3.1. 데이터 수집 및 준비
__1.3.2. 데이터로 모델 가르치기
__1.3.3. 모델 성능 평가
__1.3.4. 모델 성능 최적화
1.4. 고급 기법으로 모델 성능을 높이기
__1.4.1. 데이터 전처리 및 특성 공학
__1.4.2. 온라인 방식으로 모델을 지속해서 개선
__1.4.3. 모델의 데이터 크기와 속도 확장
1.5. 요약
1.6. 이번 장에 나오는 용어
▣ 02장: 실무현장 데이터
2.1. 시작하기: 데이터 수집
__2.1.1. 어떤 특성을 포함해야 하는가?
__2.1.2. 목표 변수에 대한 실측 자료를 어떻게 얻을 수 있는가?
__2.1.3. 얼마나 많은 훈련 데이터가 필요한가?
__2.1.4. 훈련 집합이 충분히 대표성을 띄는가?
2.2. 모델링을 위한 데이터 전처리
__2.2.1. 범주형 특성
__2.2.2. 결측 자료 다루기
__2.2.3. 간단한 특성 추출
__2.2.4. 데이터 정규화
2.3. 데이터 시각화 사용
__2.3.1. 모자이크 분포도
__2.3.2. 상자 분포도
__2.3.3. 밀도 분포도
__2.3.4. 산점도
2.4. 요약
2.5. 이번 장에 나온 용어
▣ 03장: 모델링과 예측
3.1. 머신러닝 모델링의 기본
3.1.1. 입력과 목표 간의 관계 찾기
__3.1.2. 좋은 모델을 찾는 목적
__3.1.3. 모델링 방법의 종류
__3.1.4. 지도 학습 대 비지도 학습
3.2. 분류: 버킷으로 예측하기
__3.2.1. 분류기를 만들고 예측하기
__3.2.2. 복잡한 비선형 데이터 분류
__3.2.3. 여러 계급으로 분류하기
3.3. 회귀: 수치 예측
__3.3.1. 회귀기 구축 및 예측
__3.3.2. 복잡한 비선형 데이터에 대한 회귀 수행
3.4. 요약
3.5. 이번 장에 나온 용어
▣ 04장: 모델 평가와 최적화
4.1. 모델 일반화: 신규 데이터에 대한 예측 정확도 평가
__4.1.1. 문제: 과적합과 모델 낙천주의
__4.1.2. 해결책: 교차 검증
__4.1.3. 교차 검증 시 주의사항
4.2. 분류 모델 평가
__4.2.1. 계급 단위 정확도와 혼동 행렬
__4.2.2. 정확도 절충과 ROC 곡선
4.2.3. 다중 계급 분류
4.3. 회귀 모델 평가
__4.3.1. 간단한 회귀 성능 측정 사용
__4.3.2. 잔차 검사
4.4. 매개변수 튜닝을 통한 모델 최적화
__4.4.1. 머신러닝 알고리즘과 조율 매개변수
__4.4.2. 그리드 탐색
4.5. 요약
4.6. 이번 장에 나온 용어
▣ 05장: 특성 추출의 기본
5.1. 동기: 특성 공학이 유용한 이유는?
__5.1.1. 특성 추출이란 무엇인가?
__5.1.2. 특성 추출을 해야 하는 다섯 가지 이유
__5.1.3. 특성 추출과 특정 분야 전문 지식
5.2. 기본적인 특성 추출 과정
__5.2.1. 예제: 행사 추천
__5.2.2. 날짜 및 시간 특성 다루기
__5.2.3. 간단한 텍스트 특성으로 작업하기
5.3. 특성 선택
__5.3.1. 전진 선택과 후진 제거
__5.3.2. 데이터 탐색을 위한 특성 선택
__5.3.3. 현업 특성 선택 예제
5.4. 요약
5.5. 이번 장에 나온 용어
[02부] 실제 적용
▣ 06장: 예제: 뉴욕 시 택시 데이터
6.1. 데이터: 뉴욕 시 택시 운행 정보와 요금 정보
__6.1.1. 데이터 시각화
__6.1.2. 문제 정의 및 데이터 준비
6.2. 모델링
__6.2.1. 기본적인 선형 모델
__6.2.2. 비선형 분류기
__6.2.3. 범주형 특성 포함하기
__6.2.4. 날짜 및 시간 특성 포함
__6.2.5. 모델 통찰
6.3. 요약
6.4. 이번 장에 나오는 용어
▣ 07장: 고급 특성 추출 기법
7.1. 고급 텍스트 특성
__7.1.1. 단어 주머니 모델
__7.1.2. 주제 모델링
__7.1.3. 내용 확장
7.2. 이미지 특성
__7.2.1. 간단한 이미지 특성
__7.2.2. 물체와 형태 추출
7.3. 시계열 특성
__7.3.1. 시계열 데이터의 유형
__7.3.2. 시계열 데이터를 바탕으로 한 예측
__7.3.3. 고전적 시계열 특성
7.3.4. 사건 흐름에 대한 특성 추출
7.4. 요약
7.5. 이번 장에 나온 용어
▣ 08장: 고급 자연 언어 처리 예제: 영화 감상평 평점
8.1. 데이터 및 사용사례 탐구
__8.1.1. 데이터셋 훑어보기
__8.1.2. 데이터셋 조사
__8.1.3. 사용사례란 무엇인가?
8.2. 기초 자연 언어 처리 특성 추출 및 초기 모델 구축
__8.2.1. 단어 주머니 특성
__8.2.2. 나이브 베이즈 알고리즘으로 모델 구축하기
__8.2.3. tf-idf 알고리즘으로 단어 주머니의 특성들을 정규화하기
__8.2.4. 모델 매개변수 최적화
8.3. 고급 알고리즘과 모델 배치 고려사항
__8.3.1. Word2vec 특성
__8.3.2. 랜덤 포레스트 모델
8.4. 요약
8.5. 이번 장에 나온 용어
▣ 09장: 머신러닝 작업 흐름 확장
9.1. 확장하기 전에
__9.1.1. 중요 차원 식별
__9.1.2. 확장하는 대신 훈련 데이터를 부차 표집하기?
__9.1.3. 확장 가능한 데이터 관리 시스템
9.2. 머신러닝 모델링 파이프라인 확장
__9.2.1. 학습 알고리즘 확장
9.3. 예측 확장
__9.3.1. 예측량 높이기
__9.3.2. 예측 속도 높이기
9.4. 요약
9.5. 이번 장의 용어
▣ 10장: 예제: 디지털 디스플레이 광고
10.1. 디스플레이 광고
10.2. 디지털 광고 데이터
10.3. 특성 추출과 모델링 전략
10.4. 데이터의 크기와 모양
10.5. 특잇값 분해
10.6. 자원 추정 및 최적화
10.7. 모델링
10.8. k 최근접 이웃
10.9. 랜덤 포레스트
10.10. 기타 현업 고려사항
10.11. 요약
10.12. 이번 장에 나온 용어
10.13. 요점 및 결론
▣ 부록: 인기 있는 머신러닝 알고리즘