Python Machine Learning By Example
도서명:Python Machine Learning By Example
저자/출판사:요우시,리우/에이콘출판
쪽수:320쪽
출판일:2018-09-07
ISBN:9791161752037
목차
1장. 파이썬과 머신 러닝 시작하기
__머신 러닝은 무엇이고, 왜 필요한가
__머신 러닝의 개요
__머신 러닝 알고리즘의 역사
__데이터를 이용한 일반화
__오버피팅, 언더피팅, 바이어스 분산 트레이드오프
____교차 검증을 이용한 오버피팅 방지
__정규화를 이용한 오버피팅 방지
__피처 선택과 차원 축소화를 통한 오버피팅 방지
__전처리, 탐색 작업, 피처 엔지니어링
____결측값 처리
____레이블 인코딩
____원 핫 인코딩
____스케일링
____다항형 피처
____파워 변환
____비닝
__모델의 조합
____배깅
____부스팅
____스태킹
____블렌딩
____보팅과 평균화
__소프트웨어 설치와 설정
__문제 해결과 도움 요청 방법
__요약
2장. 텍스트 분석 알고리즘을 이용한 20 뉴스그룹 데이터세트 분석
__NLP란
__newsgroups 데이터
__데이터 확보
__피처에 대해 생각해보자
__시각화
__데이터 전처리
__클러스터링
__토픽 모델링
__요약
3장. 나이브 베이즈를 이용한 스팸 메일 탐지
__분류란 무엇인가
__분류의 유형
__텍스트 분류 애플리케이션
__나이브 베이즈란
__예제를 통한 베이즈 정리의 이해
__나이브 베이즈의 메커니즘
__나이브 베이즈의 구현
__분류기의 성능 평가
__모델 튜닝과 교차 검증
__요약
4장. SVM을 이용한 뉴스 토픽 분류
__3장 복습과 IDF
__SVM
____SVM의 원리
____SVM 구현
____SVM 커널 함수
____선형 커널 함수와 RBF 커널 함수의 비교
__SVM을 이용한 뉴스 토픽 분류
__추가 예제: SVM를 이용해 심전도 데이터로 태아 상태 분류
__요약
5장. 트리 기반 알고리즘을 이용한 클릭스루 예측
__광고 클릭스루 예측이란
__수치형 데이터와 범주형 데이터
__의사결정 트리 분류기
____의사결정 트리 생성
____트리 분할 측정 기준
____의사결정 트리 구현
__의사결정 트리를 이용한 클릭스루 예측
__랜덤 포레스트: 의사결정 트리의 피처 배깅
__요약
6장. 로지스틱 회귀를 이용한 클릭스루 예측
__원 핫 인코딩: 범주형 피처를 수치형 피처로 변환
__로지스틱 회귀 분류기
____로지스틱 회귀
____로지스틱 회귀의 동작 원리
____그래디언트 하강을 통한 로지스틱 회귀 모델 학습
__그래디언트 하강 기법과 로지스틱 회귀를 이용한 클릭스루 예측
____스토캐스틱 그래디언트 하강 기법을 이용한 로지스틱 회귀 모델 학습
____정규화 기법을 이용한 로지스틱 회귀 모델 학습
____온라인 러닝을 이용한 대규모 데이터세트 학습
____다중클래스 분류 처리
__피처 셀렉션과 랜덤 포레스트 비교
__요약
7장. 회귀 알고리즘을 이용한 주가 예측
__유가 증권 시장과 주가
__회귀의 기본 개념
__회귀 알고리즘을 이용한 주가 예측
____피처 엔지니어링
____데이터 확보와 피처 생성
____선형 회귀
____의사결정 트리 회귀
____서포트 벡터 회귀
____회귀 성능 평가
____회귀 알고리즘을 이용한 주가 예측
__요약
8장. 모범 사례
__머신 러닝 워크플로우
__데이터 준비 단계에서 참고할 모범 사례
____모범 사례 1: 프로젝트의 목표를 완전히 이해할 것
____모범 사례 2: 관련된 모든 필드를 수집할 것
____모범 사례 3: 필드 값에 대한 일관성을 유지할 것
____모범 사례 4: 결측 데이터 처리
__학습 데이터세트 생성 단계에서 참고할 모범 사례
____모범 사례 5: 수치형 값을 지닌 범주형 피처 판단
____모범 사례 6: 범주형 피처로 인코딩 여부 결정
____모범 사례 7: 피처 선택 여부를 결정하고 선택할 경우 어떻게 할지도 결정한다
____모범 사례 8: 차원 축소화 여부를 결정하고 선택할 경우 어떻게 할지도 결정한다
____모범 사례 9: 피처 스케일링 여부 결정
____모범 사례 10: 도메인 전문성을 이용한 피처 엔지니어링 수행
____모범 사례 11: 도메인 전문성 없이 피처 엔지니어링 수행
____모범 사례 12: 각 피처가 생성 과정 문서화하기
__모델 학습, 평가, 선정 단계에서 참고할 모범 사례
____모범 사례 13: 적절한 알고리즘 선택
____모범 사례 14: 오버피팅을 줄일 것
____모범 사례 15: 오버피팅과 언더피팅이 있는지 진단할 것
__모델 배포, 모니터링 단계에서 참고할 모범 사례
____모범 사례 16: 모델 저장, 로딩, 재사용
____모범 사례 17: 모델 성능 모니터링
____모범 사례 18: 정기적으로 모델 업데이트
__요약