가볍게 시작하는 통계학습
도서명:가볍게 시작하는 통계학습
저자/출판사:Gareth,James,Daniela,Witten,T/루비페이퍼
쪽수:512쪽
출판일:2016-04-18
ISBN:9791186710050
목차
1 도입(introduction)
1.1 통계학습의 개요
1.2 통계학습의 간단한 역사
1.3 표기법과 간단한 행렬 대수
1.4 Lab과 연습문제에 사용된 자료
2 통계학습(Statistical Learning)
2.1 통계학습이란?
2.1.1 f를 추정하는 이유는?
2.1.2 어떻게 f를 추정하는가?
2.1.3 예측 정확도와 모델 해석력 사이의 절충(Trade-Off)
2.1.4 지도학습과 비지도학습
2.1.5 회귀와 분류문제
2.2 모델의 정확도 평가
2.2.1 적합의 품질 측정
2.2.2 편향-분산 절충
2.2.3 분류 설정
2.3 Lab: R에 대한 소개
2.3.1 기본 명령어
2.3.2 그래프
2.3.3 데이터 인덱싱(Indexing)
2.3.4 데이터 로딩(Loading)
2.3.5 추가적인 그래프와 수치 요약
2.4 연습문제
3 선형회귀(Linear Regression)
3.1 단순선형회귀
3.1.1 계수 추정
3.1.2 계수 추정값의 정확도 평가
3.1.3 모델의 정확도 평가
3.2 다중선형회귀
3.2.1 회귀계수의 추정
3.2.2 몇 가지 중요한 질문
3.3 회귀모델에서 다른 고려할 사항
3.3.1 질적 설명변수
3.3.2 선형모델의 확장
3.3.3 잠재적 문제
3.4 마케팅 플랜(Marketing Plan)
3.5 선형회귀와 K-최근접이웃의 비교
3.6 Lab: 선형회귀
3.6.1 라이브러리
3.6.2 단순선형회귀
3.6.3 다중선형회귀
3.6.4 상호작용 항
3.6.5 설명변수의 비선형 변환
3.6.6 질적 설명변수
3.6.7 함수의작성
3.7 연습문제
4 분류(Cassification)
4.1 분류의 개요
4.2 왜 선형회귀를 사용하지 않는가?
4.3 로지스틱 회귀(Logistic Regression)
4.3.1 로지스틱 모델
4.3.2 회귀계수의 추정
4.3.3 예측하기
4.3.4 다중로지스틱 회귀
4.3.5 반응변수의 클래스가 2개보다 많은 로지스틱 회귀
4.4 선형판별분석(Linear Discriminant Analysis)
4.4.1 분류를 위한 베이즈 정리의 사용
4.4.2 선형판별분석(p = 1)
4.4.3 선형판별분석(p > 1)
4.4.4 이차선형판별분석
4.5 분류방법의 비교
4.6 Lab: 로지스틱 회귀, LDA, QDA, KNN
4.6.1 주식시장자료
4.6.2 로지스틱 회귀
4.6.3 선형판별분석
4.6.4 이차판별분석
4.6.5 K-최근접이웃
4.6.6 Caravan 보험 자료에 적용
4.7 연습문제
5 재표본추출 방법
5.1 교차검증(Cross-Validation)
5.1.1 검증셋 기법(Validation Set Approach)
5.1.2 LOOCV(Leave-One-Out Cross-Validation)
5.1.3 k-fold 교차검증
5.1.4 k-fold 교차검증에 대한 편향-분산 절충
5.1.5 분류문제에 대한 교차검증
5.2 붓스트랩(Bootstrap)
5.3 Lab: 교차검증과 붓스트랩
5.3.1 검증셋 기법
5.3.2 LOO(Leave-One-Out) 교차검증
5.3.3 k-fold 교차검증
5.3.4 붓스트랩
5.4 연습문제
6 선형모델 선택 및 Regularization
6.1 부분집합 선택
6.1.1 최상의 부분집합 선택
6.1.2 단계적 선택
6.1.3 최적의 모델 선택
6.2 Shrinkage 방법
6.2.1 능형회귀
6.2.2 Lasso
6.2.3 조율 파라미터 선택
6.3 차원축소 방법
6.3.1 주성분회귀
6.3.2 부분최소제곱
6.4 고차원의 고려
6.4.1 고차원 데이터
6.4.2 고차원에서 무엇이 문제인가?
6.4.3 고차원에서의 회귀
6.4.4 고차원에서의 결과 해석
6.5 Lab 1: 부분집합(서브셋) 선택 방법
6.5.1 최상의 서브셋 선택
6.5.2 전진 및 후진 단계적 선택
6.5.3 검증셋 기법과 교차검증을 사용한 모델 선택
6.6 Lab 2: 능형회귀와 Lasso
6.6.1 능형회귀
6.6.2 Lasso
6.7 Lab 3: PCR과 PLS 회귀
6.7.1 주성분회귀
6.7.2 부분최소제곱
6.8 연습문제
7 선형성을 넘어서
7.1 다항식회귀
7.2 계단함수
7.3 기저함수
7.4 회귀 스플라인
7.4.1 조각별 다항식
7.4.2 제약조건과 스플라인
7.4.3 스플라인 기저 표현
7.4.4 매듭의 수와 위치 선택
7.4.5 다항식회귀와 비교
7.5 평활 스플라인
7.5.1 평활 스플라인의 개요
7.5.2 평활 파라미터 λ의 선택
7.6 국소회귀
7.7 일반화가법모델(Generalized Additive Models)
7.7.1 회귀문제에 대한 GAMs
7.7.2 분류문제에 대한 GAMs
7.8 Lab: 비선형모델링
7.8.1 다항식회귀와 계단함수
7.8.2 스플라인(Splines)
7.8.3 GAMs
7.9 연습문제
8 트리 기반의 방법
8.1 의사결정트리의 기초
8.1.1 회귀트리
8.1.2 분류트리
8.1.3 트리와 선형모델
8.1.4 트리의 장단점
8.2 배깅, 랜덤 포리스트, 부스팅
8.2.1 배깅(Bagging)
8.2.2 랜덤 포리스트(Random Forests)
8.2.3 부스팅(Boosting)
8.3 Lab: 의사결정 트리
8.3.1 분류트리 적합
8.3.2 회귀트리 적합
8.3.3 배깅(Bagging)과 랜덤 포리스트(Random Forest)
8.3.4 부스팅(Boosting)
8.4 연습문제
9 서포트 벡터 머신(Support Vector Machines)
9.1 최대 마진 분류기
9.1.1 초평면은 무엇인가?
9.1.2 분리 초평면(Separating Hyperplane)을 사용한 분류
9.1.3 최대 마진 분류기
9.1.4 최대 마진 분류기의 구성
9.1.5 분류 불가능한 경우
9.2 서포트 벡터 분류기
9.2.1 서포트 벡터 분류기의 개요
9.2.2 서포트 벡터 분류기의 세부 사항
9.3 서포트 벡터 머신
9.3.1 비선형 결정경계를 가진 분류
9.3.2 서포트 벡터 머신
9.3.3 심장질환 자료에 적용
9.4 클래스가 2개보다 많은 SVM
9.4.1 일대일 분류
9.4.2 일대전부(One-Versus-All) 분류
9.5 로지스틱 회귀에 대한 상관관계
9.6 Lab: 서포트 벡터 머신
9.6.1 서포트 벡터 분류기
9.6.2 서포트 벡터 머신
9.6.3 ROC 곡선
9.6.4 다중클래스 SVM
9.6.5 유전자 발현 자료에 적용
9.7 연습문제
10 비지도학습(Unsupervised Learning)
10.1 비지도학습의 어려움
10.2 주성분분석
10.2.1 주성분은 무엇인가?
10.2.2 주성분의 다른 해석
10.2.3 PCA에 대해 더 알아보기
10.2.4 주성분에 대한 다른 사용 예
10.3 클러스터링 방법
10.3.1 K-평균 클러스터링
10.3.2 계층적 클러스터링
10.3.3 클러스터링에서의 실질적 이슈
10.4 Lab 1: 주성분분석
10.5 Lab 2: 클러스터링
10.5.1 K-평균 클러스터링
10.5.2 계층적 클러스터링
10.6 Lab 3: NCI60 데이터 예제
10.6.1 NCI60 데이터에 대한 PCA
10.6.2 NCI60 데이터의 관측치에 대한 클러스터링
10.7 연습문제