실전 예측 분석 모델링(Applied Predictive Modeling)
도서명:실전 예측 분석 모델링(Applied Predictive Modeling)
저자/출판사:막스,쿤,키엘,존슨/에이콘출판
쪽수:676쪽
출판일:2018-01-02
ISBN:9791161750903
목차
1장. 시작하며
__1.1 예측 대 해석
__1.2 예측 모델의 주 요소
__1.3 용어
__1.4 예제 데이터 세트와 일반적 데이터 시나리오
_음악 장르
_장학금 신청
_간 손상
_투과성
_화학 물질 제조 절차
_부정 재무 재표
_데이터 세트 비교
__1.5 개요
__1.6 표기법
2장. 예측 모델링 과정 훑어보기
__2.1 사례 연구: 연비 예측
__2.2 테마
_데이터 분할
_예측 데이터
_성능 추정
_여러 모델을 평가하기
_모델 선정
__2.3 요약
3장. 데이터 전처리
__3.1 사례 연구: 하이콘텐츠 스크리닝에서의 세포 분할
__3.2 개별 예측 변수에 대한 데이터 변형
_중심화와 척도화
_왜도 해결을 위한 변형
__3.3 여러 예측 변수 변형
_이상치 제거를 위한 데이터 변형
_데이터 축소와 특징 추출
__3.4 결측치 처리
__3.5 예측 변수 제거
_예측 변수 간의 상관관계3.6 예측 변수 추가
__3.7 예측 변수 구간화
__3.8 컴퓨팅
_변환
_필터링
_가변수 생성
_연습 문제
4장. 과적합과 모델 튜닝
__4.1 과적합 문제
__4.2 모델 튜닝
__4.3 데이터 분할
__4.4 리샘플링 기법
_K -겹 교차 검증
_일반화 교차 검증
_반복적 훈련/테스트 세트 분할
_부트스트랩
__4.5 사례 연구: 신용 평가
__4.6 최종 튜닝 변수 선정
__4.7 추천하는 데이터 분할 방식
__4.8 모델 선택
__4.9 컴퓨팅
_데이터 분할
_리샘플링
_R로 하는 기본적 모델 구축
_튜닝 변수 판단
_모델 간 비교
_연습 문제
5장. 회귀 모델 성능 측정
__5.1 성능의 정량적 측정
__5.2 분산-편향성 트레이드 오프
__5.3 컴퓨팅
6장. 선형 회귀와 이웃 모델들
__6.1 사례 연구 구조적 정량 활성 관계 모델링
__6.2 선형 회귀
_용해도 데이터에 대한 선형 회귀
__6.3 부분 최소 제곱
_용해도 데이터에 대한 PCR과 PLSR
_PLS의 알고리즘 분산
__6.4 벌점 모델
__6.5 컴퓨팅
_일반 선형 회귀
_부분 최소 제곱
_벌점 회귀 모델
_연습 문제
7장 비선형 회귀 모델
__7.1 신경망 모델
__7.2 다변량 가법 회귀 스플라인 모델
__7.3 서포트 벡터 머신
__7.4 K -최근접 이웃
__7.5 컴퓨팅
_신경망 모델
_다변량 가법 회귀 스플라인서포트 벡터 머신
_K-최근접 이웃
_연습 문제
8장. 회귀 트리와 규칙 기반 모델
__8.1 기본 회귀 트리
__8.2 회귀 모델 트리
__8.3 규칙 기반 모델
__8.4 배깅 트리
__8.5 랜덤 포레스트
__8.6 부스팅
__8.7 큐비스트
__8.8 컴퓨팅
_단일 트리
_모델 트리
_배깅 트리
_랜덤 포레스트
_부스티드 트리
_큐비스트
_연습 문제
9장. 용해도 모델 정리
10장. 사례 연구: 콘크리트 혼합물의 압축 강도
__10.1 모델 구축 전략
__10.2 모델 성능
__10.3 압축 강도 최적화
__10.4 컴퓨팅
11장. 분류 모델에서의 성능 측정
__11.1 클래스 분류
_잘 보정된 확률
_클래스 확률 나타내기
_중간 지대
__11.2 분류 예측 평가
_이종 문제
_비정확도 기반 기준
__11.3 클래스 확률 평가
_시스템 동작 특성(ROC) 곡선
_리프트 도표
__11.4 컴퓨팅
_민감도와 특이도
_혼동 행렬
_시스템 동작 특성 곡선
_리프트 도표
_확률 보정
12장. 판별 분석 및 기타 선형 분류 모델
__12.1 사례 연구: 성공적인 지원금 신청 예측
__12.2 로지스틱 회귀
__12.3 선형 판별 분석
__12.4 부분 최소 제곱 판별 분석
__12.5 벌점 모델
__12.6 최근접 축소 중심 모델
__12.7 컴퓨팅
_로지스틱 회귀
_선형 판별 분석
_부분 최소 제곱 판별 분석
_벌점 모델
_최근접 축소 중심법
_연습 문제
13장. 비선형 분류 모델
__13.1 비선형 판별 분석
_이차 판별 분석과 정규 판별 분석
_혼합 판별 분석
__13.2 신경망
__13.3 유연 판별 분석
__13.4 서포트 벡터 머신
__13.5 K -최근접 이웃 모델
__13.6 나이브 베이즈 모델
__13.7 컴퓨팅
_비선형 판별 분석
_신경망
_유연 판별 분석
_서포트 벡터 머신
_K-최근접 이웃 분석
_나이브 베이즈 분석
_연습 문제
14장. 분류 트리와 규칙 기반 모델
__14.1 기본 분류 트리
__14.2 규칙 기반 모델
_C4.5 규칙
_PART
__14.3 배깅 트리
__14.4 랜덤 포레스트
__14.5 부스팅
_에이다부스트
_확률 경사 부스팅
__14.6 C5.0
_분류 트리
_분류 규칙
_부스팅
_모델의 다른 측면
_보조금 데이터
__14.7 범주형 변수의 두 가지 변조 방식 비교
__14.8 컴퓨팅
_분류 트리
_규칙배깅 트리
_랜덤 포레스트
_부스티드 트리
_연습 문제
15장. 보조금 지원 모델 살펴보기
16장. 심각한 클래스 불균형 처리하기
__16.1 사례 연구: 이동식 주택 보험 가입 예측
__16.2 클래스 불균형의 영향
__16.3 모델 튜닝
__16.4 대체 한도
__16.5 사전 확률 보정
__16.6 다른 경우별 가중치
__16.7 샘플링 기법
__16.8 비용 민감 훈련
__16.9 컴퓨팅
_대체 한도
_샘플링 기법
_비용 민감 훈련
_연습 문제
17장. 사례 연구: 작업 스케줄링
__17.1 데이터 분할과 모델 전략
__17.2 결과
__17.3 컴퓨팅
18장. 예측 변수 중요도 측정하기
__18.1 수치형 결과
__18.2 범주형 결과
__18.3 다른 방법
__18.4 컴퓨팅
_수치형 결과
_변수형 결과
_모델 기반 중요도
_연습 문제
19장. 특징 선택 입문
__19.1 비정보성 예측 변수 사용의 결과
__19.2 변수 수를 줄이는 방식
__19.3 래퍼 방법
_전진, 후진, 단계적 선택법
_담금질 기법
_유전 알고리즘
__19.4 필터 방법
__19.5 선택 편향
__19.6 사례 연구: 인지 장애 예측
__19.7 컴퓨팅
_전진, 후진, 단계적 선택법
_반복 특징 제거
_필터 방법
_연습 문제
20장. 모델 성능에 영향을 미치는 요인
__20.1 삼종 오류
__20.2 결과의 측정 오차
__20.3 예측 변수에서의 측정 오차
_사례 연구: 원치 않는 부작용 예측
__20.4 연속형 결과를 이산화하기
__20.5 언제 모델의 예측값을 믿어야 할까?
__20.6 샘플이 클 때의 영향
__20.7 컴퓨팅
_연습 문제
부록 A. 여러 모델에 대한 요약
부록 B. R에 대한 소개
__1B.1 시작 및 도움말
__1B.2 패키지
__1B.3 객체 생성
__1B.4 데이터 유형과 기본 구조
__1B.5 2차원 데이터 세트로 작업하기
__1B.6 객체와 클래스
__1B.7 R 함수
__1B.8 =의 3개 얼굴
__1B.9 AppliedPredictiveModeling 패키지
__B.10 caret 패키지
__B.11 이 책에서 사용된 소프트웨어
부록 C. 유용한 웹 사이트
_소프트웨어
_대회
_데이터 세트