Data Smart
도서명:Data Smart
저자/출판사:존,포먼/에이콘출판
쪽수:522쪽
출판일:2015-07-28
ISBN:9788960777378
목차
1 스프레드시트에서 꼭 알아야 하지만, 감히 물어보지 못했던 것들
__몇 개의 샘플 데이터
__컨트롤 버튼으로 빠르게 이동
__수식과 데이터를 빠르게 복사
__셀 서식 선택
__선택하여 붙여넣기
__차트 삽입
__찾기 및 바꾸기
__값의 위치, 어떤 위치의 값을 다루는 수식
__VLOOKUP을 사용하여 데이터 합치기
__필터와 정렬
__피벗 테이블 사용
__배열 수식 사용
__해 찾기로 문제 풀기
__오픈솔버: 필요 없기를 바랬는데, 필요한 것
__정리
2 군집분석 1: K-평균을 사용하여 고객 기반 세분화
__여자 아이들은 여자 아이들과 춤을 추고, 남자 아이들은 발꿈치를 긁는다
__실제 적용: K-평균 군집화로 이메일 마케팅에서의 고객 분류
____제이 뱅 오도넛 와인 도매 상사
____최초의 데이터 셋
____측정할 대상 결정
____4개의 군집으로 시작
____유클리드 거리: 직선 거리 구하기
____모든 고객에 대한 거리와 군집 할당
____군집 중심점 계산
____결과 이해
____군집별 가장 많았던 거래 정보 얻기
____실루엣: 서로 다른 K 값이 치고받을 수 있도록 하는 좋은 방법
____5개의 군집은 어떤가?
____다섯 개의 군집에서 해 찾기
____5개 군집의 최고 거래 내용 보기
____5-평균 군집화에서 실루엣 계산
__k-중앙 군집화와 비대칭적인 거리 측정
____k-중앙 군집화의 사용
____더 적합한 거리 매트릭스 구하기
____이 모든 것을 엑셀에 집어 넣기
____5-중앙 군집법에서의 최고 거래 보기
__정리
3 나이브 베이즈: 바보이기에는 너무나 민첩한
__제품 이름을 맨드릴로 지으면 신호와 잡음을 동시에 얻는다
__세상에서 가장 간단한 확률 이론 소개
____조건부 확률 모두 합하기
____결합 확률, 체인 규칙, 독립
____종속적인 상황에서는 어떤 일이 벌어지는가?
____베이즈의 정리
__베이즈 규칙을 사용하여 인공지능 모델 만들기
____높은 수준의 분류 확률은 종종 같다고 가정된다
____추가로 고려할 잡다한 것들
__엑셀 시작
____불필요한 문장 부호 제거
____빈칸을 사용하여 나누기
____토큰의 개수와 확률 계산
____모델을 가졌으므로 사용해 보자
__정리
4 모델 최적화: 신선한 과즙이 자기 스스로 혼합되는 것은 아니기 때문에
__데이터 과학자가 최적화를 알아야 하는 이유
__간단한 균형점 잡기 문제로 시작
____문제를 하나의 포트폴리오로 표현
____레벨셋을 이동하여 문제 풀기
____심플렉스 메소드: 코너에서 찾기
____엑셀로 작업해 보기
____이 장의 뒤쪽에 괴물이 있다
__혼합 모델을 이용해 과수원에서 유리잔까지 유지되는 신선함
____혼합 모델의 사용
____몇 가지 스펙으로 시작하자
____일관성으로 돌아와서
____데이터를 엑셀에 넣기
____해 찾기에 문제 설정
____기준 낮추기
____죽은 다람쥐 치우기: 미니맥스 공식
____IF-Then과 Big M 제한 조건
____변수들을 곱하기: 볼륨을 11로 키우기
__리스크 모델링
____정규분포하는 데이터
__정리
5 군집분석 2: 네트워크 그래프와 커뮤니티 탐지
__네트워크 그래프의 의미
__간단한 그래프로 시각화
__게피에 대한 간단한 소개
____게피의 설치와 파일 준비
____그래프 레이아웃 잡기
____노드 등급
____보기 좋게 인쇄
____그래프 데이터 만지기
__와인 도매 데이터로 그래프 만들기
____코사인 유사도 행렬 만들기
____r-네이버후드 그래프 만들기
__에지의 가치는 얼마인가? 그래프 모듈성에서의 포인트와 벌점
____무엇이 포인트이고 무엇이 벌점인가?
____스코어 시트 설정
__군집 나누기
____분할 번호 1
____Split 2: 일렉트릭 부갈루
____그리고 Split3: 더 극단적으로 나누기
____커뮤니티 인코딩과 분석
__게피로 다시 돌아가기
__정리
6 회귀: 인공지능 지도 학습법의 원조
__잠깐만요, 뭐라고요? 임신이라고요?
__웃기지 마라!
__선형회귀를 사용하여 리테일마트에서 임신 고객 예측
____특성들의 집합
____훈련용 데이터 만들기
____가변수 만들기
____선형 회귀 모델을 만들어 보기
____선형 회귀 통계: R-Squared, F 검정, t 검정
____새로운 데이터에 대한 예측과 성능 측정
__로지스틱 회귀를 사용하여 임신 고객 예측
____먼저 링크 함수가 필요하다
____로지스틱 함수와 다시 최적화
____실제로 해 보는 로직스틱 회귀
____모델 선택: 선형 회귀와 로지스틱 회귀의 비교
__더 많은 정보
__정리
7 앙상블 모델: 푸짐하게 준비된 맛없는 피자
__6장의 데이터를 사용한다
__배깅: 무작위, 훈련, 반복
____결정 스텀프는 바보같은 예측인자에 대한 섹시하지 않은 용어다
____내겐 그렇게 바보같아 보이지 않아요!
____더 많은 힘이 필요하다!
____훈련시키기
____배깅 모델 평가
__부스팅: 잘 ****되면 기운을 북돋고 다시 해 봐라!
____모델 훈련: Every Feature Gets a Shot
____부스팅 모델 평가
__정리
8 예측: 안심해라, 뭘 해도 틀릴 수 있다
__장검 장사가 잘 되고 있다
__시계열 데이터에 익숙해지기
__단순 지수 평활법으로 천천히 시작한다
____단순 평활 예측법을 위한 설정
__데이터에 경향성이 있다
__홀트의 트렌드 반영 지수 평활법
____홀트 트렌드 반영 지수 평활법을 스프레드시트에서 설정
____다 되었는가? 자기 상관을 보자.
__배수적 홀트 윈터스 지수 평활법
____초기 레벨, 트렌드, 계절성 요인 값의 설정
____예측
____최적화
____지금 우리가 한 것에 대해 이야기해 주세요!
____예측 구간 삽입
____팬 차트 만들기
__정리
9 이상점 탐지: 이상해 보인다고 해서 진짜 이상한 것은 아니다
__이상점은 (나쁜) 사람이 될 수도 있다
__해들럼씨와 해들럼 부인의 논쟁
____튜키 울타리
____스프레드시트에서 튜키 울타리 적용
____간단한 접근법의 한계
__어떤 것에도 끔찍하지 않거나 모든 것에 나쁘다
____그래프를 위한 데이터 준비
____그래프 생성
____k 최근접 이웃 구하기
____그래프 이상점 탐지 방법 1: 내향등급 사용
____그래프 이상점 탐지 방법 2: Getting Nuanced with k-Distance
____그래프 이상점 탐색 방법 3: 지역 이상점 인자
__정리
10 스트레드시트에서 R로 옮겨가기
__R에 올라타기
____손으로 주물러 보기
____R로 데이터 읽기
__R로 실제 데이터 과학하기
____단지 몇 줄로 와인 데이터에 대한 구상 K-평균 구하기
____임신 데이터에서 인공지능 모델 구축
____R에서의 예측
____이상점 탐지
__정리
결론
__나는 누구인가? 어떤 일이 있었는가?
__더 나아가기 전에
____문제의 본질에 다가서라
____더 많은 중개자가 필요하다
____머리 셋 달리 괴물을 직시해라: 도구, 성능, 수학적인 완성도
____여러분은 여러분의 조직에서 가장 중요한 일을 하는 사람이 아니다
__창의적으로 일하고 연결을 유지하자