현장에서 바로 써먹는 데이터 분석 with 파이썬
도서명:현장에서 바로 써먹는 데이터 분석 with 파이썬
저자/출판사:김임용/심통
쪽수:400쪽
출판일:2022-06-30
ISBN:9791197529580
목차
Chapter 1 데이터 분석의 이해
1 데이터란?
1-1 데이터의 정의
1-2 데이터 → 정보 → 지식 → 지혜
1-3 빅데이터의 등장
1-4 빅데이터가 만들어 내는 변화
1-5 빅데이터의 활용
1-6 빅데이터와 인공지능
2 데이터 분석이란?
2-1 데이터 과학? 데이터 분석? 데이터 마이닝?
2-2 데이터 분석가와 데이터 과학자
2-3 도메인 지식
3. 데이터 분석의 발달 과정
3-1 통계학의 등장
3-2 사람들이 통계를 어려워하는 이유
3-3 컴퓨터의 등장과 인공지능
3-4 인공지능, 머신러닝 그리고 딥 러닝
4. 데이터 분석 과정
4-1 데이터 분석의 결과물
4-2 데이터 분석 과정
5. 데이터 분석 가이드 맵
[핵심요약]
[연습문제]
Chapter 2. 데이터 분석을 위한 준비
1. 데이터 수집
1-1 데이터 수집 방법
1-2 데이터베이스에서의 데이터 수집 방법-SQL
1-3 웹에서의 데이터 수집 방법-웹 크롤링
1-4 API에서의 데이터 수집 방법
2. 데이터 셋 준비 시 주의해야 할 점
2-1 분석에 적합한 데이터 형태
2-2 이항 데이터
2-3 범주형 데이터를 수치화시키는 방법-One-Hot Encoding
3. 아나콘다 설치하기
3-1 파이썬이란?
3-2 파이썬의 특징
3-3 파이썬을 배울까요? R을 배울까요?
3-4 아나콘다 설치하기(Windows 기반)
4. 주피터 노트북
4-1 주피터 노트북이란?
4-2 기본 사용법
4-3 주석과 마크다운
4-4 메뉴별 주요 기능
5. 패키지 설치하기
5-1 패키지란?
5-2 패키지 설치하기 - 인터넷 연결 환경
5-3 패키지 설치하기 - Off-Line 환경
5-4 패키지 사용하기
6. 구글 코랩
[핵심요약]
[연습문제]
CHAPTER 3 데이터 다루기
1. 파이썬 문법에 대한 이해
1-1 파이썬 문법 체계
1-2 변수
1-3 함수
1-4 조건문
1-5 반복문
1-6 자료형
2. pandas의 데이터 프레임
2-1 데이터 프레임이란?
2-2 데이터 프레임 다루기
3. numpy의 다차원 배열
3-1 다차원 배열이란?
3-2 다차원 배열 다루기
4. 데이터 정제
4-1 결측치(NaN)
4-2 이상치(Outlier)
4-3 스케일링(Scaling)
[핵심요약]
[연습문제]
본격적인 실습에 앞서
chapter 4 통계분석과 기본 그래프
1. 어제까지 몇 마리의 병아리가 부화했을까? (기초 통계량)
1-1 데이터 불러오기
1-2 데이터 확인하기
1-3 기초 통계량 구하기
1-4 데이터 정렬하기
1-5 막대 그래프 그려보기
1-6 한글 폰트 지정 및 그래프 색상 바꿔보기
1-7 그래프 위에 텍스트 추가하기
1-8 그래프 위에 선 추가하기
1-9 파이 차트 그려보기
2. 부화한 병아리들의 몸무게는 얼마일까? (정규분포와 중심극한정리)
2-1 데이터 불러와서 구조와 유형 확인하기
2-2 통계량으로 분포 확인하기
2-3 히스토그램으로 분포 확인하기
2-4 상자그림으로 분포 확인하기
2-5 다중 그래프로 분포 확인하기
3. 사료 제조사별 성능 차이가 있을까? (가설검정)
3-1 데이터 불러와서 확인하기
3-2 상자그림으로 분포 비교하기
3-3 정규분포인지 검정하기
3-4 t-test로 두 집단 간 평균 검정하기
[핵심요약]
[연습문제]
chapter 5 상관분석과 회귀분석
1. 병아리의 성장에 영향을 미치는 인자는 무엇일까? (상관분석)
1-1 상관분석이란?
1-2 데이터 불러와서 확인하기
1-3 상관분석을 위한 별도 데이터 셋 만들기
1-4 상관분석 실시
1-5 상관분석 결과 표현하기
2. 병아리의 몸무게를 예측할 수 있을까? (회귀분석)
2-1 회귀분석이란?
2-2 단순 선형 회귀분석
2-3 다중 회귀분석
2-4 다중공선성
2-5 비선형 회귀분석
[핵심요약]
[연습문제]
chapter 6 분류 및 군집분석
1. 병아리의 성별을 구분할 수 있을까? (로지스틱 회귀)
1-1 로지스틱 회귀란?
1-2 데이터 불러와서 확인하기
1-3 로지스틱 회귀분석
1-4 분류 알고리즘의 성능 평가 방법
1-5 로지스틱 회귀모델의 성능 평가
2. 병아리의 품종을 구분할 수 있을까? (분류 알고리즘)
2-1 다양한 분류 알고리즘
2-2 나이브 베이즈 분류
2-3 k-최근접 이웃
2-4 의사결정나무
2-5 배깅
2-6 부스팅
2-7 랜덤 포레스트
2-8 서포트 벡터 머신
2-9 XGBoost와 하이퍼 파라미터 튜닝
2-10 분류 알고리즘 결과 정리
3. 효과적인 사육을 위해 사육환경을 분리해 보자! (군집 알고리즘)
3-1 군집 알고리즘
3-2 k-평균 군집
[핵심요약]
[연습문제]
chapter 7 인공신경망과 딥 러닝
1. 성장한 닭의 몸무게를 예측할 수 있을까? (회귀)
1-1 인공신경망이란?
1-2 데이터 및 상관관계 확인
1-3 데이터 분할
1-4 신경망 구현
1-5 회귀모델의 성능 평가
1-6 딥 러닝이란?
1-7 H2O 활용 딥 러닝 구현(회귀)
2. 딥 러닝을 이용해 병아리 품종을 다시 구분해 보자! (분류)
2-1 Keras 활용 딥 러닝 구현(분류)
2-2 과적합을 줄이는 방법(드롭아웃)
[핵심요약]
[연습문제]
chapter 8 텍스트 마이닝
1. 고객 리뷰에서 어떻게 핵심을 파악할 수 있을까? (워드 클라우드)
1-1 워드 클라우드란?
1-2 JDK 설치하기
1-3 패키지 설치하기
1-4 텍스트 데이터 가공하기
1-5 워드 클라우드 그리기
2. 고객들은 정말로 만족했을까? (감성 분석)
2-1 감성 분석이란?
2-2 감성 사전 준비
2-3 텍스트 데이터 가공하기
2-4 감성 분석
2-5 결과 시각화
[핵심요약]
[연습문제]
chapter 9 참고할 만한 내용들
1. 데이터베이스 연결 및 SQL 사용법
1-1 데이터베이스 연결 방법
1-2 데이터베이스 테이블의 데이터 조회(Select)
1-3 데이터베이스 테이블의 데이터 입력(Insert)
1-4 데이터베이스 테이블의 데이터 삭제(Delete)
2. 비대칭 데이터
2-1 비대칭 데이터란?
2-2 언더 샘플링
2-3 오버 샘플링
3. 차원 축소와 주성분 분석(PCA)
3-1 차원 축소란?
3-2 주성분 분석(PCA)
4. 데이터 프레임 집계 및 병합
4-1 데이터 프레임 집계
4-2 데이터 프레임 병합
5. 학습을 위한 대표적인 데이터 셋 소개
5-1 패키지 내장 데이터 셋
5-2 학습용 데이터 셋 취득
6. 데이터 분석 학습 사이트 소개
6-1 생활코딩
6-2 데이터 사이언스 스쿨
6-3 코세라
6-4 캐글
연습문제 정답