Lets 예제로 배우는 빅데이터 분석 R프로그래밍
도서명:Lets 예제로 배우는 빅데이터 분석 R프로그래밍
저자/출판사:정병호/아이비김영
쪽수:608쪽
출판일:2021-10-29
ISBN:9788965121428
목차
PART1 R 프로그램 설치와 기초실습
1 R 프로그램 개요와 설치
1. R 프로그램 특징
2. R 프로그램 설치
3. R Studio 설치
4. R과 R Studio 설치 시 유의사항
5. R Studio 환경설정
2 R 명령문 기초실습
1. R 프로그램 입력 및 출력
2. 연산자 실습
3. 데이터 출력 함수
4. 불완전한 명령문 실행
5. 단축키로 명령문 실행
6. R 프로그램 코딩 내용 저장
3 종합 연습문제
PART2 R 프로그램 변수 유형
1 R 프로그래밍의 변수 유형
1. 변수와 변수 타입
1.1 변수 이름 작성 규칙
1.2 변수 타입
2. Vector 데이터 구조
2.1 Vector 객체 생성
2.2 Vector 데이터 처리
3. Matrix 데이터 구조
3.1 Matrix 데이터 객체 생성
3.2 Matrix 데이터 처리
- apply() 함수
- 행과 열의 이름지정 함수
- 행과열의 데이터 결합함수
4. Array 데이터 구조
5. Data.Frame 데이터 구조
5.1 Data.Frame 객체 생성
5.2 Data.Frame 객체 처리 함수
6. List 데이터 구조
6.1 List 객체 생성
6.2 List 객체 처리 함수
7. Factor 객체
2 데이터 객체 타입 확인과 변환
1. 데이터 객체 타입 확인
2. 데이터 타입 변환
3 종합 연습문제
PART3 데이터 입력 및 확인하기
1 데이터 입력 함수
1. Scan() 함수
2. Edit() 함수
2 데이터 가져오기 및 저장
1. 공공 빅데이터 제공 홈페이지
2. 작업 폴더의 위치 설정 및 확인
3. CSV와 TXT 파일 가져오기
4. 엑셀 파일 가져오기
5. 외부 파일로 저장하기
3 데이터 확인하기
1. 사고유형별 월별 교통사고 통계(2018) 공공데이터 확인
2. 불법 주정차 단속현황 공공데이터 확인
4 종합 연습문제
PART4 데이터 전처리
1 빅데이터 전처리 의미
2 R 패키지
1. R 패키지 설명
2. R 패키지 설치 및 사용
2.1 R 패키지 설치
2.2 R 패키지 사용
3. R 패키지 업데이트 및 제거
3 dplyr 패키지를 이용한 데이터 전처리
1. dplyr 패키지의 함수 소개
2. dplyr 패키지 전처리 실습 – 사고유형별/월별 교통사고 데이터
3. dplyr 패키지 전처리 실습 – 불법 주정차 단속현황 데이터
4 reshape2 패키지를 이용한 데이터 전처리
1. reshape2 패키지의 함수 소개
2. reshape2 패키지 전처리 실습 – 사고유형별/월별 교통사고 데이터
3. reshape2 패키지 전처리 실습 – 불법 주정차 단속현황 데이터
5 제어문
1. 조건문
1.1 IF문
1.2 switch문
1.3 which문
2. 반복문
2.1 for문
2.2 while문
3. 사용자 정의 함수
6 종합 연습문제
PART5 차트 시각화
1 단일 데이터 시각화
1. 막대차트 시각화
2. 도트 플롯 차트 시각화
3. 원형 차트 시각화
4. 히스토그램 시각화
2 복합 데이터 시각화
1. 막대차트 시각화
2. 박스 플롯 시각화
3. 산점도 시각화
4. 산점도 행렬 시각화
3 차트 시각화 응용 – 사고유형별/월별 교통사고 데이터
1. 단일 및 복합 데이터 시각화 응용
2. lattice 패키지를 이용한 시각화 응용
3. ggplot2 패키지를 이용한 시각화
4 종합 연습문제
PART6 기술 및 추론 통계분석
1 통계학의 의미
2 기술통계 분석
1. 데이터 종류
2. 빈도분석
2.1 빈도분석 실습 – 사고유형별/월별 교통사고 데이터
2.2 빈도분석(결측치 제거 후 계산) 실습 – 사고유형별/월별 교통사고 데이터
2.3 빈도분석 실습 – 불법 주정차 단속현황 데이터
2.4 빈도분석(결측치 제거 후 계산) 실습 - 불법 주정차 단속현황 데이터
3 추론통계 분석
1. 가설검정 의미
2. 평균 차이 검정
2.1 정규성 검정의 의미
2.2 단일 모집단 검정
- 단일 모집단 검정 실습 – 스마트폰 판매 데이터
- 단일 모집단 검정 실습 – 사고유형별/월별 교통사고 데이터
2.3 독립표본(두 모집단) 평균 비교 검정
- 독립표본 실습 – 스마트폰 판매 데이터 1
- 독립표본 실습 – 스마트폰 판매 데이터 2
- 독립표본 실습 – 사고유형별/월별 교통사고 데이터
2.4 대응 분석(종속 표본)
- 대응분석 실습 – 동영상교육 전후 성적변화 데이터
- 대응분석 실습 – 판매교육 전후 판매량 데이터
3. 세 집단 분석(분산분석)
3.1 분산분석의 의미
3.2 분산분석 및 사후검정 실습 - 스마트폰 판매 데이터
3.3 분산분석 및 사후검정 실습 – 사고유형별/월별 교통사고 데이터
4 교차분석과 카이제곱 분석
1. 교차분석 및 카이제곱 실습 – 한국소비자원 소비자 피해구제 데이터
2. 교차분석 및 카이제곱 실습 – 2021 한국프로야구 롯데팀 홈런기록 데이터
5 종합 연습문제
PART7 상관분석과 회귀분석
1 상관관계 분석
1. 상관관계 분석 이해
2. 상관관계 분석 실습 - 불법 주정차 단속현황 데이터
3. 상관관계 분석 실습 – 사고유형별/월별 교통사고 데이터
4. 상관관계 분석 실습 – 혁신제품 만족 데이터
2 선형 회귀분석
1. 회귀분석 이해
2. 단순 회귀분석 실습 – 스마트폰 판매 데이터
3. 단순 회귀분석 실습 – 사고유형별/월별 교통사고 데이터
4. 다중 회귀분석 실습 – 사고유형별/월별 교통사고 데이터
5. 다중 회귀분석 실습 – 혁신제품 만족 데이터
3 종합 연습문제
PART8 빅데이터 분석 및 시각화 : 지도학습과 분류분석
1 지도학습과 분류분석의 이해
2 로지스틱 회귀분석
1. 로지스틱 회귀분석의 의미
2. 로지스틱 회귀분석 실습 – 사고유형별/월별 교통사고 데이터
3. 로지스틱 회귀분석 실습 – 혁신제품 만족 데이터
3 의사결정 트리 분석
1. 의사결정 트리 분석의 의미와 종류
2. 의사결정 트리 분석 실습(tree) - 사고유형별/월별 교통사고 데이터
3. 의사결정 트리 분석 실습(party) - 사고유형별/월별 교통사고 데이터
4. 의사결정 트리 분석 실습(rpart) - 사고유형별/월별 교통사고 데이터
5. 의사결정 트리 분석 실습(tree) - 혁신제품 만족 데이터
6. 의사결정 트리 분석 실습(party) - 혁신제품 만족 데이터
7. 의사결정 트리 분석 실습(rpart) - 혁신제품 만족 데이터
4 앙상블 기법
1. 앙상블 기법의 의미와 종류
2. Bagging 실습 – 사고유형별/월별 교통사고 데이터
3. Boosting 실습 – 사고유형별/월별 교통사고 데이터
4. Random Forest 실습 – 사고유형별/월별 교통사고 데이터
5. Bagging 실습 – 혁신제품 만족 데이터
6. Boosting 실습 – 혁신제품 만족 데이터
7. Random Forest 실습 – 혁신제품 만족 데이터
5 인공신경망
1. 인공신경망의 의미
2. 인공신경망 실습 – 사고유형별/월별 교통사고 데이터
3. 인공신경망 실습(역전파) – 사고유형별/월별 교통사고 데이터
4. 인공신경망 실습 – 혁신제품 만족 데이터
5. 인공신경망 실습(역전파) – 혁신제품 만족 데이터
6 종합 연습문제
PART9 빅데이터 분석 및 시각화 : 비지도학습과 분류분석
1 비지도 학습의 이해
2 군집분석
1. 군집분석의 이해
2. 계층적 군집분석
2.1 계층적 군집분석의 의미
2.2 계층적 군집분석 실습 – 음식점 점수 데이터
2.3 계층적 군집분석 실습 – 공항철도 역간거리 데이터
3. K-means (비계층적) 군집분석
3.1 K-means (비계층적) 군집분석의 의미
3.2 비계층적 군집분석 실습 – 음식점 점수 데이터
3.3 비계층적 군집분석 실습 – 혁신제품 만족 데이터
3 연관규칙 분석
1. 연관규칙 분석의 의미
2. 연관규칙 실습 – 영화시청 데이터
3. 연관규칙 실습 – 한국소비자보호원 소비자 피해구제 데이터
4. 연관규칙 실습 – 2021 한국프로야구 롯데팀 홈런기록 데이터
4 종합 연습문제
PART10 텍스트마이닝
1 텍스트마이닝의 소개
1. 텍스트마이닝의 소개
2. 텍스트마이닝 분석 이전에 주의사항
2 stringr 패키지를 활용한 텍스트 데이터 전처리
1. Stringr 패키지 설명
2. Stringr 함수 실습
3 웹 데이터의 수집
1. 네이버 영화 평점 크롤링
2. 네이버 영화 - KoNLP와 워드 클라우드
3. 네이버 뉴스 크롤링
4. 네이버 뉴스 – KoNLP와 워드 클라우드
5. 음원사이트 댓글 크롤링 – Selenium 활용
6. 음원사이트 댓글 – KoNLP와 워드 클라우드
4 종합 연습문제
PART11 시계열 데이터 분석
1 시계열 데이터 분석의 의미 5
1. 시계열 분석의 의미
2. 정상 시계열과 비정상 시계열
3. 비정상 시계열 데이터의 요인
4. 시계열 분석 시 고려사항
5. 시계열 데이터의 정상성 확인
6. 시계열 데이터의 요소 분해
7. 시계열 데이터의 분석 모형
8. 시계열 데이터의 예측오차와 평가
2 시계열 데이터의 시각화 및 예측실습 1
3 시계열 데이터의 시각화 및 예측실습 2
4 시계열 데이터의 시각화 및 예측실습 3
5 종합 연습문제