처음 시작하는 R 데이터 분석
도서명:처음 시작하는 R 데이터 분석
저자/출판사:김은옥/삼양미디어
쪽수:320쪽
출판일:2022-02-25
ISBN:9788958974024
목차
머리말
CHAPTER 01 데이터 분석 개요
① 데이터 분석의 의미와 활용
② 데이터 분석에 필요한 것
(1) 데이터 분석에 필요한 3요소
(2) 데이터 분석 과제 수행 순서
(3) 데이터 분석 단계
CHAPTER 02 데이터 분석 툴 R/RStudio 설치 및 환경 설정
①R의 다운로드 및 설치
(1) 선수 작업
(2) R 다운로드
(3) R 설치
(4) R 아이콘에 관리자 권한 설정
② RStudio의 다운로드 및 설치
(1) RStudio 다운로드
(2) RStudio 설치
(3) RStudio 바로 가기 아이콘 만들기
(4) RStudio 실행 시 관리자 권한 설정
③ RStudio의 실행 및 설정
(1) RStudio 실행
(2) 패키지 업데이트
(3) RStudio 창의 구성
(4) RStudio 개발 환경 설정
④ 프로젝트 작성과 스크립트 사용
(1) 프로젝트 관리 폴더 작성
(2) 프로젝트 작성
(3) 프로젝트에 작업 폴더 작성
(4) 스크립트 작성
(5) [R script] 창에서 코드 실행 방법
⑤ R의 도움말 사용 및 패키지 추가 설치
(1) R의 도움말 사용법
(2) 패키지 관리 : [Package] 탭
(3) R에서 제공하는 모든 패키지 목록 확인
(4) 프로젝트에서 필요한 패키지 설치 및 사용
ㆍ 하나 더
CHAPTER 03 R 기본 문법
① 변수
(1) 변수 개요
(2) 변수 선언
(3) 변수 사용
(4) 변수 제거
② 데이터 타입
(1) 데이터 타입 개요
(2) 타입 확인
(3) 타입 변환 함수
(4) 타입 검사 함수
③ 벡터
(1) 벡터를 만드는 방법
(2) 벡터 원소값 추출
④여러 개의 값 저장
(1) 벡터 : c()
(2) 리스트 : list()
(3) 행렬 : matrix()
(4) 배열 : array()
⑤데이터프레임 : data.frame()
(1) 데이터프레임 직접 생성
(2) 데이터 파일을 로드하여 데이터프레임 생성
⑥ 함수 이해
(1) 함수 개요
(2) 사용자 정의 함수
ㆍ 하나 더
CHAPTER 04 통계 기초
① 개요
(1) 기술 통계
(2) 추리 통계
② 대표값과 기초 개념
(1) 평균값, 분산, 표준편차
(2) 최빈수(mode)
(3) R에서 평균, 분산, 표준편차, 최빈수 구하기
(4) 요약 통계량
(5) R에서 최소값, 최대값, 사분위수 구하기
CHAPTER 05 탐색적 데이터 분석(EDA) 개요 - 데이터 분석 1단계
① 실무 데이터를 사용한 작업 순서
(1) 실무 데이터를 읽어옴
(2) 읽어온 데이터 처리 : 전처리
(3) 전처리된 데이터를 통계 분석하거나 시각화
②모든 데이터에 공통으로 해야 할 분석 : EDA
(1) 수량형 변수와 범주형 변수
(2) 데이터의 내용과 구조 파악 - 기본 함수 또는 dplyr 패키지의 함수 사용
(3) 데이터의 요약 통계량, 빈도표 파악
(4) 결측치 확인 - 결측치/이상치 처리
(5) 무조건 시각화함 - plot(), ggplot(), pairs()를 사용
③수량형 변수 분석에서 추가로 해야 할 작업
(1) 데이터 정규성 검사
(2) 가설 검정과 신뢰 구간
(3) 이상점 찾기
④ 범주형 변수 분석에서 추가로 해야 할 작업 - 성공과 실패형
(1) 요약 통계량 계산
(2) 데이터 분포 시각화
(3) 가설 검정과 신뢰 구간
CHAPTER 06 데이터 전처리 - 가공/처리
① 데이터 탐색 함수
(1) 데이터 탐색에 사용할 데이터프레임 생성
(2) head() 함수
(3) tail() 함수
(4) dim() 함수
(5) str() 함수
(6) summary() 함수
(7) data.frame() 함수
(8) name() 함수
② 데이터 전처리를 하는 dplyr 패키지의 함수 사용 개요
(1) dplyr 패키지 설치 및 로드
(2) dplyr 패키지의 함수 사용법
(3) %>%(파이프 연산자)
③ filter() 함수 - 행(데이터) 추출
(1) 기본 사용 방법
(2) 조건 지정
④ select() 함수 - 열(변수) 추출
(1) 기본 사용 방법
(2) 데이터프레임에서 변수를 추출하는 다양한 방법
(3) 전처리 함수 중첩
⑤ arrange() 함수 - 정렬
(1) 기본 사용 방법
(2) 다차 정렬
(3) 사용자 정의 정렬
⑥ mutate() 함수 - 변수(필드) 추가
(1) df_gap 데이터프레임 생성
(2) 기본 사용 방법
(3) 새 변수 만드는 방법
(4) 추가 실습
(5) 6장 문제
⑦ summarize() 함수 - 요약 통계치 산출
(1) 기본 사용 방법
⑧ group_by() 함수 - 그룹별로 나누기
(1) 기본 사용 방법
⑨ left_join() 함수 - 조인
(1) 기본 사용 방법
(2) 추가 실습
⑩ bind_rows() 함수 - 바인딩
(1) 기본 사용 방법
⑪ 랜덤 샘플링 함수
(1) sample_n( ) 함수
(2) sample_frac( ) 함수
⑫distinct() 함수
CHAPTER 07 결측치와 이상치 처리
① 결측치 처리
(1) 결측치 확인 함수
(2) 결측치 제외
(3) 결측지 보정
②이상치 처리
(1) 이상치를 결측치로 바꿔서 제외
(2) 이상치 보정
CHAPTER 08 시각화
① 시각화 개요
(1) 산점도 행렬
(2) 플롯 파일로 저장
(3) 요약 통계량과 상관관계
(4) 시각화 순서
② ggplot() 함수를 사용한 그래프 작성 기본
(1) 작성 방법
(2) 그래프 종류별 작도
③변수의 개수와 종류별 시각화
(1) 수량형 변수 1개 : x축
(2) 범주형 변수 1개 : x축
(3) 수량형 변수 2개 : x축, y축
(4) 변수 2개(x축 날짜 데이터, y축 값)
(5) 범주형 변수 1개, 수량형 변수 1개 : x축, y축
(6) 추가 실습
ㆍ 단원 문제
CHAPTER 09 통계적 데이터 분석 개요- 데이터 분석 2단계
① 실무 데이터를 사용한 전체 데이터 분석 순서
(1) 실무 데이터 로드
(2) 탐색적 데이터 분석
(3) 통계적 데이터 분석
CHAPTER 10 통계 분석에 필요한 기본 개념
① 가설 검정과 p값, 신뢰 구간
(1) 가설 검정과 p값
(2) 대응표본 t-test : 코로나19 사태 전과 후의 지하철 이용객 수 차이
(3) 독립표본 t-test : 전륜 구동차(f)와 4륜 구동차(4) 간의 도시 주행 연비(cty) 차이
(4) 단일표본 t-test : 지하철 2호선의 역별, 일별 하차 승객 수와 지하철 평균 역별, 일별 하차 승객 수 비교
② 모집단, 모수, 표본
CHAPTER 11 데이터 타입에 따른 분석 기법
① 개요
(1) 모든 데이터에 공통으로 해야 할 분석 기법 : 탐색적 데이터 분석(EDA)
(2) 변수 종류와 수에 따른 통계 분석
② 1개의 수량형 변수 분석 : t-test
(1) 데이터 로드 및 파악
(2) 작업 대상 변수 선택 및 통계량 확인
(3) 데이터 형태 파악을 위한 시각화
(4) 일변량 t-test
(5) 이상치와 로버스트 통계 방법
③ 1개의 범주형 변수 분석 : 성공/실패 값
(1) 데이터 로드 및 파악
(2) 작업 대상 변수 선택 및 빈도표 확인
(3) 데이터 형태 파악을 위한 시각화
(4) 이항 검정(binomial test) binom.test( )
(5) 오차 한계, 표본 크기
④2개의 변수(수량형 변수-x, 수량형 변수-y) 분석 : 회귀분석
(1) 데이터 로드 및 파악
(2) 요약 통계량, 결측치 확인
(3) 데이터 형태 파악을 위한 시각화
(4) 상관계수
(5) 단순 회귀분석 - lm(y ~ x)
(6) 모형 적합도 검정
(7) 선형 회귀 모형 예측
(8) 선형 회귀 모형의 가정 진단
(9) 로버스트 선형 회귀분석 - lqs( )
(10) 비선형(비모수적) 회귀분석 방법 - 평활법 : LOESS
⑤ 2개의 변수(범주형 변수-x, 수량형 변수-y) 분석 : 분산분석
(1) 데이터 로드 및 파악
(2) 통계량, 빈도표 확인
(3) 데이터 형태 파악을 위한 시각화
(4) 분산분석 - lm(y ~ x)
(5) 분산분석 진단 플롯
ㆍ 단원 문제
CHAPTER 12 데이터 타입에 따른 분석 기법
①대한민국 인구 변화 분석
(1) 개요
(2) 대한민국 50년간의 인구 예측 데이터를 사용한 인구 변화 확인
(3) 혼인건수의 변화와 출생건수 변화 관계 분석
②연령대별 가구의 재정 변화 분석
(1) 개요
(2) 연도별 자산, 부채의 변화 추이 파악 및 예측
(3) 연도별 자산, 소득 현황 비교
(4) 연령대별 재산의 건전성 및 소득 추이 비교
ㆍ 하나 더