PySpark 배우기
도서명:PySpark 배우기
저자/출판사:토마스,드라바스,데니,리/에이콘출판
쪽수:336쪽
출판일:2017-10-30
ISBN:9791161750705
목차
1장. 스파크 이해하기
__아파치 스파크는 무엇인가?
__스파크 잡과 API
____실행 프로세스
____RDD
____데이터프레임
____데이터셋
____카탈리스트 옵티마이저
____프로젝트 텅스텐
__스파크 2.0의 구조
____데이터셋과 데이터프레임 통합
____스파크세션에 대한 소개
____텅스텐 페이스 2
____구조적 스트리밍
____지속적 애플리케이션
__요약
2장. RDD
__RDD의 내부 작동 원리
__RDD 생성하기
____스키마
____파일로부터 데이터 읽기
____람다 표현
__전역 범위 vs. 지역 범위
__트랜스포메이션
____map() 트랜스포메이션
____.filter() 트랜스포메이션
____.flatMap(...) 트랜스포메이션
____.distinct() 트랜스포메이션
____.sample(...) 트랜스포메이션
____.leftOuterJoin(...) 트랜스포메이션
____.repartition(...) 트랜스포메이션
__액션
____.take(...) 함수
____.collect(...) 함수
____.reduce(...) 함수
____.count(...) 함수
____.saveAsTextFile(...) 함수
____.foreach(...) 함수
__요약
3장. 데이터프레임
__파이썬에서의 RDD 커뮤니케이션
__카탈리스트 옵티마이저 리뷰
__데이터프레임을 이용한 파이스파크 스피드업
__데이터프레임 생성하기
____JSON 데이터 생성하기
____데이터프레임 생성하기
____임시 테이블 생성하기
__간단한 데이터프레임 쿼리
____데이터프레임 API 쿼리
____SQL 쿼리
__RDD로 연동하기
____리플렉션을 이용한 스키마 추측하기
____프로그래밍하는 것처럼 스키마 명시하기
__데이터프레임 API로 쿼리하기
____행의 개수
____필터문 실행하기
__SQL로 쿼리하기
____행의 개수
____필터문을 where 절을 사용해 실행하기
__데이터프레임 시나리오: 비행 기록 성능
____출발지 데이터셋 준비하기
____비행 성능 데이터셋과 공항 데이터셋 조인하기
____비행 성능 데이터 시각화하기
__스파크 데이터셋 API
__요약
4장. 데이터 모델링 준비하기
__중복, 미관찰 값, 아웃라이어 확인하기
____중복 값
____관찰되지 않은 데이터
____아웃라이어
__데이터에 친숙해지기
____기술 통계
____상관 계수
__시각화
____히스토그램
____피처 사이의 상호작용
__요약
5장. MLlib 소개하기
__패키지에 대한 개요
__데이터 로딩하기와 변형하기
__데이터에 대해 알아보기
____기술 통계
____상관 계수
____통계 값 테스트하기
__최종 데이터셋 생성하기
____LabeledPoint의 RDD 생성하기
____학습 데이터셋과 테스트 데이터셋으로 나누기
__유아 생존율 예측하기
____MLlib의 로지스틱 회귀
____가장 유용한 피처 선택하기
____MLlib에서의 랜덤 포레스트
__요약
6장. ML 패키지 소개하기
__패키지의 개요
____트랜스포머
____에스티메이터
____분류 모델
____회귀 모델
____군집화 모델
____파이프라인
__ML로 유아 생존율 예측하기
____데이터 로드하기
____트랜스포머 생성하기
____에스티메이터 생성하기
____파이프라인 생성하기
____모델 학습하기
____모델의 성능 측정하기
____모델 저장하기
__파라미터 하이퍼튜닝
____그리드 탐색
____학습/검증 데이터셋 쪼개기
____파이스파크 ML의 다른 피처 실습
____피처 추출
__요약
7장. 그래프프레임
__그래프프레임 소개
__그래프프레임 설치하기
____라이브러리 생성
__비행 데이터셋 준비하기
__그래프 생성하기
__간단한 쿼리 수행하기
____공항과 여행의 개수 확인하기
____데이터셋 내에서 가장 긴 지연 확인하기
____지연 비행 vs. 정각/이른 비행 확인하기
____시애틀에서 출발하는 어떤 비행기에서 지연이 발생할 확률이 높은가?
____시애틀에서 출발해 어떤 주로 향할 때 비행기의 지연 가능성이 높을까?
__노드 degree 이해하기
__상위 환승 공항 알아내기
__모티브 이해하기
__페이지랭크를 이용해 공항 순위 알아보기
__가장 인기 있는 논스톱 비행편 확인하기
__너비 우선 탐색 사용하기
__D3를 이용한 비행편 시각화
__요약
8장. 텐서프레임
__딥러닝이란 무엇인가?
____인공신경망과 딥러닝의 필요성
____피처 엔지니어링이란?
____데이터와 알고리즘 연결하기
__텐서플로우는 무엇인가?
____pip 설치하기
____텐서플로우 설치하기
____상수를 이용한 행렬 곱
____placeholder를 이용한 행렬 곱
____논의
__텐서프레임 소개하기
__텐서프레임: 퀵 스타트
____설정과 셋업
____기존 칼럼에 상수를 더하기 위해 텐서플로우 사용하기
____블록 단위 reduce 연산자 예제
__요약
9장. 블레이즈를 이용한 다언어 코드 지속성
__블레이즈 설치하기
__다언어 코드 지속성
__데이터 추상화하기
____NumPy 배열로 작업하기
____pandas 데이터프레임 사용하기
____파일로 작업하기
____데이터베이스로 작업하기
__데이터 연산
____칼럼 접근하기
____심볼릭 트랜스포메이션
____칼럼 연산자
____데이터 축소
____조인
__요약
10장. 구조적 스트리밍
__스파크 스트리밍은 무엇인가?
__스파크 스트리밍이 왜 필요한가?
__스파크 스트리밍 애플리케이션의 데이터 흐름은 어떠한가?
__DStream을 이용한 간단한 스트리밍 애플리케이션
__스파크 스트리밍의 글로벌 집계에 대한 기본
__구조적 스트리밍 소개하기
__요약
11장. 스파크 애플리케이션 패키지화하기
__spark-submit 명령어
명령행 파라미터
__애플리케이션 실행시키기
____SparkSession 설정하기
____SparkSession 생성하기
____코드 모듈화하기
____잡 서브밋하기
____실행 상태 모니터링하기
__데이터브릭스 잡
__요약