파이썬을 활용한 스파크 프로그래밍
도서명:파이썬을 활용한 스파크 프로그래밍
저자/출판사:제프리,에이븐/에이콘출판
쪽수:388쪽
출판일:2019-08-28
ISBN:9791161753287
목차
1부. 스파크 기초
1장. 빅데이터, 하둡 및 스파크 소개
__빅데이터, 분산 컴퓨팅 및 하둡 소개
____빅데이터와 하둡의 간략한 역사
____하둡
__아파치 스파크 소개
____아파치 스파크 배경
____스파크 사용
____스파크 프로그래밍 인터페이스
____스파크 프로그램의 제출 유형
____스파크 응용 프로그램의 입력/출력 유형
____스파크 RDD
____스파크와 하둡
__파이썬을 이용한 함수 프로그래밍
____파이썬 함수 프로그래밍에서 사용되는 데이터 구조
____파이썬 객체 직렬화
____파이썬 함수형 프로그래밍 기초
__요약
2장. 스파크 배포
__스파크 배포 모드
____로컬 모드
____스파크 독립실행형
____얀에서의 스파크
____메소스에서의 스파크
__스파크 설치 준비
__스파크 가져오기
__리눅스나 맥 OS X에서 스파크 설치하기
__윈도우에 스파크 설치하기
__스파크 설치 탐색
__다중노드(Multi-Node) 스파크 독립실행형 클러스터 배포
__클라우드에서 스파크 배포
____아마존 웹 서비스
____구글 클라우드 플랫폼
____데이터브릭스
__요약
3장. 스파크 클러스터 아키텍처의 이해
__스파크 응용 프로그램의 해부
____스파크 드라이버
____스파크 작업자 및 실행자
____스파크 마스터와 클러스터 매니저
__독립실행형 스케줄러를 사용하는 스파크 응용 프로그램
____얀에서 실행되는 스파크 응용 프로그램
__얀에서 실행되는 스파크 응용 프로그램의 배포 모드
____클라이언트 모드
____클러스터 모드
____로컬 모드 재검토
__요약
4장. 스파크 프로그래밍 기초 학습
__RDD의 소개
__RDD에 데이터 로드하기
____하나 이상의 파일에서 RDD 생성하기
____하나 이상의 텍스트 파일에서 RDD를 만드는 방법
____오브젝트 파일에서 RDD 만들기
____데이터 소스에서 RDD 만들기
____JSON 파일에서 RDD 만들기
____프로그래밍 방식으로 RDD 생성하기
__RDD 연산
____주요 RDD 개념
____기본 RDD 변환
____기본 RDD 액션
____PairRDD의 변환
____맵리듀스 및 워드 카운트(Word Count) 연습
____조인(Join) 변환
____스파크에서 데이터세트 조인하기
____세트(Sets)의 변환
____숫자(numeric) RDD의 변환
__요약
2부. 스파크 응용
5장. 스파크 코어 API를 사용한 고급 프로그래밍
__스파크의 공유변수
____브로드캐스트 변수
____어큐뮬레이터
____연습: 브로드캐스트 변수 및 어큐뮬레이터 사용
__스파크의 데이터 파티셔닝
____파티셔닝 개요
____파티션 제어
____함수 재분할
____파티션 별 또는 파티션 인식 API 메소드
__RDD 저장 옵션
____RDD 리니지 재검토
____RDD 저장 옵션
____RDD 캐싱
____RDD 유지
____RDD를 유지하거나 캐시할 시기 선택하기
____RDD 체크포인트 지정
____연습: RDD 체크포인트
__외부 프로그램으로 RDD 처리하기
__스파크를 사용해 데이터 샘플링하기
__스파크 응용 프로그램 및 클러스터 구성 이해하기
____스파크 환경변수
____스파크 구성 속성
__스파크 최적화하기
____초기 필터, 자주 필터
____연관연산 최적화하기
____함수 및 클로저의 영향 이해하기
____데이터 수집을 위한 고려 사항
____응용 프로그램 조정 및 최적화를 위한 구성 매개변수
____비효율적인 파티셔닝 피하기
____응용 프로그램 성능 문제 진단하기
__요약
6장. 스파크로 SQL 및 NoSQL 프로그래밍하기
__스파크 SQL 소개
____하이브 소개
____스파크 SQL 아키텍처
____데이터프레임 시작하기
____데이터프레임 사용
____캐싱, 지속 및 데이터프레임 재구성
____데이터프레임 출력 저장
____스파크 SQL 액세스하기
____연습: 스파크 SQL 사용하기
__NoSQL 시스템에서 스파크 사용하기
____NoSQL 소개
____HBase와 스파크 사용하기
____연습: HBase로 스파크 사용하기
____카산드라와 함께 스파크 사용하기
____DynamoDB에서 스파크 사용하기
____기타 NoSQL 플랫폼
__요약
7장. 스파크를 사용한 스트림 처리 및 메시징
__스파크 스트리밍 소개
____스파크 스트리밍 아키텍처
____DStream 소개
____연습: 스파크 스트리밍 시작하기
____State 연산
____슬라이딩 윈도우 연산
__구조화된 스트리밍
____구조화된 스트리밍 데이터 소스
____구조화된 스트리밍 데이터 싱크
____출력 모드
____구조화된 스트리밍 연산
__메시징 플랫폼에서 스파크 사용
____아파치 카프카
____연습: 카프카와 스파크 사용하기
____아마존 킨시스
__요약
8장. 스파크를 사용한 데이터 과학 및 머신 러닝 소개
__스파크 및 R
____R 소개
____R에 스파크 사용하기
____연습: SparkR과 함께 RStudio 사용하기
__스파크로 머신 러닝하기
____머신 러닝 입문서
____스파크 MLlib를 사용한 머신 러닝
____연습: 스파크 MLlib를 사용해서 Recommender 구현하기
____스파크 ML을 사용한 머신 러닝
__스파크와 함께 노트북 사용하기
____주피터(IPython) 노트북과 스파크 사용하기
____스파크에서 아파치 제플린 노트북 사용하기
__요약