스파크 2.0으로 하는 고속 스마트 빅데이터 분석과 처리 3/e
도서명:스파크 2.0으로 하는 고속 스마트 빅데이터 분석과 처리 3/e
저자/출판사:크리슈나,산카르/에이콘출판
쪽수:356쪽
출판일:2017-09-22
ISBN:9791161750569
목차
1장. 스파크 설치와 클러스터 설정
__폴더 구조와 규약
__미리 빌드된 배포 버전 설치
__스파크 소스 빌드
____스파크 소스 다운로드
____메이븐 환경에서 스파크 소스 컴파일
____컴파일 스위치
____스파크 설치 테스트
__스파크 토폴로지
__싱글 머신
__EC2에서 스파크 구동
____EC 스크립트 다운로드
____EC2 스크립트로 EC2 환경에서 스파크 구동
____일래스틱 맵리듀스 환경에 스파크 배포
__체프(옵스코드)를 이용한 스파크 배포
__메소스 환경에서 스파크 배포
__얀 환경에서 스파크 구동
__스파크 독립 모드
__참고 자료
__요약
2장. 스파크 셸
__스파크 셸
____스파크 셸 종료
____스파크 셸을 이용한 예제 코드 실행
__단순한 텍스트 파일 로딩
__S3에서 대화 형태로 데이터 로딩
____파이썬을 이용한 스파크 셸 구동
__요약
3장. 스파크 애플리케이션 구현과 동작
__스파크 애플리케이션 구현
__아이파이썬을 이용한 데이터 랭글링
__이클립스를 이용한 스파크 개발
__기타 IDE를 이용한 스파크 개발
__메이븐을 이용한 스파크 잡 개발
__기타 개발 도구를 이용한 스파크 잡 개발
__참고 자료
__요약
4장. SparkSession객체 생성
__SparkSession과 SparkContext
__SparkSession 객체 생성
__스파크컨텍스트의 메타데이터
__공유 자바 API와 스칼라 API
__파이썬
__아이파이썬
__참고 자료
__요약
5장. 스파크의 데이터 로딩과 저장
__스파크 추상화
____RDDs
__데이터 유형
__데이터 유형과 데이터셋, 데이터프레임, RDD
__데이터를 RDD에 로딩
__데이터 저장
__참고 자료
__요약
6장. RDD 조작
__스칼라와 자바를 이용한 RDD 조작
____스칼라 RDD 메소드
____PairRDD 클래스를 조합하는 메소드
____기타 PairRDD 메소드
____더블 RDD 메소드
____범용 RDD 메소드
____자바 RDD 메소드
__파이썬을 이용한 RDD 조작
____표준 RDD 메소드
____PairRDD 메소드
__참고 자료
__요약
7장. 스파크 2.0 컨셉
__이 책의 나머지에서 다룰 코드와 데이터셋
____코드
____IDE
____아이파이썬 스타트업과 테스트
____데이터셋
__데이터 과학자와 스파크 특징
____데이터 과학자 데브옵스 실무자는 누구인가?
____데이터 레이크 아키텍처
__스파크 버전 2.0과 그 이상
__아파치 스파크: 진화
__아파치 스파크: 풀 스택
__빅데이터 저장소의 예술: 파큇
____칼럼 프로젝션과 데이터 파티션
____압축
____스마트한 데이터 스토리지와 서술 푸시다운
____스키마 진화를 위한 지원
____성능
__참고 자료
__요약
8장. 스파크 SQL
__스파크 SQL 아키텍처
__명확한 스파크 SQL 사용 방법
____스파크 2.0의 스파크 SQL
__스파크 SQL 프로그래밍
____데이터셋과 데이터프레임
____간단한 데이터 테이블에 접근할 수 있는 SQL
__참고 자료
__요약
9장. 데이터셋과 데이터프레임의 기초: 데이터 과학자를 위한 핵심 가치
__데이터셋: 간단한 소개
__데이터셋 API: 개요
____org.apache.spark.sql.SparkSession과 pyspark.sql.SparkSession
____org.apache.spark.sql.Dataset/pyspark.sql.DataFrame
____org.apache.spark.sql.{Column, Row}/pyspark.sql.(Column, Row)
____org.apache.spark.sql.functions/pyspark.sql.functions
__데이터셋 인터페이스와 메소드
____읽기/쓰기 동작
____통합 메소드
____통계 메소드
____수학 메소드
____데이터셋을 이용한 데이터 랭글링
____원하는 모든 대답을 위한 마지막 데이터 통합
__참고 자료
__요약
10장. 빅데이터를 위한 스파크
__파큇:효과적이면서 상호 운용할 수 있는 빅데이터 포맷
____파큇 포맷으로 파일 저장
____파큇 파일 로딩
____처리를 완료한 RDD를 파큇 포맷으로 저장
__HBase
____HBase에서 데이터 로딩
____데이터를 HBase에 저장
____기타 HBase 동작
__참고 자료
__요약
11장. 스파크 ML 파이프라인을 이용한 머신 러닝
__스파크의 머신 러닝 알고리즘 테이블
__스파크 머신 러닝 API: ML 파이프라인과 MLlib
__ML 파이프라인
__스파크 ML 예시
__API 알고리즘
__기본적인 통계
____데이터 로드
____통계 계산
__선형 회귀
____데이터 변환과 특징 추출
____데이터 분리
____회귀 모델을 이용한 예측
____모델 평가
__데이터 분류
____데이터 로드
____데이터 변환과 특징 추출
____데이터 분리
____회귀 모델
____회귀 모델을 이용한 예측
____모델 평가
__클러스터링
____데이터 로드
____데이터 변환과 특징 추출
____데이터 분리
____회귀 모델을 이용한 예측
____모델 평가와 해석
____모델 해석 클러스터링
__추천
____데이터 로드
____데이터 변환과 특징 추출
____데이터 분리
____모델을 이용한 예측
____모델 평가와 해석
__하이퍼 파라미터
__마지막으로 알아둘 것
__참고 자료
__요약
12장. 그래프X
__그래프와 그래프 처리 개요
__스파크 그래프X
__그래프X: 연산 모델
__첫 번째 예시:그래프
__그래프 구성
__그래프X API의 전체 구조
__구조적인 API
____출력 결과에 어떤 문제가 있는가?
__커뮤니티, 연합, 내구성
__알고리즘
____그래프 병렬 계산 API
__파티션 전략
__케이스 스터디:알파고 트윗 분석
____데이터 파이프라인
____그래프X 모델링
____그래프X처리와 알고리즘
__참고 자료
__요약