빅데이터 처리와 분석을 위한 하둡 맵리듀스 프로그래밍
도서명:빅데이터 처리와 분석을 위한 하둡 맵리듀스 프로그래밍
저자/출판사:스리나스,페레라,실리나,기나라스네/에이콘출판
쪽수:388쪽
출판일:2013-05-21
ISBN:9788960774308
목차
1 하둡 시작과 클러스터에서 실행
___소개
___하둡 설치
___WordCount MapReduce 예제 작성, 패키징, 하둡 실행
___WordCount 맵리듀스에 컴바이너 추가
___HDFS 설정
___HDFS 모니터링 UI
___HDFS 커맨드라인 명령
___분산 클러스터 환경에서 하둡 설정
___분산 클러스터에서 WordCount 실행
___맵리듀스 모니터링 UI
2 고급 HDFS
___소개
___HDFS 벤치마크
___새로운 데이터 노드 추가
___데이터 노드의 해지
___다중 디스크/볼륨 사용과 HDFS 디스크 사용량 제한
___HDFS 블록 크기 설정
___파일 복제 계수 설정
___HDFS 자바 API 사용
___HDFS C API 사용(libhdfs)
___HDFS 퓨즈 마운트(Fuse-DFS)
___HDFS에서 파일 병합
3 고급 하둡 맵리듀스 관리
___소개
___클러스터 배포를 위한 하둡 구성 튜닝
___하둡 설치를 확인하기 위한 벤치마크 수행
___성능 향상을 위한 Java VM 재사용
___장애 허용과 투기적 실행
___디버깅 스크립트: 태스크 실패 분석
___실패율 설정과 잘못된 레코드 건너뛰기
___공유 사용자를 위한 하둡 클러스터: 페어 스케줄러와 캐패시터 스케줄러 사용
___하둡 보안: 커버로스와 통합
___하둡 Tool 인터페이스 사용
4 복잡한 하둡 맵리듀스 애플리케이션 개발
___소개
___하둡 데이터 타입 선택
___사용자 정의 Writable 데이터 타입 구현
___사용자 정의 키 타입 구현
___매퍼에서 다양한 값 타입 내보내기
___입력 데이터 포맷에 따른 하둡 InputFormat 선택
___새로운 입력 데이터 포맷 추가: 사용자 정의 InputFormat 구현
___맵리듀스 결과 포맷팅: 하둡 OutputFormats 사용
___맵과 리듀스 중간 데이터 파티셔닝
___맵리듀스 잡의 공유 자원 배포와 분산: 하둡 DistributedCache
___하둡 레거시 애플리케이션 사용: 하둡 스트리밍
___맵리듀스 잡 사이의 의존성 추가
___사용자 정의 통계를 리포팅하기 위한 하둡 카운터
5 하둡 에코시스템
___소개
___HBase 설치
___자바 클라이언트 API로 데이터 랜덤 액세스
___HBase에서 맵리듀스 실행
___피그 설치
___피그 명령어 실행
___피그 조인(join), 유니온, 정렬 작업
___하이브 설치
___하이브로 SQL 스타일 쿼리 실행
___하이브 조인 수행
___머하웃 설치
___머하웃 K-means 실행
___K-means 결과 시각화
6 분석
___소개
___맵리듀스를 이용한 간단한 분석
___맵리듀스를 이용한 Group-By 수행
___맵리듀스를 이용한 빈도 분포 계산과 정렬
___GNU Plot을 사용한 하둡 결과 도식
___맵리듀스를 이용한 히스토그램 계산
___맵리듀스를 이용한 산점도 계산
___하둡으로 복잡한 데이터셋 구문 분석
___맵리듀스를 이용한 두 데이터셋 조인
7 검색과 색인
___소개
___하둡 맵리듀스를 사용해 역색인 생성
___아파치 너치를 사용해 인트라 도메인의 웹 크롤링
___아파치 솔라를 이용한 웹 문서 색인과 검색
___아파치 너치에서 백엔드 데이터 저장소로 아파치 HBase 설정
___하둡 클러스터에서 아파치 HBase 배포
___하둡/HBase 클러스터를 이용해 아파치 너치로 전체 웹 크롤링
___색인과 검색을 위한 일래스틱서치
___크롤링 웹 페이지의 in-link 생성
8 분류, 추천, 관계 분석
___소개
___콘텐트 기반 추천
___계층적 클러스터링
___아마존 세일즈 데이터셋 클러스터링
___협업 필터링 기반 추천
___나이브 베이즈 분류
___애드워즈 균형 알고리즘을 사용한 키워드 광고
9 대용량 텍스트 데이터 처리
___소개
___하둡 스트리밍과 파이썬을 이용한 데이터 전처리(추출, 정제, 형식 변환)
___하둡 스트리밍을 이용한 데이터 중복 제거
___Importtsv와 bulkload 도구를 사용해 아파치 HBase 데이터 저장소에 대용량 데이터셋 로드
___텍스트 데이터의 TF와 TF-IDF 벡터 생성
___텍스트 데이터 클러스터링
___잠재 디리클레 할당(LDA)을 사용한 주제 검색
___머하웃 나이브 베이스 분류기를 이용한 문서 분류
10 클라우드 환경에서 하둡 배포
___소개
___아마존 일래스틱 맵리듀스(EMR)를 사용해 하둡 맵리듀스 실행
___EMR 잡 플로우를 실행하기 위해 아마존 EC2 스팟 인스턴스를 사용해 비용 절약
___EMR을 사용해 피그 스크립트 실행
___EMR을 사용해 하이브 스크립트 실행
___커맨드라인 인터페이스를 사용해 아마존 EMR 잡 플로우 생성
___EMR을 사용해 아마존 EC2 클라우드에 아파치 HBase 설치
___아마존 EMR 잡의 VM 설정을 위한 EMR의 부트스트랩 사용
___클라우드 환경에서 아파치 하둡 클러스터를 배포하기 위한 아파치 Whirr 사용
___클라우드 환경에서의 아파치 HBase 클러스터를 배포하게 아파치 Whirr 사용