데이터는 언제나 옳다
도서명:데이터는 언제나 옳다
저자/출판사:마이클,마누체흐리/위키북스
쪽수:256쪽
출판일:2014-05-28
ISBN:9788998139551
목차
[1부] 빅데이터 시대의 방향
▣ 1장: 데이터를 성공적으로 다루는 네 가지 법칙
언제부터 데이터가 중요해졌는가?
데이터와 단일 서버
빅데이터 트레이드오프
- 무한대로 확장 가능한 루션을 구축하라
- 인터넷을 통해 데이터를 공유할 수 있는 시스템을 구축하라
- 인프라가 아닌 솔루션을 구축하라
- 데이터에서 가치를 찾는 것에 집중하라
빅데이터 파이프라인의 해부
궁극의 데이터베이스
정리
[2부] 대용량 데이터의 수집 및 공유
▣ 2장: 대용량의 미가공 데이터를 호스팅하고 공유하기
파일 더미에서 괴로워하다
- 다량의 파일을 공유할 때 직면하는 문제
스토리지: 인프라 서비스
- 네트워크는 느리다
적합한 데이터 포맷 선택하기
- XML: 데이터, 스스로 표현하다
- JSON: 프로그래머의 선택
문자 인코딩
- 파일 변환
데이터 이동: 데이터 직렬화 포맷
- 아파치 쓰리프트와 프로토콜 버퍼
- 아파치 아브로
정리
▣ 3장: 대중이 생성한 데이터를 수집하기 위한 NoSQL 기반의 웹 애플리케이션 구축하기
관계형 데이터베이스: 명령과 제어
- 관계형 데이터베이스 ACID 테스트
관계형 데이터베이스와 인터넷 비교
- CAP 이론과 BASE
비관계형 데이터베이스 모델
- 키-값 데이터베이스
- 문서 저장소
쓰기 속도 최적화: 레디스
여러 레디스 인스턴스에 걸쳐 샤딩하기
- 트윔프록시를 이용한 자동 파티셔닝
- 레디스의 대****
NewSQL: 코드의 귀환
정리
▣ 4장: 데이터 사일로를 다루는 전략
전문용어 투성이인 웨어하우스
- 현실에서의 문제
- 데이터 규약과 안전을 위한 계획하기
- 데이터 웨어하우스 입문하기
- 데이터 웨어하우스의 마법 주문: 추출하고 변환하고 읽는다(ETL )
하둡: 웨어하우스의 코끼리
데이터 사일로에 좋은 면도 있다
- 기술이 아닌 데이터 도전과제에 집중한다
- 직원들이 직접 질문할 수 있는 권한 주기
- 데이터 사일로를 연결하는 기술에 투자하기
융합: 데이터 사일로의 끝
룬의 비즈니스 인텔리전스 시스템은 실현될 것인가?
정리
[3부] 데이터에 관해 질문하기
▣ 5장: 하둡, 하이브, 샤크를 이용해 대용량 데이터 집합에 대해 질문하기
데이터 웨어하우스란 무엇인가?
아파치 하이브: 하둡을 위한 대화식 질의하기
- 하이브 활용 사례
- 하이브 사용하기
- 하이브로 추가 데이터 소스 사용하기
샤크: RAM 속도로 질의하기
클라우드에서의 데이터 웨어하우스
정리
▣ 6장: 구글 빅쿼리를 이용한 데이터 대시보드 구축하기
분석형 데이터베이스
드리멜: 구글의 혁신 전파하기
- 드리멜과 맵리듀스는 어떻게 다른가?
빅쿼리: 서비스로서의 데이터 분석
- 빅쿼리의 질의 언어
맞춤형 데이터 대시보드 구축하기
- 빅쿼리 API 접근 인증하기
- 질의를 실행하고 결과 받기
- 질의 결과 캐싱하기
- 시각화 추가하기
분석형 질의 엔진의 미래
정리
▣ 7장: 대용량 데이터 탐색을 위한 데이터 시각화 전략
주의를 요하는 이야기: 데이터를 이야기로 바꾸기
인간 규모 대 컴퓨터 규모
- 상호작용성
대화식 데이터 애플리케이션 구축하기
R과 ggplot2를 이용한 대화식 시각화
- matplotlib: 파이썬을 이용한 2D 차트
- D3.js: 웹을 위한 대화식 시각화
정리
[4부] 데이터 파이프라인 구축하기
▣ 8장: 하나로 합치기: 맵리듀스 데이터 파이프라인
데이터 파이프라인이란 무엇인가?
- 작업에 적합한 도구
하둡 스트리밍을 이용한 데이터 파이프라인
- 맵리듀스와 데이터 변환
- 가장 간단한 파이프라인: stdin에서 stdout으로
단일 맵리듀스 변환
- 미가공 NVSS 데이터에서 관련 정보 추출하기: 맵 단계
- 월별 출생 수 세기: 리듀서 단계
- 로컬에서 맵리듀스 파이프라인 테스트하기
- 하둡 클러스터에서 맵리듀스 잡 실행하기
복잡성 관리: 하둡용 파이썬 맵리듀스 프레임워크
- mrjob을 이용해 하둡 스트리밍 예제 재작성하기
- 여러 단계 파이프라인 구축하기
- 엘라스틱 맵리듀스에서 mrjob 스크립트 실행하기
- 파이썬 기반의 대****맵리듀스 프레임워크
정리
▣ 9장: 피그와 캐스케이딩을 이용한 데이터 변환 워크플로우 구축하기
실전에서의 대규모 데이터 워크플로우
복잡하다: 다단계 맵리듀스 변환
- 아파치 피그: 복잡함을 제거하다
- 대화식 그룬트 셸을 이용해 피그 실행하기
- 데이터 워크플로우를 필터링하고 최적화하기
- 배치 모드로 피그 스크립트 실행하기
캐스케이딩: 견고한 데이터 워크플로우 애플리케이션 만들기
- 소스과 싱크 개념으로 생각하기
- 캐스케이딩 애플리케이션 만들기
- 캐스케이드 만들기: 간단한 JOIN 예제
- 하둡 클러스터에 캐스케이딩 애플리케이션 배포하기
피그와 캐스케이딩 중에서 선택해야 할 때
정리
[5부] 대용량 데이터를 위한 기계 학습
▣ 10장: 머하웃을 이용한 대용량 분류기 구축하기
컴퓨터는 미래를 예측할 수 있는가?
기계 학습의 도전과제
- 베이지****분류
- 클러스터링
- 추천 엔진
아파치 머하웃: 확장 가능한 기계 학습
- 텍스트 분류에서 머하웃 사용하기
MLBase: 분산 기계 학습 프레임워크
정리
[6부] 대용량 데이터에 대한 통계 분석
▣ 11장: 대용량 데이터에 R 활용하기
통계는 왜 섹시한가?
- 대용량 데이터에서 R이 지닌 한계
- R 데이터 프레임과 행렬
대용량 데이터를 다루는 전략
- 큰 행렬 연산: bigmemory와 biganalytics
- ff: 메모리보다 큰 데이터 프레임 다루기
- biglm: 대용량 데이터를 위한 선형 회귀 분석
- RHadoop: R에서 아파치 하둡에 접근하기
정리
▣ 12장: 파이썬과 Pandas를 이용한 분석 워크플로우 구축하기
데이터 동물원에서 뱀(Python )이 풀려나다
- 통계 계산을 위한 언어 선택
- 기존 코드 확장하기
- 도구와 테스팅
데이터 처리를 위한 파이썬 라이브러리
- NumPy
- SciPy: 파이썬을 위한 과학 컴퓨팅
- 이미지 데이터를 위한 SciPy 사용하기
- 판다스 데이터 분석 라이브러리
좀 더 복잡한 워크플로우 구축하기
- 잘못됐거나 누락된 레코드 처리하기
아이파이썬: 과학 컴퓨팅 도구의 완성
- 클러스터를 이용한 아이파이썬 병렬화하기
정리
[7부] 향후 전망
▣ 13장: 언제 구축하고, 언제 구매하고, 언제 아웃소싱할 것인가?
중복된 솔루션
데이터 문제 이해하기
구축 대 구매 문제를 위한 각본
- 이미 투자한 바는 무엇인가?
- 작게 시작하기
- 확장 계획하기
나만의 사설 데이터 센터
오픈소스 사용에 따른 비용 이해하기
정리
▣ 14장: 데이터 기술의 미래 트렌드
하둡: 파괴자와 피파괴자
모든 것은 클라우드 속에 있다
데이터 과학자의 흥망
융합: 궁극의 데이터베이스
문화의 융합
정리