파이썬 라이브러리를 활용한 텍스트 분석
도서명:파이썬 라이브러리를 활용한 텍스트 분석
저자/출판사:젠스,알브레히트,싯다르트,라마찬드란,크리스티안,윙클러/한빛미디어
쪽수:504쪽
출판일:2022-10-11
ISBN:9791169210331
목차
CHAPTER 1 텍스트 데이터에서 찾는 통찰
1.1 학습 목표
1.2 탐색적 데이터 분석
1.3 데이터셋: 유엔총회 일반토의
1.4 전략: 팬더스로 데이터 개요 확인
1.5 전략: 간단한 텍스트 전처리 파이프라인 구축
1.6 단어 빈도 분석을 위한 전략
1.7 전략: 컨텍스트 내 키워드 탐색
1.8 전략: N-그램 분석
1.9 전략: 시간 및 범주에 따른 빈도 비교
1.10 마치며
CHAPTER 2 API로 추출하는 텍스트 속 통찰
2.1 학습 목표
2.2 API
2.3 전략: 리퀘스트 모듈을 이용한 API 호출
2.4 전략: 트위피를 사용한 트위터 데이터 추출
2.5 마치며
CHAPTER 3 웹사이트 스크래핑 및 데이터 추출
3.1 학습 목표
3.2 스크래핑 및 데이터 추출
3.3 로이터 뉴스 아카이브
3.4 URL 생성
3.5 전략: robots.txt 파일 해석
3.6 전략: sitemap.xml 파일로 URL 획득
3.7 전략: RSS에서 URL 획득
3.8 데이터 다운로드
3.9 전략: 파이썬을 사용한 HTML 페이지 다운로드
3.10 전략: wget을 사용한 HTML 페이지 다운로드
3.11 반정형 데이터 추출
3.12 전략: 정규 표현식을 사용한 데이터 추출
3.13 전략: HTML 파서를 사용한 데이터 추출
3.14 전략: 스파이더링
3.15 밀도 기반 텍스트 추출
3.16 올인원 접근 방식
3.17 전략: 스크래피를 사용한 로이터 아카이브 스크래핑
3.18 스크래핑과 관련된 문제
3.19 마치며
CHAPTER 4 통계 및 머신러닝을 위한 텍스트 데이터 준비
4.1 학습 목표
4.2 데이터 전처리 파이프라인
4.3 데이터셋: 레딧 셀프포스트
4.4 텍스트 데이터 정리
4.5 토큰화
4.6 스페이시를 사용한 언어 처리
4.7 대규모 데이터셋에서 특성 추출
4.8 더 알아보기
4.9 마치며
CHAPTER 5 특성 엔지니어링 및 구문 유사성
5.1 학습 목표
5.2 실험을 위한 토이 데이터셋
5.3 전략: 자신만의 벡터화 객체 구축
5.4 단어 가방 모델
5.5 TF-IDF 모델
5.6 ABC 데이터셋의 구문 유사성
5.7 마치며
CHAPTER 6 텍스트 분류 알고리즘
6.1 학습 목표
6.2 데이터셋: JDT 버그 보고
6.3 전략: 텍스트 분류 시스템 구축
6.4 텍스트 분류를 위한 최종 코드
6.5 전략: 교차 검증을 사용한 현실적인 정확도 메트릭 추정
6.6 전략: 그리드 검색을 통한 하이퍼파라미터 조정
6.7 텍스트 분류 시스템 요약 및 결론
6.8 마치며
6.9 더 읽어보기
CHAPTER 7 텍스트 분류기
7.1 학습 목표
7.2 전략: 예측 확률을 사용한 분류 신뢰도 결정
7.3 전략: 예측 모델의 특성 중요도 측정
7.4 전략: LIME을 사용한 분류 결과 설명
7.5 전략: ELI5를 사용한 분류 결과 설명
7.6 전략: 앵커를 사용한 분류 결과 설명
7.7 마치며
CHAPTER 8 비지도 학습: 토픽 모델링 및 클러스터링
8.1 학습 목표
8.2 데이터셋: 유엔총회 일반토의
8.3 비음수 행렬 분해(NMF)
8.4 잠재 시맨틱 분석/인덱싱
8.5 잠재 디리클레 할당(LDA)
8.6 전략: 워드 클라우드를 사용한 토픽 모델 결과 비교
8.7 전략: 단락의 토픽 분포 및 시간 변화 계산
8.8 젠심을 사용한 토픽 모델링
8.9 전략: 클러스터링을 통한 텍스트 데이터 구조 파악
8.10 추가 아이디어
8.11 요약 및 추천
8.12 마치며
CHAPTER 9 텍스트 요약
9.1 학습 목표
9.2 텍스트 요약
9.3 전략: 주제 표현을 이용한 텍스트 요약
9.4 전략: 지시자 표현을 사용한 텍스트 요약
9.5 텍스트 요약 방법의 성능 측정
9.6 전략: 머신러닝을 이용한 텍스트 요약
9.7 마치며
9.8 더 읽어보기
CHAPTER 10 단어 임베딩으로 의미 관계 탐색
10.1 학습 목표
10.2 시맨틱 임베딩 케이스
10.3 전략: 사전 훈련된 모델에 유사한 질의 사용
10.4 자체 임베딩 학습 및 평가를 위한 전략
10.5 임베딩 시각화를 위한 전략
10.6 마치며
10.7 더 읽어보기
CHAPTER 11 텍스트 데이터를 이용한 감성 분석
11.1 학습 목표
11.2 감성 분석
11.3 데이터셋: 아마존 고객 리뷰
11.4 전략: 어휘 기반 감성 분석
11.5 지도 학습 접근법
11.6 전략: 텍스트 데이터 벡터화 및 지도 학습 알고리즘 적용
11.7 딥러닝을 사용한 사전 훈련된 언어 모델
11.8 전략: 전이 학습 기법과 사전 훈련된 언어 모델 사용
11.9 마치며
11.10 더 읽어보기
CHAPTER 12 지식 그래프 구축
12.1 학습 목표
12.2 지식 그래프
12.3 데이터셋: 로이터-21578
12.4 개체명 인식
12.5 상호 참조 해결
12.6 전략: 동시 발생 그래프 생성
12.7 관계 추출
12.8 지식 그래프 생성
12.9 마치며
12.10 더 읽어보기
CHAPTER 13 프로덕션에서 텍스트 분석
13.1 학습 목표
13.2 전략: 콘다를 사용한 파이썬 환경 구성
13.3 전략: 컨테이너를 사용한 재현 가능 환경 구성
13.4 전략: 텍스트 분석 모델을 위한 REST API 생성
13.5 전략: 클라우드 공급자를 사용한 API 배포 및 확장
13.6 전략: 빌드 버전의 관리 및 배포 자동화
13.7 마치며
13.8 더 읽어보기