파이썬 텍스트 마이닝 완벽 가이드
도서명:파이썬 텍스트 마이닝 완벽 가이드
저자/출판사:박상언,강주영,정석찬/위키북스
쪽수:340쪽
출판일:2022-02-18
ISBN:9791158393007
목차
[1부] 텍스트 마이닝 기초
▣ 01장: 텍스트 마이닝 기초
1.1 텍스트 마이닝의 정의
1.2 텍스트 마이닝 패러다임의 변화
___1.2.1 카운트 기반의 문서 표현
___1.2.2 시퀀스 기반의 문서 표현
1.3 텍스트 마이닝에 필요한 지식과 도구
___1.3.1 자연어 처리 기법
___1.3.2 통계학과 선형대수
___1.3.3 시각화 기법
___1.3.4 머신러닝
___1.3.5 딥러닝
1.4 텍스트 마이닝의 주요 적용분야
___1.4.1 문서 분류
___1.4.2 문서 생성
___1.4.3 문서 요약
___1.4.4 질의응답
___1.4.5 기계번역
___1.4.6 토픽 모델링
1.5 이 책의 실습 환경과 사용 소프트웨어
___1.5.1 기본 실습 환경
___1.5.2 자연어 처리 관련 라이브러리
___1.5.3 머신러닝 관련 라이브러리
___1.5.4 딥러닝 관련 라이브러리
▣ 02장: 텍스트 전처리
2.1 텍스트 전처리의 개념
___2.1.1 왜 전처리가 필요한가?
___2.1.2 전처리의 단계
___2.1.3 실습 구성
2.2 토큰화
___2.2.1 문장 토큰화
___2.2.2 단어 토큰화
___2.2.3 정규표현식을 이용한 토큰화
___2.2.4 노이즈와 불용어 제거
2.3 정규화
___2.3.1 어간 추출
___2.3.2 표제어 추출
2.4 품사 태깅
___2.4.1 품사의 이해
___2.4.2 NLTK를 활용한 품사 태깅
___2.4.3 한글 형태소 분석과 품사 태깅
___2.4.4 참고자료
▣ 03장: 그래프와 워드 클라우드
3.1 단어 빈도 그래프 - 많이 쓰인 단어는?
3.2 워드 클라우드로 내용을 한눈에 보기
3.3 한국어 문서에 대한 그래프와 워드 클라우드
[2부] BOW 기반의 텍스트 마이닝
▣ 04장: 카운트 기반의 문서 표현
4.1 카운트 기반 문서 표현의 개념
4.2 BOW 기반의 카운트 벡터 생성
4.3 사이킷런으로 카운트 벡터 생성
4.4 한국어 텍스트의 카운트 벡터 변환
___4.4.1 데이터 다운로드
4.5 카운트 벡터의 활용
4.6 TF-IDF로 성능을 높여보자
▣ 05장: BOW 기반의 문서 분류
5.1 20 뉴스그룹 데이터 준비 및 특성 추출
___5.1.1 데이터셋 확인 및 분리
___5.1.2 카운트 기반 특성 추출
5.2 머신러닝과 문서 분류 과정에 대한 이해
5.3 나이브 베이즈 분류기를 이용한 문서 분류
5.4 로지스틱 회귀분석을 이용한 문서 분류
___5.4.1 릿지 회귀를 이용한 과적합 방지
___5.4.2 라쏘 회귀를 이용한 특성 선택
5.5 결정트리 등을 이용한 기타 문서 분류 방법
5.6 성능을 높이는 방법
5.7 카운트 기반의 문제점과 N-gram을 이용한 보완
___5.7.1 통계로는 알 수 없는 문맥 정보
___5.7.2 N-gram의 이해
___5.7.3 N-gram을 이용한 문서 분류
5.8 한국어 문서의 분류
___5.8.1 다음 영화 리뷰에 대한 영화 제목 예측
___5.8.2 성능을 개선하기 위한 노력
▣ 06장: 차원 축소
6.1 차원의 저주와 차원 축소의 이유
6.2 PCA를 이용한 차원 축소
6.3 LSA를 이용한 차원 축소와 의미 파악
___6.3.1 LSA를 이용한 차원 축소와 성능
___6.3.2 LSA를 이용한 의미 기반의 문서 간 유사도 계산
___6.3.3 잠재된 토픽의 분석
___6.3.4 단어 간 의미 유사도 분석
6.4 tSNE를 이용한 시각화와 차원축소의 효과
▣ 07장: 토픽 모델링으로 주제 찾기
7.1 토픽 모델링과 LDA의 이해
___7.1.1 토픽 모델링이란?
___7.1.2 LDA 모형의 구조
___7.1.3 모형의 평가와 적절한 토픽 수의 결정
7.2 사이킷런을 이용한 토픽 모델링
___7.2.1 데이터 준비
___7.2.2 LDA 토픽 모델링 실행
___7.2.3 최적의 토픽 수 선택하기
7.3 Gensim을 이용한 토픽 모델링
___7.3.1 Gensim 사용법과 시각화
___7.3.2 혼란도와 토픽 응집도를 이용한 최적값 선택
7.4 토픽 트렌드로 시간에 따른 주제의 변화 알아내기
▣ 08장: 감성 분석
8.1 감성분석의 이해
___8.1.1 어휘 기반의 감성 분석
___8.1.2 머신러닝 기반의 감성 분석
8.2 감성 사전을 이용한 영화 리뷰 감성 분석
___8.2.1 NLTK 영화 리뷰 데이터 준비
___8.2.2 TextBlob을 이용한 감성 분석
___8.2.3 AFINN을 이용한 감성 분석
___8.2.4 VADER를 이용한 감성 분석
___8.2.5 한글 감성사전
8.3 학습을 통한 머신러닝 기반의 감성 분석
___8.3.1 NLTK 영화 리뷰에 대한 머신러닝 기반 감성 분석
___8.3.2 다음 영화 리뷰에 대한 머신러닝 기반 감성 분석
8.4 참고문헌
▣ 09장: 인공신경망과 딥러닝의 이해
9.1 인공신경망의 이해
___9.1.1 인공신경망의 구조와 구성요소
___9.1.2 인공신경망에서의 학습
___9.1.3 손실 함수의 이해
___9.1.4 경사하강법
9.2 딥러닝의 이해
___9.2.1 딥러닝이란?
___9.2.2 층이 깊은 신경망의 문제점
___9.2.3 딥러닝에서의 해결방안
___9.2.4 다양한 딥러닝 알고리즘
___9.2.5 딥러닝 개발 및 활용환경
[3부] 텍스트 마이닝을 위한 딥러닝 기법
▣ 10장: RNN - 딥러닝을 이용한 문서 분류
10.1 왜 RNN일까?
___10.1.1 RNN의 이해
___10.1.2 RNN이 문서 분류에 적합한 이유
___10.1.3 RNN의 문서 분류 적용방안
10.2 워드 임베딩의 이해
___10.2.1 워드 임베딩이란?
___10.2.2 BOW와 문서 임베딩
___10.2.3 워드 임베딩과 딥러닝
10.3 RNN을 이용한 문서 분류 - NLTK 영화 리뷰 감성분석
___10.3.1 워드 임베딩을 위한 데이터 준비
___10.3.2 RNN이 아닌 일반적인 신경망 모형을 이용한 분류
___10.3.3 문서의 순서정보를 활용하는 RNN 기반 문서분류
10.4 LSTM, Bi-LSTM과 GRU를 이용한 성능 개선
▣ 11장: Word2Vec, ELMo, Doc2Vec의 이해
11.1 Word2Vec - 대표적인 워드 임베딩 기법
___11.1.1 Word2Vec 학습의 원리
___11.1.2 Word2Vec 활용 - 학습된 모형 가져오기
___11.1.3 FastText - 워드 임베딩에 N-gram 적용
11.2 ELMo - 문맥에 따른 단어 의미의 구분
___11.2.1 Word2Vec의 문제점
___11.2.2 ELMo의 구조
11.3 Doc2Vec - 문맥을 고려한 문서 임베딩
▣ 12장: CNN - 이미지 분류를 응용한 문서 분류
12.1 CNN의 등장과 작동 원리
12.2 CNN을 이용한 문서 분류
12.2.1 CNN을 이용한 문서 분류의 원리
12.2.2 CNN을 이용한 NLTK 영화 리뷰 분류
▣ 13장: 어텐션(Attention)과 트랜스포머
13.1 Seq2seq: 번역에서 시작한 딥러닝 기법
13.2 어텐션을 이용한 성능의 향상
13.3 셀프 어텐션(Self-attention)과 트랜스포머
___13.3.1 셀프 어텐션의 이해
___13.3.2 트랜스포머의 구조
___13.3.3 인코더의 셀프 어텐션 원리
___13.3.4 디코더의 작동 원리
▣ 14장: BERT의 이해와 간단한 활용
14.1 왜 언어 모델이 중요한가?
14.2 BERT의 구조
14.3 언어모델을 이용한 사전학습과 미세조정학습
14.4 사전학습된 BERT 모형의 직접 사용방법
14.5 자동 클래스를 이용한 토크나이저와 모형의 사용
▣ 15장: BERT 사전학습 모형에 대한 미세조정학습
15.1 BERT 학습을 위한 전처리
15.2 트랜스포머의 트레이너를 이용한 미세조정학습
15.3 파이토치를 이용한 미세조정학습
▣ 16장: 한국어 문서에 대한 BERT 활용
16.1 다중 언어 BERT 사전학습 모형의 미세조정학습
16.2 KoBERT 사전학습 모형에 대한 파이토치 미세조정학습