파이썬과 자연어 처리
도서명:파이썬과 자연어 처리
저자/출판사:딥티,초프라,니쉬트,조쉬,이티,마투르/에이콘출판
쪽수:320쪽
출판일:2017-07-25
ISBN:9791161750255
목차
1장. 문자열을 사용한 작업
__토큰화
____텍스트를 문장으로 토큰화
____다양한 언어의 텍스트 토큰화
____문장을 단어로 토큰화
____TreebankWordTokenizer를 사용한 토큰화
____정규 표현식을 사용한 토큰화
__정규화
____문장 부호 제거
____소문자와 대문자로 변환
____불용어 처리
____영어의 불용어 계산
__토큰의 대체 및 수정
____정규 표현식을 사용한 단어 대체
____텍스트를 다른 텍스트로 대체하는 예제
____토큰화 전에 대체 수행
____반복되는 문자 처리
____반복 문자를 삭제하는 예제
____단어를 동의어로 대체
____단어를 동의어로 대체하는 예제
__텍스트에 지프의 법칙 적용
__유사 척도
____편집 거리 알고리즘을 사용한 유사 척도
____자카드 계수를 사용한 유사 척도
____스미스 워터맨 거리를 사용한 유사 척도 적용
____그 외 문자열 유사도 메트릭
__요약
2장. 통계 언어 모델링
__단어 빈도 이해
____주어진 텍스트의 MLE 개발
____은닉 마르코프 모델 추정
__MLE 모델의 스무딩 적용
____에드온 스무딩
____Good Turing
____크네저 네이 추정
____위튼 벨 추정
__MLE의 백-오프 메커니즘 개발
__믹스 앤 매치를 얻기 위한 데이터 보간법 적용
__혼잡도를 통한 언어 모델 평가
__모델링 언어에서 메트로폴리스 헤이스팅스 적용
__언어 처리에서 깁스 샘플링 적용
__요약
3장. 형태학 ? 시작하기
__형태학 소개
__스테머 이해
__원형복원 이해
__비영어 언어의 스테머 개발
__형태소 분석기
__형태소 생성기
__검색 엔진
__요약
4장. 품사 태깅 - 단어 식별
__품사 태깅 소개
____기본 태깅
__POS-tagged corpora 생성
__기계 학습 알고리즘 선택
__n-gram 접근법과 관련된 통계 모델링
__pos-tagged data를 사용한 청커 개발
__요약
5장. 파싱 - 훈련 데이터 분석
__파싱 소개
__트리뱅크 구성
__트리뱅크의 문맥 자유 문법 규칙 추출
__CFG에서 확률적 문맥 자유 문법 생성
__CYK 차트 파싱 알고리즘
__Earley 차트 파싱 알고리즘
__요약
6장. 의미 분석 - 본질 표현
__의미 분석 소개
____NER 소개
____은닉 마르코프 모델을 사용한 NER 시스템
____기계 학습 툴킷을 사용한 NER 훈련
____POS 태깅을 사용한 NER
__Wordnet의 synset id 생성
__Wordnet을 사용한 의미 판별
__요약
7장. 감정 분석 - 나는 행복하다.
__감정 분석 소개
____NER를 사용한 감정 분석
____기계 학습을 사용한 감정 분석
____NER 시스템의 평가
__요약
8장. 정보 검색 - 정보 접속
__정보 검색 소개
____불용어 제거
____벡터 공간 모델을 사용한 정보 검색
__벡터 공간 스코링 및 질의 연산자 상호 작용
__잠재 의미 색인을 이용한 IR 시스템 개발
__텍스트 요약
__질의 응답 시스템
__요약
9장. 담화 분석 - 아는 것은 믿는 것이다.
__담화 분석 소개
____중심화 이론을 사용한 담화 분석
____대용어복원
__요약
10장. NLP 시스템의 평가 - 성능 분석
__NLP 시스템 평가의 필요성
____NLP 도구(POS 태거, 스테머, 형태소 분석기) 평가
____골드 데이터를 사용한 파서 평가
__IR 시스템의 평가
__오류 식별 메트릭
__어휘 매칭 기반 메트릭
__구문 매칭 기반 메트릭
__얕은 의미 매칭을 사용한 메트릭
__요약