카카오 아레나 데이터 경진대회 1등 노하우
도서명:카카오 아레나 데이터 경진대회 1등 노하우
저자/출판사:최규민,김상훈,구경훈,김정오/위키북스
쪽수:288쪽
출판일:2021-01-07
ISBN:9791158392338
목차
▣ 01장: 1회 대회 살펴보기
1.1 대회 설명
__1.1.1 왜 상품 카테고리를 분류하는가?
__1.1.2 대회 내용 설명
__1.1.3 대회 참여 현황
1.2 대회 평가 척도
1.3 데이터셋 훑어보기
__1.3.1 데이터셋 설명
____카테고리 매핑 정보
____train 데이터셋
____dev 데이터셋
____test 데이터셋
__1.3.2 대회 데이터 탐색
____train 데이터(train.chunk.01~09) 상품 수
____상품 카테고리 분류 분포
____상품명에 담긴 정보
____사용 빈도가 높은 단어
____이미지 피처 시각화
____데이터 탐색 요약
1.4 베이스라인 모델 실행
__1.4.1 실행 코드 가져오기
__1.4.2 필요 패키지 설치하기
__1.4.3 대회 데이터 저장
__1.4.4 학습 데이터와 평가 데이터 나누기
__1.4.5 베이스라인 모델 학습하기
__1.4.6 베이스라인 모델로 결과 생성하기
__1.4.7 결과 데이터 채점하기
__1.4.8 결과 제출하기
▣ 02장: 쇼핑몰 상품 카테고리 분류 1등 솔루션
2.1 접근 방법
__2.1.1 문제 파악
____상세 설명 탭 읽기
____채점 탭 읽기
__2.1.2 데이터 구성 확인
__2.1.3 머신러닝 파이프라인 구현
____데이터 전처리(Data Preprocessing)
____학습(Training)
____추론(Inference)
____리더보드 제출
____성능 개선 방법
2.2 실행 환경 구축
__2.2.1 아나콘다 설치하기
____아나콘다 실행하기
____작업 디렉터리 생성하기
__2.2.2 파이토치 설치하기
__2.2.3 git 설치하기
__2.2.4 주피터 노트북 실행하기
2.3 솔루션 코드 실행
__2.3.1 실행 준비
____솔루션 코드 다운로드
____대회 데이터 다운로드
____필요한 패키지 설치
__2.3.2 데이터 전처리
__2.3.3 학습
____배치 사이즈(batch size), 워커(worker) 개수 등의 변경
____기본 검증 방법
____k-폴드 교차검증
____5-폴드의 각 데이터 그룹 학습시키기
__2.3.4 추론
____k-폴드 평균 앙상블(k-fold average ensemble)
____2.3.5 리더보드에 제출
2.4 솔루션 코드 분석
__2.4.1 데이터 전처리
____데이터프레임으로 변환
____피처 엔지니어링
____전처리된 데이터를 저장
____img_feat 데이터 전처리 및 저장
__2.4.2 학습
____모델 아키텍처 선정 및 구현
____모델 학습 진행
__2.4.3 추론
____inference.py
▣ 03장: 2회 대회 살펴보기
3.1 대회 설명
__3.1.1 브런치의 글 추천은 어떻게 이루어지는가?
____유사글 추천 모델
____개인화 맞춤 추천 모델
____추천할 만한 글을 찾는 타깃팅 조건
____내가 좋아할 만한 글을 찾는 랭킹 과정
__3.1.2 대회 내용 설명
__3.1.3 대회 참여 현황
3.2 대회 평가 척도
3.3 데이터셋 훑어보기
__3.3.1 데이터셋 설명
____사용자가 본 글 정보
____글의 메타데이터
____글 본문 정보
____사용자 정보
____매거진 정보
____예측할 사용자 정보
__3.3.2 대회 데이터 탐색
____브런치에 등록된 글 현황
____브런치 글의 소비 데이터 현황
____브런치 글의 등록일 이후 경과일에 따른 소비 현황
____위클리 매거진의 주기성
____신규 사용자 vs. 단골 사용자
____사용자 구독 데이터 현황
____데이터 탐색 요약
3.4 베이스라인 추천 모델 실행
__3.4.1 실행 코드 가져오기
__3.4.2 필요 패키지 설치하기
__3.4.3 학습 데이터와 평가 데이터 나누기
__3.4.4 베이스라인 추천 모델로 결과 생성하기
__3.4.5 추천 결과 채점하기
__3.4.6 dev.users 사용자 결과 생성하기
__3.4.7 결과 제출하기
▣ 04장: 글 추천 1등 솔루션 따라하기
4.1 2회 대회의 문제 이해
__4.1.1 문제 개요
____과거 기록의 기간과 예측할 소비의 기간
____예측 대상 사용자와 글
____성능 평가와 공개 리더보드
__4.1.2 성능 평가 지표 및 수상 기준
__4.1.3 브런치 서비스 이해
____방문 이유와 유입 경로
____세션 특성
____서비스 이용 패턴
__4.1.4 프로그래밍 언어 및 외부 라이브러리
__4.1.5 예제 코드 확인하기
4.2 2회 대회의 데이터 이해
__4.2.1 글 조회 데이터
____데이터 전처리
____데이터 분석
__4.2.2 글의 메타데이터
__4.2.3 사용자 정보
__4.2.4 매거진 정보
__4.2.5 예측 대상 사용자 정보
4.3 추천 시스템의 기술 이해 및 적용 검토
__4.3.1 협업 필터링의 이해
____이웃 기반 협업 필터링
____세션 기반 협업 필터링
__4.3.2 협업 필터링 적용 검토
____Word2Vec 기반 추천
____연속 조회 통계 기반 추천
____세션 기반 협업 필터링 적용 기간
__4.3.3 콘텐츠 기반 필터링의 이해
__4.3.4 콘텐츠 기반 필터링 적용 검토
__4.3.5 예외 상황 대응하기
4.4 협업 필터링 구현
__4.4.1 모델 생성 코드 살펴보기
__4.4.2 예측 코드 살펴보기
__4.4.3 성능 평가
____협업 필터링 예측 결과 생성
____협업 필터링 성능 평가
____협업 필터링 튜닝
4.5 콘텐츠 기반 필터링 구현
__4.5.1 예측 코드 살펴보기
__4.5.2 Doc2Vec 데이터 전처리 살펴보기
__4.5.3 Doc2Vec 모델 생성 코드 살펴보기
__4.5.4 성능 평가
____콘텐츠 기반 필터링 예측 결과 생성
____콘텐츠 기반 필터링 성능 평가
4.6 앙상블 구현
__4.6.1 예측 보조 함수 살펴보기
__4.6.2 예측 추가 함수 살펴보기
__4.6.3 메인 코드 예측 준비 부분 살펴보기
__4.6.4 메인 코드 앙상블 부분 살펴보기
__4.6.5 성능 평가
4.7 최종 결과 제출하기
__4.7.1 깃허브 저장소 만들기
__4.7.2 깃허브 저장소에 코드 및 설명 올리기