20/08/25 TL. 통계 기반 NLP

오늘 할 일

~~랩실 미팅~~

~~자연어 처리 및 BERT 실습 강의 수강~~

~~SSH 환경 설정~~

transformers(text_classification -> run_glue.py) 코드 분석

~~고객센터에 태블릿 맡기기~~

~~강의 수강 못한 부분들 듣기~~

~~올영 들르기~~

매일 태깅 40개

매일 독서 - 카네기 인간관계론

매일 영단어

내일 할 일

데이터셋에 소스 추가

강의 수강 못한 부분들 듣기

글로벌 SW 트랙 시험, 면접

자연어 처리 및 BERT 실습 강의 수강

transformers(text_classification -> run_glue.py) 코드 분석

자연어 처리 및 BERT 실습 강의 복습

매일 태깅 40개

매일 독서 - 카네기 인간관계론

매일 영단어

챗봇의 레벨
현재는 레벨 2 수준. 레벨3를 목표로 하고있다.
1. Notificatons
2. FAQs
3. 문맥 파악
4. 상담형 응대 -> 키워드만으로
5. 적응형 응대

Text representation

Vector Space Model : 하나의 문서를 하나의 vector로 표현.
DTM, Topic Models, Doc2Vec, etc.

통계 기반 모델 - Context를 사용한 단어 표현.

단어-문서 행렬 : Term-document matrix TDM
-> 벡터가 비슷하면 두 문서가 유사함.

단어-단어 행렬 : Term-Term matrix TTM (Word-Word co-occurrence matrix)
-> 문맥 정보를 문서 대신 주변 단어로 줄여보자.

Word-Word co-occurrence matrix는 단어가 늘어날 수록 차원이 커지고 저장 공간이 많이 필요해서 문제.
->워드 임베딩

신경망 기반 언어 모델
Word2Vec : 단어를 0과 1이 아닌 실수로 n차원 벡터로 표현. 두 단어 간 문맥적 의미(context) 고려한 dense vector
단어들 간의 선형관계를 통해 의미적 연관관계를 추론

단어에서 문맥을 예측 (Skip-gram)
문맥에서 단어를 예측 (CBOW)
일반적으로 skip-gram 성능이 더 좋은 prediction을 함

벡터들의 연산으로 관계들을 테스트할 수 있다.

Continuous BOW
연속된 여러 개의 단어를 학습해 다음 단어를 예측 가능.
=>학습시킨 후 the quick brown을 보면 fox를 예측할 수 있음.

skip-gram
입력 단어로부터 주변의 k개 단어를 문맥으로 보고 주변 단어들을 예측하는 모형을 만드는 방식

Contents

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

새소식

인기 검색어

20/08/25 TL. 통계 기반 NLP

당신이 좋아할만한 콘텐츠

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역