새소식

인기 검색어

TL

20/08/25 TL. 통계 기반 NLP

  • -

오늘 할 일

랩실 미팅

자연어 처리 및 BERT 실습 강의 수강

SSH 환경 설정

transformers(text_classification -> run_glue.py) 코드 분석

고객센터에 태블릿 맡기기

강의 수강 못한 부분들 듣기

올영 들르기

매일 태깅 40개

매일 독서 - 카네기 인간관계론

매일 영단어

 

내일 할 일

데이터셋에 소스 추가

강의 수강 못한 부분들 듣기

글로벌 SW 트랙 시험, 면접

자연어 처리 및 BERT 실습 강의 수강

transformers(text_classification -> run_glue.py) 코드 분석

자연어 처리 및 BERT 실습 강의 복습

매일 태깅 40개

매일 독서 - 카네기 인간관계론

매일 영단어


챗봇의 레벨
현재는 레벨 2 수준. 레벨3를 목표로 하고있다.
1. Notificatons
2. FAQs
3. 문맥 파악
4. 상담형 응대 -> 키워드만으로
5. 적응형 응대

Text representation

Vector Space Model : 하나의 문서를 하나의 vector로 표현.
DTM, Topic Models, Doc2Vec, etc.

통계 기반 모델 - Context를 사용한 단어 표현.

단어-문서 행렬 : Term-document matrix TDM
-> 벡터가 비슷하면 두 문서가 유사함.

단어-단어 행렬 : Term-Term matrix TTM (Word-Word co-occurrence matrix)
-> 문맥 정보를 문서 대신 주변 단어로 줄여보자.

Word-Word co-occurrence matrix는 단어가 늘어날 수록 차원이 커지고 저장 공간이 많이 필요해서 문제.
->워드 임베딩

신경망 기반 언어 모델
Word2Vec : 단어를 0과 1이 아닌 실수로 n차원 벡터로 표현. 두 단어 간 문맥적 의미(context) 고려한 dense vector
단어들 간의 선형관계를 통해 의미적 연관관계를 추론

단어에서 문맥을 예측 (Skip-gram)
문맥에서 단어를 예측 (CBOW)
일반적으로 skip-gram 성능이 더 좋은 prediction을 함

벡터들의 연산으로 관계들을 테스트할 수 있다.

Continuous BOW
연속된 여러 개의 단어를 학습해 다음 단어를 예측 가능.
=>학습시킨 후 the quick brown을 보면 fox를 예측할 수 있음.

skip-gram
입력 단어로부터 주변의 k개 단어를 문맥으로 보고 주변 단어들을 예측하는 모형을 만드는 방식

'TL' 카테고리의 다른 글

20/08/27 TL. DL 기반 NLP  (0) 2020.08.27
20/08/26 TL.  (2) 2020.08.26
20/08/24 TL. 규칙 기반 NLP  (0) 2020.08.24
20/08/23 TL transformers- text_classification 예제 코드분석  (0) 2020.08.23
20/08/22 TL  (0) 2020.08.22
Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.