오늘 할 일
랩실 미팅
자연어 처리 및 BERT 실습 강의 수강
SSH 환경 설정
transformers(text_classification -> run_glue.py) 코드 분석
고객센터에 태블릿 맡기기
강의 수강 못한 부분들 듣기
올영 들르기
매일 태깅 40개
매일 독서 - 카네기 인간관계론
매일 영단어
내일 할 일
데이터셋에 소스 추가
강의 수강 못한 부분들 듣기
글로벌 SW 트랙 시험, 면접
자연어 처리 및 BERT 실습 강의 수강
transformers(text_classification -> run_glue.py) 코드 분석
자연어 처리 및 BERT 실습 강의 복습
매일 태깅 40개
매일 독서 - 카네기 인간관계론
매일 영단어
챗봇의 레벨
현재는 레벨 2 수준. 레벨3를 목표로 하고있다.
1. Notificatons
2. FAQs
3. 문맥 파악
4. 상담형 응대 -> 키워드만으로
5. 적응형 응대
Text representation
Vector Space Model : 하나의 문서를 하나의 vector로 표현.
DTM, Topic Models, Doc2Vec, etc.
통계 기반 모델 - Context를 사용한 단어 표현.
단어-문서 행렬 : Term-document matrix TDM
-> 벡터가 비슷하면 두 문서가 유사함.
단어-단어 행렬 : Term-Term matrix TTM (Word-Word co-occurrence matrix)
-> 문맥 정보를 문서 대신 주변 단어로 줄여보자.
Word-Word co-occurrence matrix는 단어가 늘어날 수록 차원이 커지고 저장 공간이 많이 필요해서 문제.
->워드 임베딩
신경망 기반 언어 모델
Word2Vec : 단어를 0과 1이 아닌 실수로 n차원 벡터로 표현. 두 단어 간 문맥적 의미(context) 고려한 dense vector
단어들 간의 선형관계를 통해 의미적 연관관계를 추론
단어에서 문맥을 예측 (Skip-gram)
문맥에서 단어를 예측 (CBOW)
일반적으로 skip-gram 성능이 더 좋은 prediction을 함
벡터들의 연산으로 관계들을 테스트할 수 있다.
Continuous BOW
연속된 여러 개의 단어를 학습해 다음 단어를 예측 가능.
=>학습시킨 후 the quick brown을 보면 fox를 예측할 수 있음.
skip-gram
입력 단어로부터 주변의 k개 단어를 문맥으로 보고 주변 단어들을 예측하는 모형을 만드는 방식