TL 20/08/25 TL. 통계 기반 NLP - 오늘 할 일 랩실 미팅 자연어 처리 및 BERT 실습 강의 수강 SSH 환경 설정 transformers(text_classification -> run_glue.py) 코드 분석 고객센터에 태블릿 맡기기 강의 수강 못한 부분들 듣기 올영 들르기 매일 태깅 40개 매일 독서 - 카네기 인간관계론 매일 영단어 내일 할 일 데이터셋에 소스 추가 강의 수강 못한 부분들 듣기 글로벌 SW 트랙 시험, 면접 자연어 처리 및 BERT 실습 강의 수강 transformers(text_classification -> run_glue.py) 코드 분석 자연어 처리 및 BERT 실습 강의 복습 매일 태깅 40개 매일 독서 - 카네기 인간관계론 매일 영단어 챗봇의 레벨 현재는 레벨 2 수준. 레벨3를 목표로 하고있다. 1. Notificatons 2. FAQs 3. 문맥 파악 4. 상담형 응대 -> 키워드만으로 5. 적응형 응대 Text representation Vector Space Model : 하나의 문서를 하나의 vector로 표현. DTM, Topic Models, Doc2Vec, etc. 통계 기반 모델 - Context를 사용한 단어 표현. 단어-문서 행렬 : Term-document matrix TDM -> 벡터가 비슷하면 두 문서가 유사함. 단어-단어 행렬 : Term-Term matrix TTM (Word-Word co-occurrence matrix) -> 문맥 정보를 문서 대신 주변 단어로 줄여보자. Word-Word co-occurrence matrix는 단어가 늘어날 수록 차원이 커지고 저장 공간이 많이 필요해서 문제. ->워드 임베딩 신경망 기반 언어 모델 Word2Vec : 단어를 0과 1이 아닌 실수로 n차원 벡터로 표현. 두 단어 간 문맥적 의미(context) 고려한 dense vector 단어들 간의 선형관계를 통해 의미적 연관관계를 추론 단어에서 문맥을 예측 (Skip-gram) 문맥에서 단어를 예측 (CBOW) 일반적으로 skip-gram 성능이 더 좋은 prediction을 함 벡터들의 연산으로 관계들을 테스트할 수 있다. Continuous BOW 연속된 여러 개의 단어를 학습해 다음 단어를 예측 가능. =>학습시킨 후 the quick brown을 보면 fox를 예측할 수 있음. skip-gram 입력 단어로부터 주변의 k개 단어를 문맥으로 보고 주변 단어들을 예측하는 모형을 만드는 방식 공유하기 URL 복사카카오톡 공유페이스북 공유엑스 공유 게시글 관리 구독하기Soko! Contents 당신이 좋아할만한 콘텐츠 20/08/27 TL. DL 기반 NLP 2020.08.27 20/08/26 TL. 2020.08.26 20/08/24 TL. 규칙 기반 NLP 2020.08.24 20/08/23 TL transformers- text_classification 예제 코드분석 2020.08.23 댓글 0 + 이전 댓글 더보기