워드 임베딩

Data scientist/텍스트마이닝

맨사설 2021. 10. 19. 17:37

728x90

※ Sparse Representation의 문제점

※ Dense Representation

이미지나 오디오 데이터는 양질의 고차원 데이터로 표현됨
기존 방법인 VSM은 단어를 discrete symbol로 표시하기 때문에 정보 전달력이 떨어짐
기존의 count-based method가 아닌 predictive model을 사용하여 단어의 주변 정보를 반영한 dense representation을 표현함

§ NPLM : 처음으로 제안된 dense representation model, Neural Network를 이용하여 주변 단어의 등장 확률을 예측함

§ Word2vec : NPLM에서 높은 계산량을 요구하는 문제점을 획기적으로 해결, 본격적인 word embedding 시대 개막

§ FastText : Word2vec에서의 OOV(Out-of-Vocabulary) 문제를 해결, 학습 단위가 subword로 변경

§ ELMo : Pretrained Language Model을 제안, 문맥을 반영한 워드 임베딩 기법 제시, NLP에서 transfer learning이 확산됨

728x90

텍스트마이닝 (0)	2021.10.19

#wannabeeeeeee the best DataScientist