Data scientist/텍스트마이닝

워드 임베딩

맨사설 2021. 10. 19. 17:37
728x90

 

◎ 텍스트 마이닝 심화

 

○ 머신러닝 기법 : LDA(토픽 모델링 기법), SVM(문서 분류 기법) 등

 

○ 딥러닝 기법 : RNN, LSTM, Transformer, BERT 등

  • 워드 임베딩(Word Embedding)은 딥러닝 기법의 입력값으로 사용

 

○ 워드 임베딩

  • 단어를 컴퓨터가 이해할 수 있는 벡터로 표현하는 방법
  • Sparse Representation (BOW, TF-IDF)
  • Dense Representation (word2vec, Glove 등)

 

※ Sparse Representation의 문제점

  • 문서 데이터에 존재하는 모든 유니크한 단어 수가 벡터의 차원이 되어 고차원 공간이 됨
  • 단어의 문맥 정보가 사라짐 (e.g. 문장 내 순서(word order), 문장 내 동시 등장(co-occurrence))
  • 차원의 저주로 인해 분석 기법의 성능이 악화됨

 

 

Dense Representation

  • 이미지나 오디오 데이터는 양질의 고차원 데이터로 표현됨
  • 기존 방법인 VSM은 단어를 discrete symbol로 표시하기 때문에 정보 전달력이 떨어짐
  • 기존의 count-based method가 아닌 predictive model을 사용하여 단어의 주변 정보를 반영한 dense representation을 표현함

 

 

 

○ 워드 임베딩 역사

 

※ NPLM ---------> word2vec ---------> fastText ---------> ELMo

 

 

§ NPLM : 처음으로 제안된 dense representation model, Neural Network를 이용하여 주변 단어의 등장 확률을 예측함

 

§ Word2vec : NPLM에서 높은 계산량을 요구하는 문제점을 획기적으로 해결, 본격적인 word embedding 시대 개막

 

§ FastText : Word2vec에서의 OOV(Out-of-Vocabulary) 문제를 해결, 학습 단위가 subword로 변경

 

§ ELMo : Pretrained Language Model을 제안, 문맥을 반영한 워드 임베딩 기법 제시, NLP에서 transfer learning이 확산됨

 

728x90

'Data scientist > 텍스트마이닝' 카테고리의 다른 글

텍스트마이닝  (0) 2021.10.19