728x90
◎ 텍스트 마이닝 심화
○ 머신러닝 기법 : LDA(토픽 모델링 기법), SVM(문서 분류 기법) 등
○ 딥러닝 기법 : RNN, LSTM, Transformer, BERT 등
- 워드 임베딩(Word Embedding)은 딥러닝 기법의 입력값으로 사용
○ 워드 임베딩
- 단어를 컴퓨터가 이해할 수 있는 벡터로 표현하는 방법
- Sparse Representation (BOW, TF-IDF)
- Dense Representation (word2vec, Glove 등)
※ Sparse Representation의 문제점
- 문서 데이터에 존재하는 모든 유니크한 단어 수가 벡터의 차원이 되어 고차원 공간이 됨
- 단어의 문맥 정보가 사라짐 (e.g. 문장 내 순서(word order), 문장 내 동시 등장(co-occurrence))
- 차원의 저주로 인해 분석 기법의 성능이 악화됨
※ Dense Representation
- 이미지나 오디오 데이터는 양질의 고차원 데이터로 표현됨
- 기존 방법인 VSM은 단어를 discrete symbol로 표시하기 때문에 정보 전달력이 떨어짐
- 기존의 count-based method가 아닌 predictive model을 사용하여 단어의 주변 정보를 반영한 dense representation을 표현함
○ 워드 임베딩 역사
※ NPLM ---------> word2vec ---------> fastText ---------> ELMo
§ NPLM : 처음으로 제안된 dense representation model, Neural Network를 이용하여 주변 단어의 등장 확률을 예측함
§ Word2vec : NPLM에서 높은 계산량을 요구하는 문제점을 획기적으로 해결, 본격적인 word embedding 시대 개막
§ FastText : Word2vec에서의 OOV(Out-of-Vocabulary) 문제를 해결, 학습 단위가 subword로 변경
§ ELMo : Pretrained Language Model을 제안, 문맥을 반영한 워드 임베딩 기법 제시, NLP에서 transfer learning이 확산됨
728x90
'Data scientist > 텍스트마이닝' 카테고리의 다른 글
텍스트마이닝 (0) | 2021.10.19 |
---|