Data scientist/텍스트마이닝 2

워드 임베딩

◎ 텍스트 마이닝 심화 ○ 머신러닝 기법 : LDA(토픽 모델링 기법), SVM(문서 분류 기법) 등 ○ 딥러닝 기법 : RNN, LSTM, Transformer, BERT 등 워드 임베딩(Word Embedding)은 딥러닝 기법의 입력값으로 사용 ○ 워드 임베딩 단어를 컴퓨터가 이해할 수 있는 벡터로 표현하는 방법 Sparse Representation (BOW, TF-IDF) Dense Representation (word2vec, Glove 등) ※ Sparse Representation의 문제점 문서 데이터에 존재하는 모든 유니크한 단어 수가 벡터의 차원이 되어 고차원 공간이 됨 단어의 문맥 정보가 사라짐 (e.g. 문장 내 순서(word order), 문장 내 동시 등장(co-occurrenc..

텍스트마이닝

◎ 텍스트 마이닝 ○ 텍스트 (데이터) + (데이터) 마이닝 ○ 정형 데이터 : 일반적으로 사용하는 테이블 형태의 데이터 (e.g. 스프레드시트, 관계형 테이블) 행(row)과 열(column)으로 구성 행은 하나의 데이터를 의미 열은 데이터에서 하나의 속성을 의미 ○ 비정형 데이터 : 일반적으로 사용하는 테이블 형태의 데이터가 아닌 데이터 행(row)과 열(column)으로 구성되어 있지 않음 데이터가 정해진 형태로 저장되지 않음 (e.g. 텍스트, 이미지, 음성, 동영상) ○ 데이터 마이닝이란? 데이터에서 가치를 뽑아내는 기술 데이터에 숨겨져 있는 패턴이나 통계적인 규칙을 찾는 기술 통계적 기법, 머신 러닝 기법들을 사용 ◎ 키워드를 활용한 텍스트 마이닝 ○ 텍스트 수집 다운로드 크롤링 ○ 데이터 저..