Data scientist/자연어처리 4

Text Classification

※ What we need : 텍스트를 입력으로 받아 원하는 항목에 대한 수치를 출력하는 것(e.g. 감성 분석, 주제 분류) ※ What we need to do : 문장을 latent space에 projection 하여 decision boundary를 찾는 것 ※ In Probabilistic Perspective : 문장이 주어졌을 때, 문장이 속할 클래스의 확률 분포 함수를 approximate ◎ Text Classification using RNN ○ Bidirectional Multi-layered RNN Non-autoregressive task이므로 입력을 한번에한 번에 받게 된다. 따라서 모든 time-step을 한 번에 병렬로 처리 가능 ☆ Feed-forward 과정 One-ho..

Word Embedding

◎ Word Embedding 단어는 discrete symbol & categorical value 형태이지만, 우리의 머릿속에서는 다르게 동작, 어휘는 계층적 의미 구조를 지니고 있으며, 이에 따라 단어 사이의 유사성을 지닌다. One-hot 인코딩으로 표현된 값은 유사도나 모호성을 표현할 수 없다. (Dense vector로 표현하는 것이 유리) ※ Feature Vector Feature(특징) : 샘플을 잘 설명하는 특징, 특징을 통해 우리는 특정 샘플을 수치화 할 수 있다. Feature Vector : 각 특징들을 모아서 하나의 vector로 만든 것 ※ Word Embedding 딥러닝의 시대에 단어를 연속적인 값으로 표현하고자 하는 시도가 이어짐 이전에 비해 휼륭한 dense vector..

Preprocessing

◎ NLP Project Workflow 문제 정의 ▷ 데이터 수집 ▷ 데이터 전처리 및 분석 ▷ 알고리즘 적용 ▷ 평가 ▷ 배포 ◎ Preprocessing Workflow 데이터 수집 ▷ 정제 ▷ 레이블링 ▷ Tokenization ▷ Subword Segmentation ▷ Batchify ◎ 말뭉치(Corpus)란? 자연어처리를 위한 문장들로 구성된 데이터셋 복수 표현 : Corpora Parallel Corpus : 대응되는 문장 쌍이 labeling 되어 있는 형태 ◎ Service Pipeline ◎ 데이터 구입 및 외주의 한계 구입 : 양질의 데이터를 얻을 수 있음, 양이 매우 제한적이다. 외주 : 수집, 정제 및 레이블링을 외주 줄 수 있음, 가장 높은 비용 -> 양이 매우 제한적, 품질..

자연어처리

◎ What is Language? 사람들이 자신의 머릿속에 있는 생각을 다른 사람에게 나타내는 체계 사물, 행동, 생각 그리고 상태를 나타내는 체계 사람들이 자신이 가지고 있는 생각을 다른 사람들에게 전달하는 데 사용하는 방법 ※ 사람의 생각을 컴퓨터에게 전달하는 방법 Naive Interface : 인공 언어, 사람이 이해할 수 있지만, 엄격한 문법과 모호성이 없는 형태의 전달 방식 Better Interface : 자연 언어, 사람이 실제 사용하는 형태에 가까운 전달 방식 ※ 자연어(Natural Language)란? 자연어 혹은 자연 언어는 사람들이 일상적으로 쓰는 언어를 인공적으로 만들어진 언어인 인공어와 구분하여 부르는 개념 사람이 이해하는 자연어를 컴퓨터가 이해할 수 있는 값으로 바꾸는 과정..