◎ NLP Project Workflow 문제 정의 ▷ 데이터 수집 ▷ 데이터 전처리 및 분석 ▷ 알고리즘 적용 ▷ 평가 ▷ 배포 ◎ Preprocessing Workflow 데이터 수집 ▷ 정제 ▷ 레이블링 ▷ Tokenization ▷ Subword Segmentation ▷ Batchify ◎ 말뭉치(Corpus)란? 자연어처리를 위한 문장들로 구성된 데이터셋 복수 표현 : Corpora Parallel Corpus : 대응되는 문장 쌍이 labeling 되어 있는 형태 ◎ Service Pipeline ◎ 데이터 구입 및 외주의 한계 구입 : 양질의 데이터를 얻을 수 있음, 양이 매우 제한적이다. 외주 : 수집, 정제 및 레이블링을 외주 줄 수 있음, 가장 높은 비용 -> 양이 매우 제한적, 품질..