Book report/파이썬 머신러닝 완벽가이드 9

[파이썬 머신러닝 완벽가이드] 08. 텍스트 분석(2)

06. 토픽 모델링(Topic Modeling) - 20 뉴스그룹¶ 토픽 모델링이란 문서 집합에 숨어 있는 주제를 찾아내는 것 사람이 수행하는 토픽 모델링은 더 함축적인 의미로 문장을 요약하는 것에 반해, 머신러닝 기반의 토픽 모델은 숨겨진 주제를 효과적으로 표현할 수 있는 중심 단어를 함축적으로 추출 머신러닝 기반의 토픽 모델링에 사용되는 기법은 LSA(Latent Semantic Analysis)와 LDA(Latent Dirichlet Allocation) In [1]: from sklearn.datasets import fetch_20newsgroups from sklearn.feature_extraction.text import CountVectorizer from sklearn.decomposi..

[파이썬 머신러닝 완벽가이드] 08. 텍스트 분석(1)

◎ NLP이냐 텍스트 분석이냐?¶ NLP(National Language Processing)는 머신이 인간의 언어를 이해하고 해석하는 데 더 중섬을 두고 기술이 발전 텍스트 마이닝이라고도 불리는 텍스트 분석은 비정형 텍스트에서 의미 있는 정보를 추출하는 것에 좀 더 중점을 두고 발전 룰 기반 시스템에서 머신러닝의 텍스트 데이터를 기반으로 변경되면서 기술적 발전이 가능해짐 ※ 텍스트 분석 집중 기술 영역 텍스트 분류 : 문서가 특정 분류 또는 카테고리에 속하는 것을 예측하는 기법을 통칭. 스팸 메일 검출 같은 프로그램으로 지도학습을 적용 감성 분석 : 텍스트에서 나타나는 감정/판단/믿음/의견/기분 등의 주관적인 요소를 분석하는 기법을 총칭. 리뷰, 여론조사 등의 다양한 영역에서 활용되는 지도학습과 비지도..

[파이썬 머신러닝 완벽가이드] 07. 군집화

01. K-평균 알고리즘 이해¶ K-평균은 군집 중심점(centroid)이라는 특정한 임의의 지점을 선택해 해당 중심에 가장 가까운 포인트들을 선택하는 군집화 기법입니다. 군집 중심점은 선택된 포인트의 평균 지점으로 이동하고 이동된 중심점에서 다시 가까운 포인트를 선택, 다시 중심점을 평균 지점으로 이동하는 프로세스를 반복적으로 수행합니다. 모든 데이터 포인트에서 더이상 중심점의 이동이 없을 경우에 반복을 멈추고 해당 중심점에 속하는 데이터 포인트들을 군집화하는 기법입니다. K-평균의 장점 : 군집화에서 가장 많이 활용되는 알고리즘, 알고리즘이 쉽고 간결하다. K-평균의 단점 : 거리 기반 알고리즘으로 속성의 개수가 매우 많을 경우 군집화 정확도가 떨어집니다.(PCA로 차원 감소를 적용해야 할 수도 있습..

[파이썬 머신러닝 완벽가이드] 06. 차원 축소

01. 차원 축소(Dimension Reduction) 개요¶ 차원 축소는 매우 많은 피처로 구성된 다차원 데이터 세트의 차원을 축소해 새로운 차원의 데이터 세트를 생성하는 것입니다. 일반적으로 차원이 증가할수록 데이터 포인트 간의 거리가 기하급수적으로 멀어지게 되고, 희소(sparse)한 구조를 가지게 됩니다. 또한 수백 개 이상의 피처로 구성된 데이터 세트의 경우 상대적으로 적은 차원에서 학습된 모델보다 예측 신뢰도가 떨어집니다. 피처가 많을 경우 개별 피처간에 상관관계가 높을 가능성도 큽니다. 다중 공선성 문제는 모델의 예측 성능이 저하시킵니다. 차원 축소해 피처 수를 줄이면 더 직관적으로 데이터를 해석할 수 있다. 또한 차원 축소를 할 경우 학습 데이터의 크기가 줄어들어서 학습에 필요한 처리 능력..

[파이썬 머신러닝 완벽가이드] 05. 회귀

01. 회귀 소개¶ 회귀 분석은 유전적 특성을 연구하던 영국의 통계학자 갈톤(Galton)이 수행한 연구에서 유래했다는 것이 일반론입니다. 회귀 분석은 데이터 값이 평균과 같은 일정한 값으로 돌아가려는 경향을 이용한 통계학 기법으로 일례로 사람의 키는 평균 키로 회귀하려는 경향을 가진다는 자연의 법칙입니다. 회귀는 여러 개의 독립변수와 한 개의 종속변수 간의 상관관계를 모델링하는 기법을 통칭합니다. 머신러닝 관점에서 독립변수는 피처에 해당되며 종속변수는 결정 값입니다. 즉, 머신러닝은 주어진 피처와 결정 값 데이터 기반에서 학습을 통해 최적의 회귀 계수를 찾아내는 것입니다. 회귀 계수가 선형이나 아니냐에 따라 선형 회귀와 비선형 회귀로 나눌 수 있으며 독립변수의 개수가 한 개인지 여러 개인지에 따라 단일..

[파이썬 머신러닝 완벽가이드] 04. 분류

01. 분류(Classification)의 개요¶ 지도학습은 레이블(Label), 즉 명시적인 정답이 있는 데이터가 주어진 상태에서 학습하는 머신러닝 방식입니다. 즉, 기존 데이터가 어떤 레이블에 속하는지 패턴을 알고리즘으로 인지한 뒤에 새롭게 관측된 데이터에 대한 레이블을 판별하는 것입니다. □ 분류는 다양한 머신러닝 알고리즘으로 구현 베이즈(Bayes) 통계와 생성 모델에 기반한 나이브 베이즈 독립변수와 종속변수의 선형 관계성에 기반한 로지스틱 회귀 데이터 균일도에 따른 규칙 기반의 결정 트리(Decision Tree) 개별 클래스 간의 최대 분류 마진을 효과적으로 찾아주는 서포트 벡터 머신(Support Vector Machine) 근접 거리를 기준으로 하는 최소 근접(Nearest Neighbor..

[파이썬 머신러닝 완벽가이드] 03. 평가

머신러닝은 데이터 가공/변환, 모델 학습/예측, 그리고 평가(Evaluation)의 프로세스로 구성됩니다. 모델의성능 평가 지표는 일반적으로 모델이 분류냐 회귀냐에 따라 여러 종류로 나뉩니다. 분류의 평가방법도 일반적으로는 실제 결과 데이터와 예측 결과 데이터가 얼마나 정확하고 오류가 적게 발생하는가에 기반하지만, 단순히 이러한 정확도만 가지고 판단했다가는 잘못된 평가 결과에 빠질수 있습니다. ※ 분류의 성능 평가 지표 정확도(Accuracy) 오차행렬(Confusion Matrix) 정밀도(Precision) 재현율(Recall) F1 스코어 ROC AUC 01. 정확도(Accuracy)¶ 정확도 = 예측 결과가 동일한 데이터 건수 / 전체 예측 데이터 건수 정확도는 직관적으로 모델 예측 성능을 나타내..