Data scientist/Machine Learning 15

회귀분석(4)_로지스틱 회귀분석

◎ 로지스틱 회귀분석 로지스틱 회귀는 출력 변수를 직접 예측하는 것이 아니라, 두 개의 카테고리를 가지는 binary 형태의 출력 변수를 예측할 때 사용하는 회귀분석 방법 ◎ 로지스틱 회귀계수 추정 단순 선형회귀의 최소제곱법을 사용하는 것이 아닌 최대우도법을 사용 ◎ 회귀계수 축소법 ※ 분석용 데이터의 이상적 조건 독립변수 X 사이에 상관성이 작아야 이상적이다. 독립변수 X와 종속변수 Y의 상관성은 커야한다. 많은 양질의 데이터(결측치와 노이즈가 없는 깨끅한 데이터) 필요하다. ※ 회귀계수를 축소하는 이유 영향력이 없는 입력 변수의 계수를 0에 가깝게 가져간다면, 모형에 포함되는 입력 변수의 수를 줄일 수 있다. ○ 입력 변수의 수를 줄이면 세 가지 장점이 존재 잡은(noise)을 제거해 모형의 정확도를..

회귀분석(3)_변수선택법 Code

해당 데이터를 활용한 3가지 변수선택법 실습 코드 In [1]: import os import pandas as pd import numpy as np import statsmodels.api as sm from sklearn.model_selection import train_test_split In [2]: # 데이터 불러오기 df= pd.read_csv('C:/Users/설위준/Desktop/05-11--machine-learning/Part 05~11) Machine Learning/06. 회귀분석/실습코드/ToyotaCorolla.csv') df.head() Out[2]: Id Model Price Age_08_04 Mfg_Month Mfg_Year KM Fuel_Type HP M..

회귀분석(2)_Code

해당 데이터를 활용한 기본적인 단순 선형 회귀분석 실습 코드 In [1]: # 기본 라이브러리 import os import pandas as pd import numpy as np import statsmodels.api as sm In [2]: # 데이터 불러오기 boston = pd.read_csv('C:/Users/설위준/Desktop/05-11--machine-learning/Part 05~11) Machine Learning/06. 회귀분석/실습코드/Boston_house.csv') boston.head() Out[2]: AGE B RM CRIM DIS INDUS LSTAT NOX PTRATIO RAD ZN TAX CHAS Target 0 65.2 396.90 6.575 0.00..

회귀분석(1)

◎ 회귀분석 ㅡ 회귀분석이란 : 입력 변수인 X의 정보를 활용하여 출력 변수인 Y를 예측하는 방법 ㅡ 단순 선형 회귀분석 - B0는 절편, B1은 기울기이며 합쳐서 회귀계수(coefficients)로도 부른다. ◎ 회귀계수 추정 ㅡ 실제 값과 우리가 추정한 값의 차이가 적으면 적을수록 좋을 것 ㅡ 실제 값과 우리가 추정한 값의 차이를 잔차(residual)라고 하며 이를 최소화하는 방향으로 추정 ㅡ SSE B0과 B1로 편미분 하여 연립방정식을 푸는 방법(Least Square Method) ◎ 회귀계수의 의미 # 위의 식에서 B1의 해석 : X가 1 단위 증가할 때마다 y가 B1만큼 증가한다. ○ 선형 회귀의 정확도 평가 잔차의 제곱합(SSE)을 최소화하는 방법으로 회귀 계수를 추정 SSE가 작으면 작..

수학적 개념 이해(2)

◎ 이산형 확률분포 ◇ 베르누이 시행 : 실험의 결과의 범주가 2가지인 경우 (성공 / 실패) ◇ 이항분포 : 성공확률이 p인 베르누이 시행을 독립적으로 n번 시행했을 때 성공한 횟수의 분포 ◇ 다항분포 : k개 범주의 다항 시행을 n번 반복했을 때, 각 범주가 나타나는 획수의 분포 ◇ 포아송분포 : 주어진 단위 구간 내에 평균적으로 발생하는 사건의 횟수가 정해져 있을 때, 동일 단위에서의 발생 횟수 ◎ 연속형 확률분포 ◇ 지수분포 : 평균 소요시간이 u인 사건이 발생하기까지 걸리는 소요시간 ◇ 정규분포 ◎ 통계적 추론 ◇ 점추정 (Point estimation) : 추정량을 통해 모수를 추정 ◇ 구간 추정 (Point estimation) : 일정 신뢰수준 하에서 모수를 포함할 것으로 예상되는 구간을 ..

수학적 개념 이해(1)

◎ 통계학이란? 모집단(Population) : 연구의 대상이 되는 모든 개체들을 모은 집합 표본(Sample) : 모집단의 일부분의 관측값들 ※ 모수(Parameter) : 수치로 표현되는 모집단의 특성, 통계량(Statistic) : 표본의 관측값들에 의해서 결정되는 양 ◎ 자료의 종류 수치형 (양적자료) : 1. 연속형, 2. 이산형 => (Box plot, 히스토그램) 범주형 (질적자료) : 1. 순위형, 2. 명목형 => (도수 분포표, 막대/원형 그래프) ◎ 자료의 요약 ⓐ 중심 경향값 (대표값) 평균 (Mean) 중앙값 (Median) : 크기순으로 정렬시켜 중앙에 위치한 값 최빈값 (Mode) : 가장 자주 나오는 값 ⓑ 산포도 (퍼진 정도) 분산 (Variance) 사분위수 범위 : 전체..

Machine Learning_basic(2)

◎ Deep Learning 주요 모델 1 Neural Network는 overfitting이 심하게 일어나고 학습시간이 매우 오래 걸린다. 알고리즘 및 GPU의 발전은 Deep learning의 부흥을 이끈다. 딥러닝은 다양한 형태로 발전(CNN, RNN, AutoEncoder 등) 그 외 Object detection, Image Resolution, Style transfer, Colorization 등 다양한 분야로도 발전 ◎ Deep Learning 주요 모델 2 1. GAN(Generative Adversarial Network) : 데이터를 만들어내는 Generator와 만들어진 데이터를 평가하는 Discriminator가 서로 대립적(Adversarial)으로 학습해가며 성능을 점차 개선해..