Data scientist/Machine Learning

회귀분석(1)

맨사설 2021. 8. 19. 16:23
728x90

 

◎ 회귀분석

 

ㅡ 회귀분석이란 : 입력 변수인 X의 정보를 활용하여 출력 변수인 Y를 예측하는 방법

 

 

ㅡ 단순 선형 회귀분석

단순 선형 회귀식

- B0는 절편, B1은 기울기이며 합쳐서 회귀계수(coefficients)로도 부른다.

 

 

 

 

◎ 회귀계수 추정

 

ㅡ 실제 값과 우리가 추정한 값의 차이가 적으면 적을수록 좋을 것

 

ㅡ 실제 값과 우리가 추정한 값의 차이를 잔차(residual)라고 하며 이를 최소화하는 방향으로 추정

 

잔차의 제곱합(SSE)

 

ㅡ SSE B0과 B1로 편미분 하여 연립방정식을 푸는 방법(Least Square Method)

 

회귀계수 추정방법

 

 

◎ 회귀계수의 의미

선형 회귀식

# 위의 식에서 B1의 해석 : X가 1 단위 증가할 때마다 y가 B1만큼 증가한다.

 

 

○ 선형 회귀의 정확도 평가

  • 잔차의 제곱합(SSE)을 최소화하는 방법으로 회귀 계수를 추정
  • SSE가 작으면 작을수록 좋은 모델이라 볼 수 있다
  • MSE(Mean Squared Error)는 SSE를 표준화한 개념

MSE 방정식

 

SST = SSE + SSR

※ Y의 총 변동(SST)은 회귀 직선으로 설명 불가능 한 변동(SSE)과 회귀 직선으로 설명 가능한 변동(SSR)으로 이루어짐

 

R²의 식

※ R²은 설명력으로 입력 변수인 X로 설명할 수 있는 Y의 변동을 의미 (0 <= R² <= 1)

+ R² 이 1에 가까울수록 선형 회귀 모형의 설명력이 높다는 것을 뜻한다.

 

※ 변수가 여러 개일 때 각각 Y를 설명하는 변동성이 크면 좋은 변수 -> p-value는 자연스레 낮아진다.

 

 

 

 

○ 단순 선형 회귀분석의 검정

 

신뢰구간 식

 

 

 

◎ 다중 선형 회귀분석

  • 단순 선형 회귀분석 : 변수가 1개인 경우
  • 다중 선형 회귀분석 : 변수가 여러 개인 경우

 

베타 추정 과정

 

○ 다중 선형 회귀분석의 검정 : 단순 선형 회귀분석과 동일하다.

 

 

 

○ 다중 선형 회귀 모델 검정

 

 

○ 다중공선성(Multicollinearity) : 독립변수들이 강한 선형 관계에 있을 때 다중공선성이 있다고 한다.

 

 

 

 

○ 다중공선성 진단 방법

 

ⓐ VIF가 10 이상인 경우 다중공선성이 있는 변수라고 판단!!

VIF 계산 방법

 

ⓑ 상관 행렬 및 산점도를 보고 판단

 

# 다중공선성을 근본적으로 해결하는 방법은 아직 없다..

 

 

 

◎ 회귀모델의 성능지표

※ R²은 변수가 증가하면 증가할수록 R² 는 자연스레 증가한다.

 

 

● Adjusted R²

변수 수가 증가하는 만큼 penalty를 주는 지표가 Adjusted 

 

● AIC (Akaike information criterion)

모델의 성능지표로서 MSE에 변수 수만큼 penalty를 주는 지표

 

● BIC (Bayes information criteria)

AIC의 단점은 표본 n이 커질 때 부 정확해지므로 이를 보완한 지표가 BIC

 

◎ 모형의 성능지표

● MSE (Mean Squared Error)

 

-예측한 값이 실제 값과 유사한지 평가하는 척도가 필요

- MSE는 실제 종속 변수와 예측한 종속 변수 간의 차이

- MSE는 작을수록 좋지만, 과도하게 줄이면 과적합의 오류를 범할 가능성이 높아진다.

 

 

● MAPE (Mean absolute percentage error)

 

- MAPE는 퍼센트 값을 가지며 0에 가까울수록 회귀 모형의 성능이 좋다고 해석할 수 있다.- 0% ~ 100% 사이의 값을 가져 이해하기 쉬우므로 성능 비교 해석이 가능

 

○ 이산형 확률변수 일 때

 

● 정확도 (Accuracy) : 전체 데이터 중에서 모형으로 판단한 값이 실제 값과 부합하는 비율

 

● 정밀도 (Precision) : 분류 모형이 불량을 진단하기 위해 얼마나 잘 작동했는 지표

 

● 재현율 (Recall) : 불량 데이터중 실제로 불량이라고 진단한 제품의 비율

 

● 특이도 (Specificity) : 분류 모형이 정상을 진단하기 위해 잘 작동하는지를 보여주는 지표

 

 

 

 

 

◎ 변수 선택법

  • 변수가 여러 개일 때 최적의 변수 조합을 찾아내는 기법

⑴ Feedforward Selection 방법 : 변수를 추가해가며 성능지표를 비교해가는 방법

 

Feedforward Selection

⑵ Backward Elimination 방법 : 변수를 제거해가며 성능지표를 비교해가는 방법

 

Backward Elimination # AIC는 낮을수록 좋다

 

⑶ Stepwise 방법 : 가장 유의한 변수를 추가하거나 유의하지 않는 변수를 제거해나가는 방법

 

Stepwise 실행 순서

 

 

◎ 교호작용

  • 변수 간의 시너지 효과

◆ 명목형 변수(Dummy variable) : 성별, 대학, 지역 등 명목형 변수의 경우 전처리가 필요함.

 

명목형 변수의 전처리의 예

 

 

 

 

◎ 회귀분석의 진단

  • 과연 이 회귀모델이 잘 만들어진 모델인 것인가에 대한 진단이 필요
  • 회귀분석에서는 아래 잔차에 대한 세 가지 가정이 존재 : 정규성, 독립성, 등분산성

 

잔차가 가정에 위배될 때 조치할 수 있는 3가지 방법

 

 

 

◎ 다항회귀분석

  • 독립변수와 종속 변수 간의 비선형 관계를 가질 경우 다항회귀분석 사용
  • Residual Plot을 통해 다중 회귀의 가정이 위배된 경우 다항회귀분석 사용

 

 

728x90

'Data scientist > Machine Learning' 카테고리의 다른 글

회귀분석(3)_변수선택법 Code  (0) 2021.08.21
회귀분석(2)_Code  (0) 2021.08.19
수학적 개념 이해(2)  (0) 2021.08.19
수학적 개념 이해(1)  (0) 2021.08.19
Machine Learning_basic(2)  (0) 2021.08.18