Data scientist/Machine Learning

LDA + Python_Code

맨사설 2021. 8. 25. 21:48
728x90

 

 수학적 개념 이해

로그를 취한 다변량 정규분포의 형태
boundary 식 공식

 

 

◎ Linear Discriminant Analysis(LDA)

LDA 기본가정

 

※ LDA 결과 얻게 되는 decision boundary의 특징 : 평균의 차이는 최대화, 두 분포의 각각의 분산은 최소화

분산대비 평균의 차이를 극대화 하는 boundary를 찾고자 한다.

 

l대비 k범주에 속할 확률이 높아질 수록 위의 값은 커진다.

 

새로 들어온 변수에 대해서도 값 추정 가능

 

 

 

◎ LDA의 심화적 이해

  • LDA decision boundary는 분산대비 평균의 차이를 극대화 하는 boundary
  • 장점1 : Naive bayes 모델과 달리, 설명변수간의 공분산 구조를 반영
  • 장점2 : 가정이 위반되더라도 비교적 robust
  • 단점1 : 가장 작은 그룹의 샘플 수가 설명변수의 개수보다 많아야 함
  • 단점2 : 정규분포 가정에 크게 벗어나는 경우 잘 설명하지 못함
  • 단점3 : y범주 사이에 공분산 구조가 다른 경우를 반영하지 못함

 

QDA는 LDA의 2차 형식이다. 
QDA의 장점

 

 

728x90

'Data scientist > Machine Learning' 카테고리의 다른 글

의사결정나무 + Python_Code  (0) 2021.08.26
SVM + Python_Code  (0) 2021.08.26
K-NN + Python_Code  (0) 2021.08.25
Naive Bayes + Python_Code  (0) 2021.08.25
PCA + Python_Code  (0) 2021.08.23