Data scientist/Machine Learning

수학적 개념 이해(1)

맨사설 2021. 8. 19. 13:51
728x90

◎ 통계학이란?

  • 모집단(Population) : 연구의 대상이 되는 모든 개체들을 모은 집합
  • 표본(Sample) : 모집단의 일부분의 관측값들

※ 모수(Parameter) : 수치로 표현되는 모집단의 특성, 통계량(Statistic) : 표본의 관측값들에 의해서 결정되는 양

 

통계량을 통해 모집단을 추론한다.

 

 

 

◎ 자료의 종류

  • 수치형 (양적자료) : 1. 연속형, 2. 이산형  => (Box plot, 히스토그램)
  • 범주형 (질적자료) : 1. 순위형, 2. 명목형  => (도수 분포표, 막대/원형 그래프)

 

 

◎ 자료의 요약

 

ⓐ 중심 경향값 (대표값)

  • 평균 (Mean)
  • 중앙값 (Median) : 크기순으로 정렬시켜 중앙에 위치한 값
  • 최빈값 (Mode) : 가장 자주 나오는 값

 

분포에 따라 다른 모습

 

 

ⓑ 산포도 (퍼진 정도)

  • 분산 (Variance)
  • 사분위수 범위 : 전체 관측밧을 크기순으로 정렬했을 때 중앙에 위치한 50%의 관측치가 가지는 범위

 

 

ⓒ 분포도

  • 왜도 (Skewness) : 분포의 비대칭 정도
  • 첨도 (Kurtosis) : 분포의 꼬리 부분의 비중에 대한 측도

 

왜도(위)와 첨보(아래)의 예

 

 

◎ 확률

 

□ 확률실험 (Random experiment) : 인위적인 실험

 

   ⓐ 표본공간 (Sample space) : 모든 결과들의 모임

   ⓑ 근원사건 (Sample outcome) : 표본 공간의 원소

   ⓒ 사건 (Event) : 표본 공간의 부분집합, 근원사건의 집합

 

 

예시

 

 

□ 확률 : 어떠한 사건이 일어날 가능성의 정도

   

   ① 확률의 공리 : 0 <= P(A) <= 1

   ② P(S) = 1

   ③ 어떠한 사건들이 서로 배반사건일 때, 이 사건들의 합사건의 확률은 각각의 사건이 일어날 확률의 합과 같다.

 

 

□ 조건부 확률 : 사건 B에 대한 정보가 주어졌을 때 사건 A의 교정된 확률

 

□ 독립 : 사건 A와 B가 서로에게 아무런 영향을 미치지 않을 때


■ 확률변수 : 각각의 근원사건들에 실수값을 대응시키는 함수

 

 확률분포 : 확률변수에서 확률값으로의 함수

 

 확률변수의 기대값 : 확률변수의 중심 경향값

 

 확률변수의 분산

 

공분산 : 두개의 확률변수 X,Y가 상호 어떤 관계를 자지며 변화하는가를 나타낸 측도

 

공분산 식

 상관계수 : 공분산을 단위화한 값

 

상관계수 식

 

728x90

'Data scientist > Machine Learning' 카테고리의 다른 글

회귀분석(2)_Code  (0) 2021.08.19
회귀분석(1)  (0) 2021.08.19
수학적 개념 이해(2)  (0) 2021.08.19
Machine Learning_basic(2)  (0) 2021.08.18
Machine Learning_basic(1)  (0) 2021.08.18