728x90
◎ 통계학이란?
- 모집단(Population) : 연구의 대상이 되는 모든 개체들을 모은 집합
- 표본(Sample) : 모집단의 일부분의 관측값들
※ 모수(Parameter) : 수치로 표현되는 모집단의 특성, 통계량(Statistic) : 표본의 관측값들에 의해서 결정되는 양
◎ 자료의 종류
- 수치형 (양적자료) : 1. 연속형, 2. 이산형 => (Box plot, 히스토그램)
- 범주형 (질적자료) : 1. 순위형, 2. 명목형 => (도수 분포표, 막대/원형 그래프)
◎ 자료의 요약
ⓐ 중심 경향값 (대표값)
- 평균 (Mean)
- 중앙값 (Median) : 크기순으로 정렬시켜 중앙에 위치한 값
- 최빈값 (Mode) : 가장 자주 나오는 값
ⓑ 산포도 (퍼진 정도)
- 분산 (Variance)
- 사분위수 범위 : 전체 관측밧을 크기순으로 정렬했을 때 중앙에 위치한 50%의 관측치가 가지는 범위
ⓒ 분포도
- 왜도 (Skewness) : 분포의 비대칭 정도
- 첨도 (Kurtosis) : 분포의 꼬리 부분의 비중에 대한 측도
◎ 확률
□ 확률실험 (Random experiment) : 인위적인 실험
ⓐ 표본공간 (Sample space) : 모든 결과들의 모임
ⓑ 근원사건 (Sample outcome) : 표본 공간의 원소
ⓒ 사건 (Event) : 표본 공간의 부분집합, 근원사건의 집합
□ 확률 : 어떠한 사건이 일어날 가능성의 정도
① 확률의 공리 : 0 <= P(A) <= 1
② P(S) = 1
③ 어떠한 사건들이 서로 배반사건일 때, 이 사건들의 합사건의 확률은 각각의 사건이 일어날 확률의 합과 같다.
□ 조건부 확률 : 사건 B에 대한 정보가 주어졌을 때 사건 A의 교정된 확률
□ 독립 : 사건 A와 B가 서로에게 아무런 영향을 미치지 않을 때
■ 확률변수 : 각각의 근원사건들에 실수값을 대응시키는 함수
■ 확률분포 : 확률변수에서 확률값으로의 함수
■ 확률변수의 기대값 : 확률변수의 중심 경향값
■ 확률변수의 분산
■ 공분산 : 두개의 확률변수 X,Y가 상호 어떤 관계를 자지며 변화하는가를 나타낸 측도
■ 상관계수 : 공분산을 단위화한 값
728x90
'Data scientist > Machine Learning' 카테고리의 다른 글
회귀분석(2)_Code (0) | 2021.08.19 |
---|---|
회귀분석(1) (0) | 2021.08.19 |
수학적 개념 이해(2) (0) | 2021.08.19 |
Machine Learning_basic(2) (0) | 2021.08.18 |
Machine Learning_basic(1) (0) | 2021.08.18 |