728x90
01. 데이터 기초체력 기르기¶
◇ 01. 통계학 이해하기¶
1.1 왜 통계학을 알아야 할까?¶
- 데이터 과학의 프로세스 : 데이터 수집 ⇒ 데이터 가공 ⇒ EDA(데이터 시각화) ⇒ M/L 모델링 ⇒ 결과 해석 및 적용
1.2 머신러닝과 전통적 통계학의 차이¶
- 머신러닝의 주된 목적은 예측(Prediction)이고 통계학의 주된 목적은 해석(Explanation)
- 통계학은 모델의 기초 체력과 같은 것이고 이를 바탕으로 복잡하고 정교한 머신러닝 모델을 만드는 것
1.3 통계학의 정의와 기원¶
- 통계학(Statistics)은 자료를 수집, 분석하여 그 분석 결과를 통해 효율적인 의사결정을 하는 기법을 연구하는 학문
- 골턴 : 사분위수, 백분율, 표준편차 중앙값, 회귀를 발견한 사람
- 칼 피어슨(Karl Pearson) : 통계학의 아버지, 상관관계 계수의 개념 창시자
- 존 튜키 : 탐색적 데이터 분석(EDA)의 창시자
1.4 기술 통계와 추론 통계¶
- 기술 통계 : 데이터의 특성을 사실에 근거하여 설명하고 묘사, EDA라고도 표현, 시각화를 많이 사용
- 추론 통계 : 표본 집단으로부터 모집단의 특성을 추론하는 것이 목적
◇ 02. 모집단과 표본추출¶
2.1 모집단과 표본, 전수조사와 표본조사¶
- 모집단(population) : 분석 대상 전체의 집합 | 표본(sample) : 모집단의 일부를 추출한 것
- 모집단의 자료 전체를 조사 및 분석하여 정보를 추출하는 것을 전수조사라 하며, 모집단의 정보를 추정하고 검정하는 것을 표본조사라 한다.
2.2 표본조사를 하는 이유와 데이터과학 적용 방법¶
- 예측 및 분류 모델링 단계에서는 적절한 표본을 추출해서 진행하고 전체 프로세스가 완성됐을 때 전체의 데이터를 사용하여 최종적인 모델 성능을 확인하고 예측 및 분류하는 것이 좋다.
2.3 표본추출에서 나타나는 편향의 종류¶
- 표본 오차 : 모집단과 표본의 자연 발생적인 변동 | 표본 오차를 제외한 변동을 비표본 오차
※ 비표본 오차의 한 원인인 편향의 종류
- 표본추출편향 : 표본 추출 과정에서 체계적인 경향이 개입되어 모집단에서 편향된 표본만 추출
- 가구편향 : 모집단의 부분 집단 단위에서 하나의 관측치씩 추출하는 경우 크고 적은 집단이 작고 많은 집단보다 적게 추출되는 경우
- 무응답편향 : 설문에 응답하지 않는 사람들과 응답하는 사람들에 체계적인 차이가 있는 경우
- 응답편향 : 설문 형식의 문제, 응답자의 심리적 이슈에 의해 표본이 영향을 받는 경우(브래들리 효과)
- 이러한 표본 현향은 확률화(randomization) 등의 방법을 통해 최소화하거나 없앰
2.4 인지적 편향의 종류¶
- 인지적 편향 : 분석가의 성향이나 상황에 따라 비논리적인 추론을 내리는 패턴
※ 인지적 편향의 종류
- 확증 편향(confirmation bias) : 자신이 본래 믿고 있는 대로 정보를 선택적으로 받아들이고 임의로 판단하는 편향 ⇒ 두 명 이상의 분석가가 크로스 체크하거나 블라인드 분석을 통해 방지
- 기준점 편향(anchoring bias) : 분석가가 가장 처음에 접하는 정보에 지나치게 매몰되는 편향
- 선택 지원 편향(choice-supportive bias) : 확증 편향과 유사한 개념으로 본인이 의사결정을 내리는 순간 그 선택의 긍정적인 부분에 대해 더 많이 생각하고 그 결정에 반대되는 증거를 무시하게 되는 편향 (확증 편향은 기존의 상식과 고정관념에 의한 편향, 선택 지원 편향은 의사결정이 이루어진 순간부터의 편향)
- 분모 편향(denominator bias) : 분수 전체가 아닌 분자에만 집중하여 현황을 왜곡하여 판단하게 되는 편향
- 생존자 편향(survivorship bias) : 소수의 성공한 사례를 일반화된 것으로 인식함으로써 나타나는 편향
2.5 머신러닝 모델 측면의 편향과 분산¶
- 편향과 분산은 트레이드오프 관계
- 편향은 작지만 분산이 큰 모델 : 모델의 복잡성이 너무 커서 과적합이 일어난 상태
- 편향은 크지만 분산이 적은 모델 : 정답 값을 제대로 설명할 수 있는 변수가 부족한 상태
- 편향과 분산 모두 큰 모델 : 모델로서 효과가 없는 상태
2.6 표본 편향을 최소화하기 위한 표본 추출 방법¶
- 표본 추출의 두 가지 관점 :
- 데이터 수집 단계의 표본 추출
- 기업에서 이미 가지고 있는 빅데이터에서 분석 모델링을 위한 적절한 크기의 표본데이터를 추출
- 데이터에 이상이 없는 모집단과 표본프레임이 확정이 되면 확률 표본추출과 비확률 표본 추출 방법 그리고 복원추출과 비복원 추출 중 적절한 방법을 선택해야 함
- 확률 표본추출방법은 대표적으로 단순 임의 추출방법, 계층적 표본추출방법, 층화 표본추출방법, 군집 표본추출방법 등이 있다.
◇ 03. 변수와 척도¶
3.1 변수의 종류¶
- 양적변수는 이산변수와 연속변수로 나눌 수 있음 | 질적변수는 수치적 의미를 가지고 있지 않는 변수
- 변수의 관계적 측면에서는 독립변수와 종속변수로 나눌 수 있다.
- 독립변수와 종속변수 외에도 통제변수, 매개변수, 조절변수 등이 있다.
3.2 변수 관계의 종류¶
- 인과관계(causal relationship)는 변수가 다른 변수의 원이이 되어 영향을 미치는 관계
- 상관관계(correlational relationship)는 변수 간에 관련성이 존재하는 관계, 인과관계의 상위개념
- 독립관계(independent relationship)는 변수 간에 상관성, 즉 상관계수가 0인 관계(데이터 분석에 있어서 독립변수 간은 서로 독립관계여야 한다.)
- 의사관계(spurious relationship)는 변수 간에 상관성은 있지만, 그 상관성이 다른 변수에 의해 나타난 관계
- 양방향적 인과관계(reciprocal causality)는 두 변수가 서로 간에 인과적 영향을 미치는 관계
- 조절관계(moderating relationship)는 독립변수와 종속변수 사이에서 강하고 불확정적인 영향을 미치는 관계
- 매개관계(mediational relationship)는 독립면수와 종속변수의 중간에서 매개변수가 개입되어 독립변수의 영향을 종속변수에 전달하는 관계
3.3 척도의 종류¶
- 척도 : 측정하고자 하는 대상을 수치화하는 것에 사용되는 일종의 측정 도구
- 명목척도(nominal scale)는 조사대상의 속성이나 범주를 구분하기 위한 목적으로 만들어진 척도
- 서열척도(ordinal scale)는 조사대상의 속성 크기를 측정하여 대상 간의 순서관계를 측정하는 척도
- 등간척도(interval scale)는 서열척도가 가지고 있는 정보와 함계 조사대상이 가지고 있는 속성의 '상대적 크기'의 차이를 비교할 수 있는 정보도 가진 척도
- 비율척도(ratio scale)는 가장 많은 정보를 담을 수 있는 척도
◇ 데이터의 기술 통계적 측정¶
4.1 중심 성향의 측정¶
- 중심성향 : 평균값, 최빈값, 중앙값
- 4종류의 평균 : 산술평균, 가중평균, 기하평균, 조화평균
- 중앙값 : 데이터를 큰 수부터 내림차순으로 나열했을 때 중앙에 위치하는 값 | 최빈값은 데이터 중 가장 빈도가 높은 값
4.2 분산과 표준편차¶
- 분산은 산술평균과 각 데이터의 편차를 제곱한 것의 평균 | 표준편차는 분산의 제곱근 값
- 자유도(degree of freedom)란 자유롭게 선택할 수 있는 숫자의 개수, 표본이 모집단보다 분산이 작게 계산되는 경향이 있기 때문에 -1 해줌으로써 모수의 분산과 비슷하도록 조정해준다.
4.3 산포도와 범위, 사분위수, 변동계수¶
- 산포도(dispersion)는 분산도라고도 불리며 대푯값을 중심으로 자료들이 픝어져 있는 정도를 의미(분산과 표준편차를 포관하는 상위 개념)
- 산포도를 측정하는 방법으로 범위, 분산, 표준편차, 사분위수 범위, 변동계수 등이 있다.
- 변동 계수(coefficient of variation, CV)는 표준편차를 산술평균으로 나눈 값으로 서로 다른 자료의 산포도를 비교하기 위해 사용
4.4 왜도와 첨도¶
- 왜도 : 데이터 분포의 좌우 비대칭도를 표현하는 척도, 정규분포처럼 분포가 좌우대칭을 이룰수록 왜도값은 작어지고, 한쪽으로 심하게 몰려 있으며 왜도값은 증가
- 첨도 : 분포가 정규분포보다 얼마나 뾰족하거나 완만한지의 정도를 나타내는 척도, 첨도가 음수로 작을수록 분포는 넓게 퍼져 있게 되고 양수로 클수록 뾰족한 형태의 분포를 가짐
4.5 표준편차의 경험법칙¶
- 경험법칙(empirical rule) : 표준편차를 통해 데이터 값들의 범위를 가늠하는 것
- 경험법칙은 통계적으로 표본의 크기가 최소 100 이상은 되어야 성립, 만약 주어진 데이터의 분포를 모를 경우 체비셰프의 정리를 적용
◇ 05.확률과 확률변수¶
5.1 확률의 기본 개념¶
- 확률 : 일정한 조건 안에서 특정 사건이 일어날 수 있는 가능성의 정도
5.2 확률의 종류¶
- 비조건확률(unconditional probability) : 아무런 조건이 없는 상황에서 사건이 일어날 확률
- 결합확률(joint probability) : 표본공간 안에서 일어나는 사건 각각의 조합으로 이루어지는 확률
- 조건부확률(conditional probability) : 하나의 사건이 먼저 발생했다는 조건이 전제된 상황에서 또 다른 사건이 발생할 확률
5.3 분할과 베이지안 이론¶
- 베이지안 이론 : 사건 발생 전에 이미 가지고 있는 자선확률 P(A)와 우도확률 P(B|A)를 안다면 사후확률 P(A|B)를 계산할 수 있다.
5.4 확률변수의 개념과 종류¶
- 확률변수는 확률과 변수의 개념이 합쳐진 것, 측정 값이 변할 수 있는 확률이 주어진 변수가 확률변수
5.5 심슨의 역설¶
- 심슨의 역설 : 데이터의 세부 비중에 따라 전체 대표 확률에 왜곡이 발생하는 경우
◇ 06. 확률분포¶
6.1 확률분포의 정의와 종류¶
- 확률분포 : 확률변수가 특정 값을 가질 확률을 나타낸 것, 이산확률분포와 연속확률분포로 구분
- 이산확률분포는 이항 분포, 초기하 분포, 포아송 분포 등으로 나눔
- 연속확률분포는 정규 분포, t분포, 카아제곱 분포, F분포, 지수분포 등으로 나눔
- t분포는 모집단이 정규분포를 하더라도 분산을 알 수 없고 표본의 수가 적은 상태에서 평균에 대한 신뢰구간 추정 및 가설검정에 쓰이는 분포
6.2 이산확률분포¶
- 균등분포 : X가 동일한 호가률을 가지는 분포를 균등분포(uniform distribution)라 한다.
- 이항분포 : 1과 0의 결과값만을 갖는 분포
- 초기하분포 : 각 시행이 서로 독립적이지 않아서(비복원추출) 시행마다 성공할 확률이 달라짐
- 포아송분포 : 일정한 과늑 공간에서 특정 사건이 발생하는 횟수를 나타내는 이산확률분포(포아송분포의 필요 조건 : 사건은 양의 정수 형태, 모든 사건은 독립적, 해당 시공간에서 사건의 발생 비율은 항상 동일, 한 번에 둘 이사으이 사건 발생 X)
6.3 연속확률분포¶
- 정규분포(normal distribution)
- 지수분포(exponential distribution) : 특정 사건이 발생한 시점으로부터 다음 사건이 발생할 대까지의 시간을 확률변숫값으로 하는 분포
6.4 중심극한정리¶
- 중심극한정리 : 모집단으로부터 무작위 표본을 여러 번 추출한 다음, 추출된 각각의 표본들의 평균을 분포로 그려보면 정규분포의 형태를 가진다는 것
◇ 07. 가설검정¶
7.1 귀무가설과 대립가설¶
- 가설 : 연구문제에 대한 잠정적 결론
※ 목적성에 따른 데이터 분석
- 기술적 분석(Descriptive Analytics) : 과거나 현재에 어떤 일이 일어났는지를 파악하기 위한 분석
- 진단적 분석(Diagnostic Analytics) : 과거나 현재에 발생한 사건의 원인을 밝히기 위한 분석
- 예측 분석(Predictive Analytics) : 기계학습 모델 등을 사용하여, 미래에 어떤 일이 어느 정도의 확률로 일어날지를 예측
- 처방적 분석(Prescriptive Analytics) : 예측되는 미래의 결과를 위해 어떻게 하면 좋을지 처방하기 위한 분석
- 귀무가설은 새로이 증명하고자 하는 가설과 반대되는 가설 | 대립가설은 귀무가설이 기각됐을 때 대안적으로 채낵되는 가설
7.2 가설점정의 절차¶
- 가설 설정 ⇒ 유의수준 설정 ⇒ 실험 수행 ⇒ 검정 통계량 산출 ⇒ 대립가설 기각/채택
7.3 가설검정의 유의수준과 p값¶
- 가설검정은 모집단에 대한 가설이 통계적으로 옳은가를 판별하기 위한 방법
- 되도록이면 양측검정보다는 단측 검정을 시행하는 것이 바람직, 양측검정은 통계량이 같지 않다는 것만 알 수 있는 반면, 단측 검정은 크거나 작은 방향성에 대한 정보가 포함되기 때문
7.4 1종 오류와 2종 오류¶
- 1종 오류 : 귀무가설이 참임에도 불구하고 귀무가설을 기각하는 오류(실제 효과가 없는데 있다고 판단)
- 2종 오류 : 귀무가설이 거짓임에도 불구하고 귀무가설을 채택하는 오류(실제 효과가 있는데 없다고 판단)
In [1]:
from IPython.core.display import display, HTML
display(HTML("<style>.container {width:80% !important;}</style>"))
728x90
'Book report > 데이터 분석가가 반드시 알아야 할 모든 것' 카테고리의 다른 글
02. 데이터 분석 준비하기(1) (0) | 2023.07.02 |
---|