목록2021/08/19 (4)
#wannabeeeeeee the best DataScientist

해당 데이터를 활용한 기본적인 단순 선형 회귀분석 실습 코드 In [1]:# 기본 라이브러리import osimport pandas as pd import numpy as npimport statsmodels.api as smIn [2]:# 데이터 불러오기boston = pd.read_csv('C:/Users/tommy/Desktop/05-11--machine-learning/Part 05~11) Machine Learning/06. 회귀분석/실습코드/Boston_house.csv')boston.head()Out[2]: AGEBRMCRIMDISINDUSLSTATNOXPTRATIORADZNTAXCHASTarget065.2396.906.5750.006324.09002.314.980.53815.3118.0..

◎ 회귀분석 ㅡ 회귀분석이란 : 입력 변수인 X의 정보를 활용하여 출력 변수인 Y를 예측하는 방법 ㅡ 단순 선형 회귀분석 - B0는 절편, B1은 기울기이며 합쳐서 회귀계수(coefficients)로도 부른다. ◎ 회귀계수 추정 ㅡ 실제 값과 우리가 추정한 값의 차이가 적으면 적을수록 좋을 것 ㅡ 실제 값과 우리가 추정한 값의 차이를 잔차(residual)라고 하며 이를 최소화하는 방향으로 추정 ㅡ SSE B0과 B1로 편미분 하여 연립방정식을 푸는 방법(Least Square Method) ◎ 회귀계수의 의미 # 위의 식에서 B1의 해석 : X가 1 단위 증가할 때마다 y가 B1만큼 증가한다. ○ 선형 회귀의 정확도 평가 잔차의 제곱합(SSE)을 최소화하는 방법으로 회귀 계수를 추정 SSE가 작으면 작..

◎ 이산형 확률분포 ◇ 베르누이 시행 : 실험의 결과의 범주가 2가지인 경우 (성공 / 실패) ◇ 이항분포 : 성공확률이 p인 베르누이 시행을 독립적으로 n번 시행했을 때 성공한 횟수의 분포 ◇ 다항분포 : k개 범주의 다항 시행을 n번 반복했을 때, 각 범주가 나타나는 획수의 분포 ◇ 포아송분포 : 주어진 단위 구간 내에 평균적으로 발생하는 사건의 횟수가 정해져 있을 때, 동일 단위에서의 발생 횟수 ◎ 연속형 확률분포 ◇ 지수분포 : 평균 소요시간이 u인 사건이 발생하기까지 걸리는 소요시간 ◇ 정규분포 ◎ 통계적 추론 ◇ 점추정 (Point estimation) : 추정량을 통해 모수를 추정 ◇ 구간 추정 (Point estimation) : 일정 신뢰수준 하에서 모수를 포함할 것으로 예상되는 구간을 ..

◎ 통계학이란? 모집단(Population) : 연구의 대상이 되는 모든 개체들을 모은 집합 표본(Sample) : 모집단의 일부분의 관측값들 ※ 모수(Parameter) : 수치로 표현되는 모집단의 특성, 통계량(Statistic) : 표본의 관측값들에 의해서 결정되는 양 ◎ 자료의 종류 수치형 (양적자료) : 1. 연속형, 2. 이산형 => (Box plot, 히스토그램) 범주형 (질적자료) : 1. 순위형, 2. 명목형 => (도수 분포표, 막대/원형 그래프) ◎ 자료의 요약 ⓐ 중심 경향값 (대표값) 평균 (Mean) 중앙값 (Median) : 크기순으로 정렬시켜 중앙에 위치한 값 최빈값 (Mode) : 가장 자주 나오는 값 ⓑ 산포도 (퍼진 정도) 분산 (Variance) 사분위수 범위 : 전체..