전체 글 108

회귀분석(1)

◎ 회귀분석 ㅡ 회귀분석이란 : 입력 변수인 X의 정보를 활용하여 출력 변수인 Y를 예측하는 방법 ㅡ 단순 선형 회귀분석 - B0는 절편, B1은 기울기이며 합쳐서 회귀계수(coefficients)로도 부른다. ◎ 회귀계수 추정 ㅡ 실제 값과 우리가 추정한 값의 차이가 적으면 적을수록 좋을 것 ㅡ 실제 값과 우리가 추정한 값의 차이를 잔차(residual)라고 하며 이를 최소화하는 방향으로 추정 ㅡ SSE B0과 B1로 편미분 하여 연립방정식을 푸는 방법(Least Square Method) ◎ 회귀계수의 의미 # 위의 식에서 B1의 해석 : X가 1 단위 증가할 때마다 y가 B1만큼 증가한다. ○ 선형 회귀의 정확도 평가 잔차의 제곱합(SSE)을 최소화하는 방법으로 회귀 계수를 추정 SSE가 작으면 작..

수학적 개념 이해(2)

◎ 이산형 확률분포 ◇ 베르누이 시행 : 실험의 결과의 범주가 2가지인 경우 (성공 / 실패) ◇ 이항분포 : 성공확률이 p인 베르누이 시행을 독립적으로 n번 시행했을 때 성공한 횟수의 분포 ◇ 다항분포 : k개 범주의 다항 시행을 n번 반복했을 때, 각 범주가 나타나는 획수의 분포 ◇ 포아송분포 : 주어진 단위 구간 내에 평균적으로 발생하는 사건의 횟수가 정해져 있을 때, 동일 단위에서의 발생 횟수 ◎ 연속형 확률분포 ◇ 지수분포 : 평균 소요시간이 u인 사건이 발생하기까지 걸리는 소요시간 ◇ 정규분포 ◎ 통계적 추론 ◇ 점추정 (Point estimation) : 추정량을 통해 모수를 추정 ◇ 구간 추정 (Point estimation) : 일정 신뢰수준 하에서 모수를 포함할 것으로 예상되는 구간을 ..

수학적 개념 이해(1)

◎ 통계학이란? 모집단(Population) : 연구의 대상이 되는 모든 개체들을 모은 집합 표본(Sample) : 모집단의 일부분의 관측값들 ※ 모수(Parameter) : 수치로 표현되는 모집단의 특성, 통계량(Statistic) : 표본의 관측값들에 의해서 결정되는 양 ◎ 자료의 종류 수치형 (양적자료) : 1. 연속형, 2. 이산형 => (Box plot, 히스토그램) 범주형 (질적자료) : 1. 순위형, 2. 명목형 => (도수 분포표, 막대/원형 그래프) ◎ 자료의 요약 ⓐ 중심 경향값 (대표값) 평균 (Mean) 중앙값 (Median) : 크기순으로 정렬시켜 중앙에 위치한 값 최빈값 (Mode) : 가장 자주 나오는 값 ⓑ 산포도 (퍼진 정도) 분산 (Variance) 사분위수 범위 : 전체..

Machine Learning_basic(2)

◎ Deep Learning 주요 모델 1 Neural Network는 overfitting이 심하게 일어나고 학습시간이 매우 오래 걸린다. 알고리즘 및 GPU의 발전은 Deep learning의 부흥을 이끈다. 딥러닝은 다양한 형태로 발전(CNN, RNN, AutoEncoder 등) 그 외 Object detection, Image Resolution, Style transfer, Colorization 등 다양한 분야로도 발전 ◎ Deep Learning 주요 모델 2 1. GAN(Generative Adversarial Network) : 데이터를 만들어내는 Generator와 만들어진 데이터를 평가하는 Discriminator가 서로 대립적(Adversarial)으로 학습해가며 성능을 점차 개선해..

Machine Learning_basic(1)

◎ Machine Learning 개념 : 기계 학습 또는 머신 러닝은 인공 지능의 한 분야로, 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야를 말한다. 주어진 데이터를 통해 입력 변수와 출력 변수 간의 관계를 만드는 함수 f(x)를 만드는 것 ◎ 지도 학습과 비지도 학습 지도 학습(supervised learning) : Y = f(x)에 대하여 입력 변수 (X)와 출력 변수 (Y)의 관계에 대하여 모델링하는 것 2. 비지도 학습(unsupervised learning) : 출력 변수(Y)가 존재하지 않고, 입력 변수(X) 간의 관계에 대해 모델링하는 것 └ 종류 : 군집 분석 - 유사한 데이터끼리 그룹화, PCA - 독립변수들의 차원을 축소화 3. 강화 학습(reinforcement..

주가 분석

- 주식을 시작한 지 어느덧 5개월 차에 접어든 나 - 일희일비를 겪으며 현재는 나만의 원칙(?)을 정하고 종목을 산다. - 현재는 안정적인 수익을 내고 있으며 부모님 효도까지도 주식으로 하고 있다. ^^ - (외국인, 기관, 연기금) 이 3박자가 맞는 주식을 산다. (누구나 아는 사실일 수도 있지만...) - 그 원칙에 의해 웬만해서는 실패하지 않았기에 실제 데이터 분석을 통해 눈으로 확인해 보고자 한다. ◎ 주가 분석 프로젝트¶ 연기금 매매 동향은 데이터 수집이 어려워 외국인과 기관의 매매 동향이 주가에 얼마나 영향을 미치는지 눈으로 확인해 보겠다. ● 웹 크롤링을 통해 데이터 수집하기¶ In [1]: !pip install Selenium Requirement already satisfied: Se..

신용카드 사용자 연체 예측_EDA(2)

◎ 신용카드 사용자 연체 예측¶ ○ 기본 라이브러리 세팅하기¶ In [1]: import matplotlib.pyplot as plt import pandas as pd from pandas import DataFrame from pandas import Series import seaborn as sns In [2]: # matplotlib 한글 폰트 출력코드 import matplotlib from matplotlib import font_manager, rc import platform try : if platform.system() == 'Windows': # 윈도우인 경우 font_name = font_manager.FontProperties(fname="c:/Windows/Fonts/malgu..