목록분류 전체보기 (107)
#wannabeeeeeee the best DataScientist

◎ 회귀분석 ㅡ 회귀분석이란 : 입력 변수인 X의 정보를 활용하여 출력 변수인 Y를 예측하는 방법 ㅡ 단순 선형 회귀분석 - B0는 절편, B1은 기울기이며 합쳐서 회귀계수(coefficients)로도 부른다. ◎ 회귀계수 추정 ㅡ 실제 값과 우리가 추정한 값의 차이가 적으면 적을수록 좋을 것 ㅡ 실제 값과 우리가 추정한 값의 차이를 잔차(residual)라고 하며 이를 최소화하는 방향으로 추정 ㅡ SSE B0과 B1로 편미분 하여 연립방정식을 푸는 방법(Least Square Method) ◎ 회귀계수의 의미 # 위의 식에서 B1의 해석 : X가 1 단위 증가할 때마다 y가 B1만큼 증가한다. ○ 선형 회귀의 정확도 평가 잔차의 제곱합(SSE)을 최소화하는 방법으로 회귀 계수를 추정 SSE가 작으면 작..

◎ 이산형 확률분포 ◇ 베르누이 시행 : 실험의 결과의 범주가 2가지인 경우 (성공 / 실패) ◇ 이항분포 : 성공확률이 p인 베르누이 시행을 독립적으로 n번 시행했을 때 성공한 횟수의 분포 ◇ 다항분포 : k개 범주의 다항 시행을 n번 반복했을 때, 각 범주가 나타나는 획수의 분포 ◇ 포아송분포 : 주어진 단위 구간 내에 평균적으로 발생하는 사건의 횟수가 정해져 있을 때, 동일 단위에서의 발생 횟수 ◎ 연속형 확률분포 ◇ 지수분포 : 평균 소요시간이 u인 사건이 발생하기까지 걸리는 소요시간 ◇ 정규분포 ◎ 통계적 추론 ◇ 점추정 (Point estimation) : 추정량을 통해 모수를 추정 ◇ 구간 추정 (Point estimation) : 일정 신뢰수준 하에서 모수를 포함할 것으로 예상되는 구간을 ..

◎ 통계학이란? 모집단(Population) : 연구의 대상이 되는 모든 개체들을 모은 집합 표본(Sample) : 모집단의 일부분의 관측값들 ※ 모수(Parameter) : 수치로 표현되는 모집단의 특성, 통계량(Statistic) : 표본의 관측값들에 의해서 결정되는 양 ◎ 자료의 종류 수치형 (양적자료) : 1. 연속형, 2. 이산형 => (Box plot, 히스토그램) 범주형 (질적자료) : 1. 순위형, 2. 명목형 => (도수 분포표, 막대/원형 그래프) ◎ 자료의 요약 ⓐ 중심 경향값 (대표값) 평균 (Mean) 중앙값 (Median) : 크기순으로 정렬시켜 중앙에 위치한 값 최빈값 (Mode) : 가장 자주 나오는 값 ⓑ 산포도 (퍼진 정도) 분산 (Variance) 사분위수 범위 : 전체..

◎ Deep Learning 주요 모델 1 Neural Network는 overfitting이 심하게 일어나고 학습시간이 매우 오래 걸린다. 알고리즘 및 GPU의 발전은 Deep learning의 부흥을 이끈다. 딥러닝은 다양한 형태로 발전(CNN, RNN, AutoEncoder 등) 그 외 Object detection, Image Resolution, Style transfer, Colorization 등 다양한 분야로도 발전 ◎ Deep Learning 주요 모델 2 1. GAN(Generative Adversarial Network) : 데이터를 만들어내는 Generator와 만들어진 데이터를 평가하는 Discriminator가 서로 대립적(Adversarial)으로 학습해가며 성능을 점차 개선해..

◎ Machine Learning 개념 : 기계 학습 또는 머신 러닝은 인공 지능의 한 분야로, 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야를 말한다. 주어진 데이터를 통해 입력 변수와 출력 변수 간의 관계를 만드는 함수 f(x)를 만드는 것 ◎ 지도 학습과 비지도 학습 지도 학습(supervised learning) : Y = f(x)에 대하여 입력 변수 (X)와 출력 변수 (Y)의 관계에 대하여 모델링하는 것 2. 비지도 학습(unsupervised learning) : 출력 변수(Y)가 존재하지 않고, 입력 변수(X) 간의 관계에 대해 모델링하는 것 └ 종류 : 군집 분석 - 유사한 데이터끼리 그룹화, PCA - 독립변수들의 차원을 축소화 3. 강화 학습(reinforcement..

◎ 신용카드 사용자 연체 예측¶ ○ 기본 라이브러리 세팅하기¶ In [1]: import matplotlib.pyplot as plt import pandas as pd from pandas import DataFrame from pandas import Series import seaborn as sns In [2]: # matplotlib 한글 폰트 출력코드 import matplotlib from matplotlib import font_manager, rc import platform try : if platform.system() == 'Windows': # 윈도우인 경우 font_name = font_manager.FontProperties(fname="c:/Windows/Fonts/malgu..

◎ 밑바닥부터 시작하는 딥러닝(1)¶ ● chapter 3. 신경망¶ ANO, OR 게이트의 진리표를 보면서 인간이 적절한 가중치 값을 정해야 하는 단점이 있었습니다. 신경망은 가중치 매개변수의 적절한 값을 데이터로부터 자동으로 학습하는 능력이 있습니다. 3.1 퍼셉트론에서 신경망으로 신경망은 입력층, 출력층, 은닉층으로 구성 입력 신호의 총합을 출력 신호로 변환하는 함수를 활성화 함수라 한다. 3.2 활성화 함수 임계값을 경계로 출력이 바뀌는 함수를 계단 함수라 한다. 신경망에서 자주 이용하는 활성화 함수인 시그모이드 함수는 h(x) = 1 / (1+exp(-x))로 나타낸다. In [1]: import numpy as np import matplotlib.pylab as plt # 계단 함수 구현하기..