'Data scientist' 카테고리의 글 목록 (4 Page)

회귀분석(2)_Code

해당 데이터를 활용한 기본적인 단순 선형 회귀분석 실습 코드 In [1]: # 기본 라이브러리 import os import pandas as pd import numpy as np import statsmodels.api as sm In [2]: # 데이터 불러오기 boston = pd.read_csv('C:/Users/설위준/Desktop/05-11--machine-learning/Part 05~11) Machine Learning/06. 회귀분석/실습코드/Boston_house.csv') boston.head() Out[2]: AGE B RM CRIM DIS INDUS LSTAT NOX PTRATIO RAD ZN TAX CHAS Target 0 65.2 396.90 6.575 0.00..

Data scientist/Machine Learning 2021.08.19

회귀분석(1)

◎ 회귀분석 ㅡ 회귀분석이란 : 입력 변수인 X의 정보를 활용하여 출력 변수인 Y를 예측하는 방법 ㅡ 단순 선형 회귀분석 - B0는 절편, B1은 기울기이며 합쳐서 회귀계수(coefficients)로도 부른다. ◎ 회귀계수 추정 ㅡ 실제 값과 우리가 추정한 값의 차이가 적으면 적을수록 좋을 것 ㅡ 실제 값과 우리가 추정한 값의 차이를 잔차(residual)라고 하며 이를 최소화하는 방향으로 추정 ㅡ SSE B0과 B1로 편미분 하여 연립방정식을 푸는 방법(Least Square Method) ◎ 회귀계수의 의미 ＃ 위의 식에서 B1의 해석 : X가 1 단위 증가할 때마다 y가 B1만큼 증가한다. ○ 선형 회귀의 정확도 평가 잔차의 제곱합(SSE)을 최소화하는 방법으로 회귀 계수를 추정 SSE가 작으면 작..

Data scientist/Machine Learning 2021.08.19

수학적 개념 이해(2)

◎ 이산형 확률분포 ◇ 베르누이 시행 : 실험의 결과의 범주가 2가지인 경우 (성공 / 실패) ◇ 이항분포 : 성공확률이 p인 베르누이 시행을 독립적으로 n번 시행했을 때 성공한 횟수의 분포 ◇ 다항분포 : k개 범주의 다항 시행을 n번 반복했을 때, 각 범주가 나타나는 획수의 분포 ◇ 포아송분포 : 주어진 단위 구간 내에 평균적으로 발생하는 사건의 횟수가 정해져 있을 때, 동일 단위에서의 발생 횟수 ◎ 연속형 확률분포 ◇ 지수분포 : 평균 소요시간이 u인 사건이 발생하기까지 걸리는 소요시간 ◇ 정규분포 ◎ 통계적 추론 ◇ 점추정 (Point estimation) : 추정량을 통해 모수를 추정 ◇ 구간 추정 (Point estimation) : 일정 신뢰수준 하에서 모수를 포함할 것으로 예상되는 구간을 ..

Data scientist/Machine Learning 2021.08.19

수학적 개념 이해(1)

◎ 통계학이란? 모집단(Population) : 연구의 대상이 되는 모든 개체들을 모은 집합 표본(Sample) : 모집단의 일부분의 관측값들 ※ 모수(Parameter) : 수치로 표현되는 모집단의 특성, 통계량(Statistic) : 표본의 관측값들에 의해서 결정되는 양 ◎ 자료의 종류 수치형 (양적자료) : 1. 연속형, 2. 이산형 => (Box plot, 히스토그램) 범주형 (질적자료) : 1. 순위형, 2. 명목형 => (도수 분포표, 막대/원형 그래프) ◎ 자료의 요약 ⓐ 중심 경향값 (대표값) 평균 (Mean) 중앙값 (Median) : 크기순으로 정렬시켜 중앙에 위치한 값 최빈값 (Mode) : 가장 자주 나오는 값 ⓑ 산포도 (퍼진 정도) 분산 (Variance) 사분위수 범위 : 전체..

Data scientist/Machine Learning 2021.08.19

Machine Learning_basic(2)

◎ Deep Learning 주요 모델 1 Neural Network는 overfitting이 심하게 일어나고 학습시간이 매우 오래 걸린다. 알고리즘 및 GPU의 발전은 Deep learning의 부흥을 이끈다. 딥러닝은 다양한 형태로 발전(CNN, RNN, AutoEncoder 등) 그 외 Object detection, Image Resolution, Style transfer, Colorization 등 다양한 분야로도 발전 ◎ Deep Learning 주요 모델 2 1. GAN(Generative Adversarial Network) : 데이터를 만들어내는 Generator와 만들어진 데이터를 평가하는 Discriminator가 서로 대립적(Adversarial)으로 학습해가며 성능을 점차 개선해..

Data scientist/Machine Learning 2021.08.18

Machine Learning_basic(1)

◎ Machine Learning 개념 : 기계 학습 또는 머신 러닝은 인공 지능의 한 분야로, 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야를 말한다. 주어진 데이터를 통해 입력 변수와 출력 변수 간의 관계를 만드는 함수 f(x)를 만드는 것 ◎ 지도 학습과 비지도 학습 지도 학습(supervised learning) : Y = f(x)에 대하여 입력 변수 (X)와 출력 변수 (Y)의 관계에 대하여 모델링하는 것 2. 비지도 학습(unsupervised learning) : 출력 변수(Y)가 존재하지 않고, 입력 변수(X) 간의 관계에 대해 모델링하는 것 └ 종류 : 군집 분석 - 유사한 데이터끼리 그룹화, PCA - 독립변수들의 차원을 축소화 3. 강화 학습(reinforcement..

Data scientist/Machine Learning 2021.08.18

SQL_함수(2)

◎ SQL_Order by -- ORDER BY를 활용한 관측치 정렬 SELECT * FROM world.country ORDER BY SurfaceArea; -- ORDER BY 뒤에 기준이 될 변수를 입력 -- 오름차순이 기본값 SELECT * FROM world.country ORDER BY Continent, Population DESC; -- 입력한 변수 순서대로 정렬. DESC는 각각의 변수에만 영향을 미침 -- 내림차순으로 정렬시에는 변수이름 뒤에 DESC를 추가로 입력 --Q1. sales.payments 테이블에서 2004년 1월 1일 이후 결제건으로 --연도/월, customerNumber별 결제 건수 및 amount의 합계 계산 후 --연도/월(오름차순), amount 합의 내림차순으..

Data scientist/SQL 2021.08.09

#wannabeeeeeee the best DataScientist

Data scientist 42

티스토리툴바