목록전체 글 (109)
#wannabeeeeeee the best DataScientist

04-1 로지스틱 회귀¶ In [1]: # 데이터 준비 import pandas as pd fish = pd.read_csv('https://bit.ly/fish_csv_data') fish.head() Out[1]: Species Weight Length Diagonal Height Width 0 Bream 242.0 25.4 30.0 11.5200 4.0200 1 Bream 290.0 26.3 31.2 12.4800 4.3056 2 Bream 340.0 26.5 31.1 12.3778 4.6961 3 Bream 363.0 29.0 33.5 12.7300 4.4555 4 Bream 430.0 29.0 34.0 12.4440 5.1340 In [2]: print(pd.unique(fish['Species..

03-1 k-최근접 이웃 회귀¶ 회귀 : 클래스 중 하나로 분류하는 것이 아니라 임의의 어떤 숫자를 예측하는 문제 k-최근접 이웃 회귀 : 샘플 x에 가장 가까운 샘픔 k개를 선택하여 k개의 샘플의 수치를 사용해 샘플 x의 타깃을 예측하는 방법 In [1]: # 데이터 import numpy as np perch_length = np.array( [8.4, 13.7, 15.0, 16.2, 17.4, 18.0, 18.7, 19.0, 19.6, 20.0, 21.0, 21.0, 21.0, 21.3, 22.0, 22.0, 22.0, 22.0, 22.0, 22.5, 22.5, 22.7, 23.0, 23.5, 24.0, 24.0, 24.6, 25.0, 25.6, 26.5, 27.3, 27.5, 27.5, 27.5,..

01-3 마켓과 머신러닝¶ k-최근접 이웃 (k-Nearest Neighbors)¶ 머신러닝 : 데이터에서 규칙을 학습하는 알고리즘을 연구하는 분야(사이킷런) 딥러닝 : 인공신경망을 기반으로 한 머신러닝 분야를 일컬음(텐서플로) k-Nearest Neighbors Algorithm, KNN : 가장 간단한 머신러닝 알고리즘 중 하나로 어떤 규칙을 찾기보다는 인접한 샘플을 기반으로 예측을 수행함 In [1]: import numpy as np # 도미 데이터 bream_length = [25.4, 26.3, 26.5, 29.0, 29.0, 29.7, 29.7, 30.0, 30.0, 30.7, 31.0, 31.0, 31.5, 32.0, 32.0, 32.0, 33.0, 33.0, 33.5, 33.5, 34.0..

https://programmers.co.kr/learn/challenges?tab=all_challenges 코딩테스트 연습 기초부터 차근차근, 직접 코드를 작성해 보세요. programmers.co.kr def solution(new_id): #1 new_id = new_id.lower() new1_id="" #2 for i in new_id: if i.isalpha(): new1_id+=i elif i.isdigit(): new1_id+=i elif i in ['-','_','.']: new1_id+=i #3 for i in range(len(new1_id),1,-1): new1_id=new1_id.replace("."*i,".") #4 if new1_id[0] == ".": if len(new1_..

◎ Perceptron 하나의 뉴런 입력 데이터 혹은 다른 레이어의 출력물을 받아 결과값을 내는 구조 Input, weights, activation function (활성함수)로 구성 ※ Activation function(활성함수) 특징 : 연속, 비선형, 단조증가, bounded, 점근성의 특성 ※ Activation function(활성함수)의 필요성 : 은닉 layer를 의미 있게 쌓아주는 역할, 선형의 layer만 쌓인다면, 결국 하나의 선형식이 된다. 출력값의 range를 결정 ※ Input layer(입력층) : 입력 데이터를 의미 ※ Hidden layer : 입력 데이터 혹은 또는 다른 Hidden layer의 출력 값, 위의 입력값을 받는 perceptron들의 집합 ※ Output ..

◎ 수학적 개념 ○ 엔트로피 (Entropy) : 분류가 되어 있지 않으면 엔트로피는 높은 값을 가지며 분류가 잘 되어있으면 엔트로피 값은 낮다. ○ Information Gain : Entropy(before) - Entropy(after) Decision Tree의 특정 node 이전과 이후의 Entropy 차이 ○ Classification Tree ○ Regression Tree ◎ 의사결정나무 변수들로 기준을 만들고 이것을 통하여 샘플을 분류하고 분류된 집단의 성질을 통하여 추정하는 모형 장점 : 해석력이 높음, 직관적, 범용성 단점 : 높은 변동성, 샘플에 민감할 수 있다. ※ 의사결정나무 용어 ⓐ Node - 분류의 기준이 되는 변수가 위치. 이것을 기준으로 샘플을 나눔. - Parent n..

◎ Support Vector Machine(SVM) ◆ 종속 변수 데이터 형태에 따라 둘로 나뉜다. ◇ 범주형 변수 : Support vector classifier ◇ 연속형 변수 : Support vector regression (SVR) ◆ SVM 계산 ◆ SVM with Kernel - 선형 관계가 아닌 경우에 사용 - 비선형 구조의 데이터를 fitting할 때, Kernel을 사용할 필요가 있음 - 차원이 높아짐에 따라 추정해야 하는 모수의 개수가 많아짐에 따라 Test error가 높아지는 현상 발생 ◆ One-Class SVM - 종속변수 정보가 없는 자료를 요약하는 데, SVM을 사용 ◆ SVR Support vector machine 실습¶ 1. 데이터 불러오기, 및 SVM 적합¶ In..