목록전체 글 (109)
#wannabeeeeeee the best DataScientist

3장 분류¶3.1 MNIST¶ 손으로 쓴 70,000개의 작은 숫자 이미지를 모은 MNIST 데이터셋 사용 In [1]: # 공통 모듈 임포트 import numpy as np import os # mnist 데이터 불러오기 from sklearn.datasets import fetch_openml mnist = fetch_openml('mnist_784', version=1) C:\Users\20229069\AppData\Local\anaconda3\Lib\site-packages\sklearn\datasets\_openml.py:1002: FutureWarning: The default value of `parser` will change from `'liac-arff'` to `..

2장 머신러닝 프로젝트 처음부터 끝까지¶○ 프로젝트 순서 큰 그림을 봅니다. 데이터를 구합니다. 데이터로부터 통찰을 얻기 위해 탐색하고 시각화합니다. 머신러닝 알고리즘을 위해 데이터를 준비합니다. 모델을 선택하고 훈련시킵니다. 모델을 상세하게 조정합니다. 솔루션을 제시합니다. 시스템을 론칭하고 모니터링하고 유지 보수합니다. In [1]: # 공통 모듈 임포트 import numpy as np import os import tarfile import urllib.request # 그림을 저장할 위치 PROJECT_ROOT_DIR = "." CHAPTER_ID = "end_to_end_project" IMAGES_PATH = os.path.join(PROJECT_ROOT_DIR, "images", CHAPT..

1장 한눈에 보는 머신러닝¶1.1 머신러닝이란?¶ 머신러닝은 데이터에서부터 학습하도록 컴퓨터를 프로그래밍하는 과학(또는 예술) 1.2 왜 머신러닝을 사용하는가?¶ 데이터 마이닝 : 머신러닝 기술을 적용해서 대용량의 데이터를 분석하면 겉으로는 보이지 않던 패턴을 발견 ○ 머신러닝이 뛰어난 분야 기존 솔루션으로는 많은 수동 조정과 규칙이 필요한 문제 : 하나의 머신러닝 모델이 코드를 간단하게 만들고 전통적인 방법보다 더 잘 수행되도록 할 수 있음 전통적인 방식으로는 해결 방법이 없는 복잡한 문제 : 가장 뛰어난 머신러닝 기법으로 해결 방법을 찾을 수 있습니다. 유동적인 환경 : 머신러닝 시스템은 새로운 데이터에 적응할 수 있습니다. 복잡한 문제와 대량의 데이터에서 통찰 얻기 1.3 애플리케이션 사례¶ 생산 ..

04장 지표¶4.1 지표 활용하기¶ 그로스 해킹 : 목표 지표를 선정하고 그 지표를 개선하기 위해 진행하는 일련의 활동 지표는 속성에 따라 스톡(Stock) 형태의 지표와 플로(Flow) 형태의 지표로 분류 스톡(Stock) : 저량 지표, 특정 시점의 스냅숏에 해당하는 지표(누적 가입자 수, 누적 거래액 등) 플로(Flow) : 유량 지표, 시작과 끝에 대한 시간 범위 존재, 일정 시간 동안의 변화량(1월1일 가입자 수, 일 평균 수량 등) 일반적으로 플로 형태의 지표가 스독 지표에 비해 더 많은 정보 가짐 지표 속성에 따라 지표를 모니터링하는 방식이나 대시보드 설계 등이 전혀 달라진다. 허무 지표(Vanity metric) : 행동을 이끌어내지 못하는 의미 없는 지표, 겉으로는 많은 일을 한 것처럼 ..

01장 그로스 해킹이란?¶1.1 그로스 해킹 그거, 우리도 해 봅시다.¶ 그로스 해킹(Growth Hacking) : 성장할 수 있는 방법을 '해킹'하는 것 린 스타트업(Lean Startup) : 아이디어를 빠르게 제품으로 만들고 고객이 제품에 대해 어떻게 반응하는지를 측정한 후, 그 결과를 통해 배움을 얻고 지속적으로 제품을 개선해 나가는 제품 개발 방법론⇒ 아이디어 - 개발 - 측정 - 개선으로 이어지는 피드백 순환고리(feedback loop)를 빠르게 진행하면서 점진적으로 개선하는 것 린 스타트업은 그로스 해킹과 일맥상통하는 측면이 있다. 1.2 그로스 해킹의 지름길이 있을까?¶ 그로스 해킹은 각 서비스의 사용 맥락이나 시장 상황을 반영해서 진행할 때만 의미가 있다. 1.3 그로스 해킹 이해하기..

02. 데이터 분석 준비하기¶ ◇ 08. 분석 프로젝트 준비 및 기획¶ 8.1 데이터 분석의 전체 프로세스¶ 데이터 분석의 궁극적인 목표는 의사결정 프로세스를 최적화하는 것 일반적인 데이터 분석 프로젝트의 프로세스 : 설계 단계 ⇒ 분석 및 모델링 단계 ⇒ 구축 및 활용 단계 설계 단계 : 무엇을 하고자 하는지를 명확히 정의하고 프로젝트를 수행할 인력 구성, 실무자와 분석가 간 협의체계가 잘 이루어져야함 분석 및 모델링 단계 : 데이터 분석 단계에서는 데이터 추출, 검토, 가공, 모델링 등의 세부 절차와 부분 반복이 필요, 특히 모델의 비즈니스 적합성을 심도 있게 분석하고 성능을 평가하는 것이 중요, 이러한 절차에는 KDD 분석 방법론, CRISP-DM 방법론, SAS사의 SEMMA 방법론 등 다양한 기..

01. 데이터 기초체력 기르기¶ ◇ 01. 통계학 이해하기¶ 1.1 왜 통계학을 알아야 할까?¶ 데이터 과학의 프로세스 : 데이터 수집 ⇒ 데이터 가공 ⇒ EDA(데이터 시각화) ⇒ M/L 모델링 ⇒ 결과 해석 및 적용 1.2 머신러닝과 전통적 통계학의 차이¶ 머신러닝의 주된 목적은 예측(Prediction)이고 통계학의 주된 목적은 해석(Explanation) 통계학은 모델의 기초 체력과 같은 것이고 이를 바탕으로 복잡하고 정교한 머신러닝 모델을 만드는 것 1.3 통계학의 정의와 기원¶ 통계학(Statistics)은 자료를 수집, 분석하여 그 분석 결과를 통해 효율적인 의사결정을 하는 기법을 연구하는 학문 골턴 : 사분위수, 백분율, 표준편차 중앙값, 회귀를 발견한 사람 칼 피어슨(Karl Pearso..