Book report 33

그로스 해킹(2)

04장 지표¶4.1 지표 활용하기¶ 그로스 해킹 : 목표 지표를 선정하고 그 지표를 개선하기 위해 진행하는 일련의 활동 지표는 속성에 따라 스톡(Stock) 형태의 지표와 플로(Flow) 형태의 지표로 분류 스톡(Stock) : 저량 지표, 특정 시점의 스냅숏에 해당하는 지표(누적 가입자 수, 누적 거래액 등) 플로(Flow) : 유량 지표, 시작과 끝에 대한 시간 범위 존재, 일정 시간 동안의 변화량(1월1일 가입자 수, 일 평균 수량 등) 일반적으로 플로 형태의 지표가 스독 지표에 비해 더 많은 정보 가짐 지표 속성에 따라 지표를 모니터링하는 방식이나 대시보드 설계 등이 전혀 달라진다. 허무 지표(Vanity metric) : 행동을 이끌어내지 못하는 의미 없는 지표, 겉으로는 많은 일을 한 것처럼 ..

그로스 해킹(1)

01장 그로스 해킹이란?¶1.1 그로스 해킹 그거, 우리도 해 봅시다.¶ 그로스 해킹(Growth Hacking) : 성장할 수 있는 방법을 '해킹'하는 것 린 스타트업(Lean Startup) : 아이디어를 빠르게 제품으로 만들고 고객이 제품에 대해 어떻게 반응하는지를 측정한 후, 그 결과를 통해 배움을 얻고 지속적으로 제품을 개선해 나가는 제품 개발 방법론⇒ 아이디어 - 개발 - 측정 - 개선으로 이어지는 피드백 순환고리(feedback loop)를 빠르게 진행하면서 점진적으로 개선하는 것 린 스타트업은 그로스 해킹과 일맥상통하는 측면이 있다. 1.2 그로스 해킹의 지름길이 있을까?¶ 그로스 해킹은 각 서비스의 사용 맥락이나 시장 상황을 반영해서 진행할 때만 의미가 있다. 1.3 그로스 해킹 이해하기..

02. 데이터 분석 준비하기(1)

02. 데이터 분석 준비하기¶ ◇ 08. 분석 프로젝트 준비 및 기획¶ 8.1 데이터 분석의 전체 프로세스¶ 데이터 분석의 궁극적인 목표는 의사결정 프로세스를 최적화하는 것 일반적인 데이터 분석 프로젝트의 프로세스 : 설계 단계 ⇒ 분석 및 모델링 단계 ⇒ 구축 및 활용 단계 설계 단계 : 무엇을 하고자 하는지를 명확히 정의하고 프로젝트를 수행할 인력 구성, 실무자와 분석가 간 협의체계가 잘 이루어져야함 분석 및 모델링 단계 : 데이터 분석 단계에서는 데이터 추출, 검토, 가공, 모델링 등의 세부 절차와 부분 반복이 필요, 특히 모델의 비즈니스 적합성을 심도 있게 분석하고 성능을 평가하는 것이 중요, 이러한 절차에는 KDD 분석 방법론, CRISP-DM 방법론, SAS사의 SEMMA 방법론 등 다양한 기..

01. 데이터 기초체력 기르기

01. 데이터 기초체력 기르기¶ ◇ 01. 통계학 이해하기¶ 1.1 왜 통계학을 알아야 할까?¶ 데이터 과학의 프로세스 : 데이터 수집 ⇒ 데이터 가공 ⇒ EDA(데이터 시각화) ⇒ M/L 모델링 ⇒ 결과 해석 및 적용 1.2 머신러닝과 전통적 통계학의 차이¶ 머신러닝의 주된 목적은 예측(Prediction)이고 통계학의 주된 목적은 해석(Explanation) 통계학은 모델의 기초 체력과 같은 것이고 이를 바탕으로 복잡하고 정교한 머신러닝 모델을 만드는 것 1.3 통계학의 정의와 기원¶ 통계학(Statistics)은 자료를 수집, 분석하여 그 분석 결과를 통해 효율적인 의사결정을 하는 기법을 연구하는 학문 골턴 : 사분위수, 백분율, 표준편차 중앙값, 회귀를 발견한 사람 칼 피어슨(Karl Pearso..

[파이썬 머신러닝 완벽가이드] 08. 텍스트 분석(2)

06. 토픽 모델링(Topic Modeling) - 20 뉴스그룹¶ 토픽 모델링이란 문서 집합에 숨어 있는 주제를 찾아내는 것 사람이 수행하는 토픽 모델링은 더 함축적인 의미로 문장을 요약하는 것에 반해, 머신러닝 기반의 토픽 모델은 숨겨진 주제를 효과적으로 표현할 수 있는 중심 단어를 함축적으로 추출 머신러닝 기반의 토픽 모델링에 사용되는 기법은 LSA(Latent Semantic Analysis)와 LDA(Latent Dirichlet Allocation) In [1]: from sklearn.datasets import fetch_20newsgroups from sklearn.feature_extraction.text import CountVectorizer from sklearn.decomposi..

[파이썬 머신러닝 완벽가이드] 08. 텍스트 분석(1)

◎ NLP이냐 텍스트 분석이냐?¶ NLP(National Language Processing)는 머신이 인간의 언어를 이해하고 해석하는 데 더 중섬을 두고 기술이 발전 텍스트 마이닝이라고도 불리는 텍스트 분석은 비정형 텍스트에서 의미 있는 정보를 추출하는 것에 좀 더 중점을 두고 발전 룰 기반 시스템에서 머신러닝의 텍스트 데이터를 기반으로 변경되면서 기술적 발전이 가능해짐 ※ 텍스트 분석 집중 기술 영역 텍스트 분류 : 문서가 특정 분류 또는 카테고리에 속하는 것을 예측하는 기법을 통칭. 스팸 메일 검출 같은 프로그램으로 지도학습을 적용 감성 분석 : 텍스트에서 나타나는 감정/판단/믿음/의견/기분 등의 주관적인 요소를 분석하는 기법을 총칭. 리뷰, 여론조사 등의 다양한 영역에서 활용되는 지도학습과 비지도..

[파이썬 머신러닝 완벽가이드] 07. 군집화

01. K-평균 알고리즘 이해¶ K-평균은 군집 중심점(centroid)이라는 특정한 임의의 지점을 선택해 해당 중심에 가장 가까운 포인트들을 선택하는 군집화 기법입니다. 군집 중심점은 선택된 포인트의 평균 지점으로 이동하고 이동된 중심점에서 다시 가까운 포인트를 선택, 다시 중심점을 평균 지점으로 이동하는 프로세스를 반복적으로 수행합니다. 모든 데이터 포인트에서 더이상 중심점의 이동이 없을 경우에 반복을 멈추고 해당 중심점에 속하는 데이터 포인트들을 군집화하는 기법입니다. K-평균의 장점 : 군집화에서 가장 많이 활용되는 알고리즘, 알고리즘이 쉽고 간결하다. K-평균의 단점 : 거리 기반 알고리즘으로 속성의 개수가 매우 많을 경우 군집화 정확도가 떨어집니다.(PCA로 차원 감소를 적용해야 할 수도 있습..