전체 글 108

2020 상반기 통계진흥원

그렇게 교보생명에서 면탈을 경험하고 저는 공기업과 사기업의 중간인 통계진흥원에 지원했습니다. 그냥 분석과 관련된 일을 할 수만 있다면 경력을 쌓는 것도 나쁘지 않았기에 어느 기업이든 상관없다는 것이 제 마음가짐이었습니다. 통계진흥원은 필기시험이 따로 없었으며 서류접수 후 합격자 한에서 메일로 면접 일정을 알려줬습니다. 제가 면접을 갔을 때 담당자가 말하기를 공기업이 되기 위해 노력하고 있다고 했으며 연봉도 공기업 수준으로 주고 있었습니다. 22년 현재 제가 알기로는 꽤 성장한 회사로 통계진흥원을 준비 중인 취준생님들에게 도움이 되고자 후기를 적었습니다. 면접은 3 대 1로 면접이 진행되었으며 통계진흥원 사장님도 함께 면접을 봤습니다. 면접 질문은 통계 쪽 직무로 지원해서 그런지 통계란 무엇이라고 생각하나..

면접 2022.07.05

2019년 하반기 교보생명

안녕하세요. 주목 받기 시작한 지 얼마 안 된 데이터 분석과 관련된 직무가 핫 하지만 그만큼 정보가 별로 없기에 조금이나마 도움이 되고자 처음으로 저의 얘기를 블로그에 올려봅니다. 제 소개를 간략히 하자면 수학이 유일한 장점이었던 저는 수를 다루는 일을 하고 싶었습니다. 그리하여 데이터 분석 직무가 저랑 가장 잘 맞을 거 같았고 관련된 직무에서 일하기 위해 직무와 관련된 회사는 공고가 뜨면 모두 지원했습니다. 셀 수 없이 많이 지원하였고 서류 합격은 대략 10% 내외였던 거 같습니다. 그렇게 서류에 합격하여 필기시험을 치면 대략 70%의 확률로 필기를 합격하여 면접을 갔습니다. 수많은 면접 탈락 경험을 하며 제 경험담을 적어 공유한다면 누군가에게는 도움이 될 것이라 믿어.. 글을 적어 봅니다. 저는 지방..

면접 2022.07.04

유튜브 댓글 크롤링(crawling)

◎ 유튜브 댓글 추출하기 쿼리¶ In [1]: # 라이브러리 불러오기 from selenium import webdriver from selenium.webdriver.common.keys import Keys from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC from selenium.webdriver.common.by import By from selenium.webdriver.chrome.options import Options from bs4 import BeautifulSoup import time import pandas as pd..

[파이썬 머신러닝 완벽가이드] 04. 분류

01. 분류(Classification)의 개요¶ 지도학습은 레이블(Label), 즉 명시적인 정답이 있는 데이터가 주어진 상태에서 학습하는 머신러닝 방식입니다. 즉, 기존 데이터가 어떤 레이블에 속하는지 패턴을 알고리즘으로 인지한 뒤에 새롭게 관측된 데이터에 대한 레이블을 판별하는 것입니다. □ 분류는 다양한 머신러닝 알고리즘으로 구현 베이즈(Bayes) 통계와 생성 모델에 기반한 나이브 베이즈 독립변수와 종속변수의 선형 관계성에 기반한 로지스틱 회귀 데이터 균일도에 따른 규칙 기반의 결정 트리(Decision Tree) 개별 클래스 간의 최대 분류 마진을 효과적으로 찾아주는 서포트 벡터 머신(Support Vector Machine) 근접 거리를 기준으로 하는 최소 근접(Nearest Neighbor..

[파이썬 머신러닝 완벽가이드] 03. 평가

머신러닝은 데이터 가공/변환, 모델 학습/예측, 그리고 평가(Evaluation)의 프로세스로 구성됩니다. 모델의성능 평가 지표는 일반적으로 모델이 분류냐 회귀냐에 따라 여러 종류로 나뉩니다. 분류의 평가방법도 일반적으로는 실제 결과 데이터와 예측 결과 데이터가 얼마나 정확하고 오류가 적게 발생하는가에 기반하지만, 단순히 이러한 정확도만 가지고 판단했다가는 잘못된 평가 결과에 빠질수 있습니다. ※ 분류의 성능 평가 지표 정확도(Accuracy) 오차행렬(Confusion Matrix) 정밀도(Precision) 재현율(Recall) F1 스코어 ROC AUC 01. 정확도(Accuracy)¶ 정확도 = 예측 결과가 동일한 데이터 건수 / 전체 예측 데이터 건수 정확도는 직관적으로 모델 예측 성능을 나타내..

[파이썬 머신러닝 완벽가이드] 02. 사이킷런으로 시작하는 머신러닝

01. 사이킷런 소개와 특징¶ ◎ 사이킷런¶ 사이킷런(scikit-learn)은 파이썬 머신러닝 라이브러리 중 가장 많이 사용되는 라이브러리입니다. -- 사이킷런 특징 쉽고 가장 파이썬스러운 API를 제공합니다. 머신러닝을 위한 매우 다양한 알고리즘과 개발을 위한 편리한 프레임워크와 API를 제공합니다. 마지막으로 오랜 기간 실전 환경에서 검증됐으며, 매우 많은 환경에서 사용되는 성숙한 라이브러리입니다. In [1]: # 사이킷런 불러오기 및 버전 확인 import sklearn print(sklearn.__version__) 0.24.1 02. 첫 번째 머신러닝 만들어 보기 - 붓꽃 품종 예측하기¶ ◎ 붓꽃 품종 예측¶ 분류는 대표적인 지도학습 방법의 하나입니다. 지도학습은 학습을 위한 다양한 피처와 ..

[파이썬 머신러닝 완벽가이드] 01. 파이썬 기반의 머신러닝과 생태계 이해

01. 머신러닝의 개념¶ ◎ 머신러닝¶ 머신러닝 : 데이터를 기반으로 패턴을 학습하고 결과를 예측하는 알고리즘 기법을 통칭합니다. 머신러닝의 분류 : 일반적으로 머신러닝은 지도학습, 비지도학습, 강화학습으로 나뉩니다. 지도학습 : 분류, 회귀, 추천 시스템, 시각/음성 감지/인지, 텍스트 분석, NLP로 나눌 수 있습니다. 비지도학습 : 클러스터링, 차원 축소, 강화학습으로 나눌 수 있습니다. 머신러닝의 가장 큰 단점은 데이터에 매우 의존적입니다. {Garbage IN, Garbage OUT} ◎ 파이썬과 R 비교¶ R은 통계 전용 프로그램 언어, 파이썬은 개발 전문 프로그램 언어입니다. 파이썬의 장점 : 쉽고 뛰어난 개발 생산성, 인터프리터 언어(interpreter Language)의 특성상 속도는 ..