목록분류 전체보기 (114)
#wannabeeeeeee the best DataScientist

In [1]: # 기본 라이브러리 import pandas as pd import numpy as np import seaborn as sns import matplotlib.pyplot as plt from statsmodels.formula.api import ols # 지도 시각화를 위한 라이브러리 import folium import requests import json In [ ]: # 서울 행정구역 web 사이트 연결 r = requests.get('https://raw.githubusercontent.com/vuski/admdongkor/master/ver20220401/HangJeongDong_ver20220401.geojson') c = r.content seoul_geo = json.l..

01. 차원 축소(Dimension Reduction) 개요¶ 차원 축소는 매우 많은 피처로 구성된 다차원 데이터 세트의 차원을 축소해 새로운 차원의 데이터 세트를 생성하는 것입니다. 일반적으로 차원이 증가할수록 데이터 포인트 간의 거리가 기하급수적으로 멀어지게 되고, 희소(sparse)한 구조를 가지게 됩니다. 또한 수백 개 이상의 피처로 구성된 데이터 세트의 경우 상대적으로 적은 차원에서 학습된 모델보다 예측 신뢰도가 떨어집니다. 피처가 많을 경우 개별 피처간에 상관관계가 높을 가능성도 큽니다. 다중 공선성 문제는 모델의 예측 성능이 저하시킵니다. 차원 축소해 피처 수를 줄이면 더 직관적으로 데이터를 해석할 수 있다. 또한 차원 축소를 할 경우 학습 데이터의 크기가 줄어들어서 학습에 필요한 처리 능력..

01. 회귀 소개¶ 회귀 분석은 유전적 특성을 연구하던 영국의 통계학자 갈톤(Galton)이 수행한 연구에서 유래했다는 것이 일반론입니다. 회귀 분석은 데이터 값이 평균과 같은 일정한 값으로 돌아가려는 경향을 이용한 통계학 기법으로 일례로 사람의 키는 평균 키로 회귀하려는 경향을 가진다는 자연의 법칙입니다. 회귀는 여러 개의 독립변수와 한 개의 종속변수 간의 상관관계를 모델링하는 기법을 통칭합니다. 머신러닝 관점에서 독립변수는 피처에 해당되며 종속변수는 결정 값입니다. 즉, 머신러닝은 주어진 피처와 결정 값 데이터 기반에서 학습을 통해 최적의 회귀 계수를 찾아내는 것입니다. 회귀 계수가 선형이나 아니냐에 따라 선형 회귀와 비선형 회귀로 나눌 수 있으며 독립변수의 개수가 한 개인지 여러 개인지에 따라 단일..
◎ 주식정보 크롤링¶ In [1]:# 라이브러리 불러오기from selenium import webdriverfrom selenium.webdriver.common.keys import Keysfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.chrome.options import Options from bs4 import BeautifulSoupimport timeimport pandas as pdfrom selenium...

그동안 정부에서 진행하는 데이터 구축 사업에 인턴으로 근무하면서 동시에 2020년 하반기 SBI 저축은행 대졸 신입 채용에 통계 직무로 지원하였습니다. 당시 서류와 함께 AI 역량 검사까지 동시에 진행하였으며 거의 처음으로 AI 역량 검사가 진행되던 시기라 낯설었습니다. 아무 정보도 없는 채 그렇게 기본적인 면접 질문과 게임을 진행한 AI 역량 검사를 진행하고 서류에 합격하여 서울로 시험을 치러 갔습니다. 당시 시험은 국어 + 수학의 NSC 같은 시험과 직무 시험을 쳤는데 직무 실험이 TESAT보다는 어려운 수준의 경제 시험이어서 당황했습니다. TESAT는 공부하여 2급 자격증을 가지고 있던 저는 당시 SBI 저축은행에서 쳤던 경제 시험이 상경 계열 지원자에게 원하는 수준이라고 생각할 정도로 어려웠습니..

그렇게 교보생명에서 면탈을 경험하고 저는 공기업과 사기업의 중간인 통계진흥원에 지원했습니다. 그냥 분석과 관련된 일을 할 수만 있다면 경력을 쌓는 것도 나쁘지 않았기에 어느 기업이든 상관없다는 것이 제 마음가짐이었습니다. 통계진흥원은 필기시험이 따로 없었으며 서류접수 후 합격자 한에서 메일로 면접 일정을 알려줬습니다. 제가 면접을 갔을 때 담당자가 말하기를 공기업이 되기 위해 노력하고 있다고 했으며 연봉도 공기업 수준으로 주고 있었습니다. 22년 현재 제가 알기로는 꽤 성장한 회사로 통계진흥원을 준비 중인 취준생님들에게 도움이 되고자 후기를 적었습니다. 면접은 3 대 1로 면접이 진행되었으며 통계진흥원 사장님도 함께 면접을 봤습니다. 면접 질문은 통계 쪽 직무로 지원해서 그런지 통계란 무엇이라고 생각하나..

안녕하세요. 주목 받기 시작한 지 얼마 안 된 데이터 분석과 관련된 직무가 핫 하지만 그만큼 정보가 별로 없기에 조금이나마 도움이 되고자 처음으로 저의 얘기를 블로그에 올려봅니다. 제 소개를 간략히 하자면 수학이 유일한 장점이었던 저는 수를 다루는 일을 하고 싶었습니다. 그리하여 데이터 분석 직무가 저랑 가장 잘 맞을 거 같았고 관련된 직무에서 일하기 위해 직무와 관련된 회사는 공고가 뜨면 모두 지원했습니다. 셀 수 없이 많이 지원하였고 서류 합격은 대략 10% 내외였던 거 같습니다. 그렇게 서류에 합격하여 필기시험을 치면 대략 70%의 확률로 필기를 합격하여 면접을 갔습니다. 수많은 면접 탈락 경험을 하며 제 경험담을 적어 공유한다면 누군가에게는 도움이 될 것이라 믿어.. 글을 적어 봅니다. 저는 지방..