Data scientist/PYTHON 9

Python_Crawling

◎ HTTP 이해하기 Get 요청:데이터를 URL에 포함하여 전달(주로 리소스 요청에 사용) Post 요청: 데이터를 Form data에 포함하여 전달(주로 로그인에 사용) ※ HTML (Hyper Text Markup Language) : 웹사이트를 생성하기 위한 언어로 문서와 문서가 링크로 연결되어 있고, 태그를 사용하는 언어 ◎ Requests 모듈 http request/response를 위한 모듈 HTTP method를 메소드 명으로 사용하여 request 요청 예) get, post ⑴ get 요청하기 # get 요청의 기본 구조 import requests url = 'https://news.v.daum.net/v/20190728165812603' # 원하는 사이트를 불러올 수 있다. res..

Python_Seaborn

◎ Python_Seaborn matplotlib을 기본으로 다양한 시각화 기법을 제공하는 라이브러리. pandas DataFrame과 매우 호환이 잘 되어 많이 사용하는 라이브러리 중 하나. § 백문이 불여일견이라 # 데이터 분석을 위한 4가지 기본 라이브러리 세팅 필수 import seaborn as sns import numpy as np import pandas as pd import matplotlib.pyplot as plt sns.set_theme(style='whitegrid') # 스타일을 바꿀 수 있다. sns.set_palette("nipy_spectral") # 그래프의 색상도 바꿀 수 있다. # 파이썬에서 제공하는 기본 dataset "penguins"를 시각화해 봅시다. peng..

Python_Pandas

◎ Python_Pandas pandas는 "python data analysis"의 약자입니다. pandas는 정형 데이터 처리에 특화되어 있다. pandas가 Excel에 비해 고성능 데이터 처리에 적합하다. § 백문이 불여일견이라 ※ Pandas의 기본 자료구조 # pandas 라이브러리를 불러옵니다. pd를 약칭으로 사용합니다. import pandas as pd s = pd.Series([1,3,5,np.nan,6,8]) # s는 1, 3, 5, np.nan, 6, 8을 원소로 가지는 pandas.Series dates = pd.date_range('20210101',periods=6) # 20210101부터 6일간의 날짜 범위를 생성하는 함수 # 6x4 행렬에 -1에서 1 사이의 랜덤한 숫자를..

Python_Numpy

◎ Python_Numpy 넘파이(Numpy)는 Python에서 벡터, 행렬 등 수치 연산을 수행하는 선형대수(Linear algebra) 라이브러리입니다. python list와 비슷한 개념을 numpy에서는 numpy array라고 부른다. 파이썬 리스트처럼 여러 데이터를 한 번에 다룰 수 있으나, 모든 데이터가 동일한 data type을 가져야 합니다. ※ Numpy의 특징 numpy array는 만들어지고 나면 원소의 update는 가능하지만, array의 크기를 변경할 수는 없다. 사실 numpy array는 C, C++로 구현이 되어 있다. 이는 high performance를 내기 위해서이며, python이 Numerical computing에 취약하다는 단점을 보완한다. numpy arra..

Python_데이터 입출력(IO)

(1) Python_데이터 입출력(IO) 메인 메모리 입장에서 생각하는 들어오고 나가는 모든 데이터에 대해서 I/O 처리라고 부릅니다. (단, CPU와의 소통은 제외) 사용자로부터 키보드로 입력받는 것을 stdin이라고 하며, 사용자에게 다시 모니터로 출력되는 것을 stdout이라고 한다. 프로그램은 메인 메모리 상에 존재하기 때문에, 스토리지로부터 파일을 불러오는 것도 input이고, 프로그램의 결과를 스토리지에 저장하는 것도 output이다. 이러한 작업을 file I/O로 통칭한다. ⒜ STDIN / STDOUT 파이썬은 input()을 통해서 stdin을 사용자로부터 입력받을 수 있다. 파이썬은 print()를 통해서 stdout을 사용자에게 출력할 수 있다. ※ stdin은 무조건 문자열 타입으..

Python_function()

⒜ Python_function() input이 들어와서 output이 정해진 규칙에 따라 나온다는 개념은 같지만, 프로그램에서의 하나의 함수는 하나의 기능을 나타낸다. 함수를 쓰는 이유는 재사용성 때문이다. ※ 함수의 다양한 형태들 ⑴ parameter와 return 모두 존재하는 경우 ⑵ parameter는 없고 return이 존재하는 경우 ⑶ parameter는 있는데 return이 없는 경우 ⑷ parameter도 return도 없는 경우 ⑸ parameter의 개수를 모를 경우 ⑹ parameter의 개수가 너무 많아 기본값을 설정하고 싶은 경우 ※ lambda 함수 굉장히 간단한 함수가 있는 경우, 한 줄짜리 함수로 간편하게 사용할 수 있다. ※ 파이썬에서 사용할 수 있는 다양한 함수들 imp..

Python_data type()_2

⒠ Python_data type(tuple) 튜플은 리스트와 매우 비슷합니다. 리스트는 "[ ]"를 사용하고, 튜플은 "( )"을 사용합니다. 리스트는 생성 후에 변경이 가능하고(mutable) 튜플은 생성 후에 변경이 불가능하다.(immutable) ⒡ Python_data type(set) 집합 자료형은 정말 말 그대로 수학에서 배우는 집합 그 자체이다. 공집합을 생성할 때는 반드시 set()으로 생성해야 한다. {}로 생성하면 빈 사전이 생성된다. 집합은 원소의 중복을 허용하지 않는다. 집합은 원소의 순서가 존재하지 않는다. 즉, 원소의 index가 없다. ※ 집합의 여러 가지 연산 ⑴ 교집합 : & 와 intersection() 두 가지로 표현이 가능합니다. ⑵ 합집합 : (shift + \)을..