Data scientist 42

Python_Pandas

◎ Python_Pandas pandas는 "python data analysis"의 약자입니다. pandas는 정형 데이터 처리에 특화되어 있다. pandas가 Excel에 비해 고성능 데이터 처리에 적합하다. § 백문이 불여일견이라 ※ Pandas의 기본 자료구조 # pandas 라이브러리를 불러옵니다. pd를 약칭으로 사용합니다. import pandas as pd s = pd.Series([1,3,5,np.nan,6,8]) # s는 1, 3, 5, np.nan, 6, 8을 원소로 가지는 pandas.Series dates = pd.date_range('20210101',periods=6) # 20210101부터 6일간의 날짜 범위를 생성하는 함수 # 6x4 행렬에 -1에서 1 사이의 랜덤한 숫자를..

Python_Numpy

◎ Python_Numpy 넘파이(Numpy)는 Python에서 벡터, 행렬 등 수치 연산을 수행하는 선형대수(Linear algebra) 라이브러리입니다. python list와 비슷한 개념을 numpy에서는 numpy array라고 부른다. 파이썬 리스트처럼 여러 데이터를 한 번에 다룰 수 있으나, 모든 데이터가 동일한 data type을 가져야 합니다. ※ Numpy의 특징 numpy array는 만들어지고 나면 원소의 update는 가능하지만, array의 크기를 변경할 수는 없다. 사실 numpy array는 C, C++로 구현이 되어 있다. 이는 high performance를 내기 위해서이며, python이 Numerical computing에 취약하다는 단점을 보완한다. numpy arra..

Python_데이터 입출력(IO)

(1) Python_데이터 입출력(IO) 메인 메모리 입장에서 생각하는 들어오고 나가는 모든 데이터에 대해서 I/O 처리라고 부릅니다. (단, CPU와의 소통은 제외) 사용자로부터 키보드로 입력받는 것을 stdin이라고 하며, 사용자에게 다시 모니터로 출력되는 것을 stdout이라고 한다. 프로그램은 메인 메모리 상에 존재하기 때문에, 스토리지로부터 파일을 불러오는 것도 input이고, 프로그램의 결과를 스토리지에 저장하는 것도 output이다. 이러한 작업을 file I/O로 통칭한다. ⒜ STDIN / STDOUT 파이썬은 input()을 통해서 stdin을 사용자로부터 입력받을 수 있다. 파이썬은 print()를 통해서 stdout을 사용자에게 출력할 수 있다. ※ stdin은 무조건 문자열 타입으..

Python_function()

⒜ Python_function() input이 들어와서 output이 정해진 규칙에 따라 나온다는 개념은 같지만, 프로그램에서의 하나의 함수는 하나의 기능을 나타낸다. 함수를 쓰는 이유는 재사용성 때문이다. ※ 함수의 다양한 형태들 ⑴ parameter와 return 모두 존재하는 경우 ⑵ parameter는 없고 return이 존재하는 경우 ⑶ parameter는 있는데 return이 없는 경우 ⑷ parameter도 return도 없는 경우 ⑸ parameter의 개수를 모를 경우 ⑹ parameter의 개수가 너무 많아 기본값을 설정하고 싶은 경우 ※ lambda 함수 굉장히 간단한 함수가 있는 경우, 한 줄짜리 함수로 간편하게 사용할 수 있다. ※ 파이썬에서 사용할 수 있는 다양한 함수들 imp..

Python_data type()_2

⒠ Python_data type(tuple) 튜플은 리스트와 매우 비슷합니다. 리스트는 "[ ]"를 사용하고, 튜플은 "( )"을 사용합니다. 리스트는 생성 후에 변경이 가능하고(mutable) 튜플은 생성 후에 변경이 불가능하다.(immutable) ⒡ Python_data type(set) 집합 자료형은 정말 말 그대로 수학에서 배우는 집합 그 자체이다. 공집합을 생성할 때는 반드시 set()으로 생성해야 한다. {}로 생성하면 빈 사전이 생성된다. 집합은 원소의 중복을 허용하지 않는다. 집합은 원소의 순서가 존재하지 않는다. 즉, 원소의 index가 없다. ※ 집합의 여러 가지 연산 ⑴ 교집합 : & 와 intersection() 두 가지로 표현이 가능합니다. ⑵ 합집합 : (shift + \)을..

Python_data type()

ⓐ 프로그래밍이란? 수식이나 작업을 컴퓨터에 알맞도록 정리해서 순서를 정하고 컴퓨터 특유의 명령 코드로 고쳐 쓰는 작업을 총칭해서 프로그래밍이라 하고, 컴퓨터의 명령 코드를 쓰는 작업을 특히 코딩(coding)이라고도 합니다. ⓑ 왜 프로그래밍 언어로 파이썬을 써야 하는가? 파이썬은 전 세계적으로 가장 많이 사용하는 프로그래밍 언어입니다. 높은 확장성, 다양한 데이터 타입 지원, 간단하고 쉬운 문법, 메모리 자동 관리 등 위 같은 특징은 많은 사람이 파이썬을 사용하게끔 만듭니다. 인제 본격적으로 파이썬 언어를 배워봐요~ ⒜ Python_data type ※ data type은 모든 프로그래밍 언어가 데이터를 다루기 위해 필요한 약속. ※ 자료형은 말 그대로, 데이터의 형식을 말합니다. 파이썬에서는 수치 ..

데이터 분석

Data scientist가 되는 데 필요한 역량을 중심적으로 같이 공유해 나가고자 기술 블로그를 시작하게 되었습니다. 같이 성장해 나간다는 생각으로 끝까지 완주해 봐요~ ⓐ 데이터 분석(Data analysis)은 유용한 정보를 발굴하고 결론 내용을 알리며 의사결정을 지원하는 것을 목표로 데이터를 정리, 변환, 모델링하는 과정이다. ⓑ 데이터 분석 과정은 구체적으로 ⓒ 기업은 비즈니스 데이터 분석을 통해 올바른 의사결정 수립할 수 있도록 하고자 합니다. ⓓ 정확한 데이터 분석을 위해서는 데이터 분석 도구가 필요한데 그 분석 도구는 2가지 유형으로 나눌 수 있습니다. Application (MS Excel) Programming (Python) 데이터 분석하기 쉽다. (클릭 클릭 클릭만으로도 분석 가능)..