Data scientist 42

SQL_important

◎ Select절 주의사항 ◎ 문법 정리 ※ where절에 and와 or를 함께 쓸때는, 반드시 ()로 의미 단위끼리 묶는다!! ※ where절은 문자의 경우 대소문자를 구분한다. ※ between 연산자를 사용하는 것보다 비교 연산자를 사용하여 쿼리를 작성하는 것이 성능 측면에서 좋다. ※ 만약 검색하고자 하는 문자에 '%'나 '_'가 있을 경우에는 ESCAPE '\'를 같이 작성해야 한다. ※ ORDER BY 구문은 DBMS에게 큰 부담을 주는 명령어이기 떄문에 SQL에서 피해야 하는 명령어이다. ◎ Group by절 주의사항 ※ SELECT 절에 사용된 급룹 함수 이외의 칼럼이나 표현식은 반드시 GROUP BY 절에 사용되어야 한다. ※ GROUP BY 절에 사용된 칼럼은 SELECT 절에 사용되지..

Data scientist/SQL 2021.11.07

OpenCV-Python 기초 사용법

◎ 영상의 속성과 픽셀 값 처리 ○ OpenCV는 영상 데이터를 numpy.ndarray로 표현 import sys import cv2 # 영상 불러오기 img1 = cv2.imread('cat.bmp', cv2.IMREAD_GRAYSCALE) img2 = cv2.imread('cat.bmp', cv2.IMREAD_COLOR) if img1 is None or img2 is None: print('Image load failed!') sys.exit() # 영상의 속성 참조 print('type(img1):', type(img1)) print('img1.shape:', img1.shape) print('img2.shape:', img2.shape) print('img1.dtype:', img1.dtype..

컴퓨터 비전

◎ 컴퓨터 비전(Computer vision) 컴퓨터를 이용하여 정지 영상 또는 동영상으로부터 의미 있는 정보를 추출하는 방법을 연구하는 학문 즉, 사람이 눈으로 사물을 보고 인지하는 작업을 컴퓨터가 수행하게끔 만드는 학문 ○ 컴퓨터 비전 연구 분야 영상의 화질 개선 객체 검출(Object detection)과 영상 분할 인식(Recognition) ○ 컴퓨터 비전 응용 분야 - 머신 비전(machine vision) 공장 자동화 : 제품의 불량 검사, 위치 확인, 측정 등 높은 정확도와 빠른 처리 시간 요구 조명, 렌즈, 필터, 실시간 처리 - 인공지능 서비스 입력 영상을 객체와 배경으로 분할 -> 객체와 배경 인식 -> 상황 인식 -> 로봇과 자동차의 행동 지시 computer vision + sen..

워드 임베딩

◎ 텍스트 마이닝 심화 ○ 머신러닝 기법 : LDA(토픽 모델링 기법), SVM(문서 분류 기법) 등 ○ 딥러닝 기법 : RNN, LSTM, Transformer, BERT 등 워드 임베딩(Word Embedding)은 딥러닝 기법의 입력값으로 사용 ○ 워드 임베딩 단어를 컴퓨터가 이해할 수 있는 벡터로 표현하는 방법 Sparse Representation (BOW, TF-IDF) Dense Representation (word2vec, Glove 등) ※ Sparse Representation의 문제점 문서 데이터에 존재하는 모든 유니크한 단어 수가 벡터의 차원이 되어 고차원 공간이 됨 단어의 문맥 정보가 사라짐 (e.g. 문장 내 순서(word order), 문장 내 동시 등장(co-occurrenc..

텍스트마이닝

◎ 텍스트 마이닝 ○ 텍스트 (데이터) + (데이터) 마이닝 ○ 정형 데이터 : 일반적으로 사용하는 테이블 형태의 데이터 (e.g. 스프레드시트, 관계형 테이블) 행(row)과 열(column)으로 구성 행은 하나의 데이터를 의미 열은 데이터에서 하나의 속성을 의미 ○ 비정형 데이터 : 일반적으로 사용하는 테이블 형태의 데이터가 아닌 데이터 행(row)과 열(column)으로 구성되어 있지 않음 데이터가 정해진 형태로 저장되지 않음 (e.g. 텍스트, 이미지, 음성, 동영상) ○ 데이터 마이닝이란? 데이터에서 가치를 뽑아내는 기술 데이터에 숨겨져 있는 패턴이나 통계적인 규칙을 찾는 기술 통계적 기법, 머신 러닝 기법들을 사용 ◎ 키워드를 활용한 텍스트 마이닝 ○ 텍스트 수집 다운로드 크롤링 ○ 데이터 저..

Text Classification

※ What we need : 텍스트를 입력으로 받아 원하는 항목에 대한 수치를 출력하는 것(e.g. 감성 분석, 주제 분류) ※ What we need to do : 문장을 latent space에 projection 하여 decision boundary를 찾는 것 ※ In Probabilistic Perspective : 문장이 주어졌을 때, 문장이 속할 클래스의 확률 분포 함수를 approximate ◎ Text Classification using RNN ○ Bidirectional Multi-layered RNN Non-autoregressive task이므로 입력을 한번에한 번에 받게 된다. 따라서 모든 time-step을 한 번에 병렬로 처리 가능 ☆ Feed-forward 과정 One-ho..

Word Embedding

◎ Word Embedding 단어는 discrete symbol & categorical value 형태이지만, 우리의 머릿속에서는 다르게 동작, 어휘는 계층적 의미 구조를 지니고 있으며, 이에 따라 단어 사이의 유사성을 지닌다. One-hot 인코딩으로 표현된 값은 유사도나 모호성을 표현할 수 없다. (Dense vector로 표현하는 것이 유리) ※ Feature Vector Feature(특징) : 샘플을 잘 설명하는 특징, 특징을 통해 우리는 특정 샘플을 수치화 할 수 있다. Feature Vector : 각 특징들을 모아서 하나의 vector로 만든 것 ※ Word Embedding 딥러닝의 시대에 단어를 연속적인 값으로 표현하고자 하는 시도가 이어짐 이전에 비해 휼륭한 dense vector..