#wannabeeeeeee the best DataScientist

1장. 소개 본문

Master's degree/머신러닝Ⅰ

1장. 소개

맨사설 2025. 4. 4. 22:44
728x90

기계 학습의 정의

기계 학습(Machine Learning)은 **인공지능(AI)**의 하위 분야로, 컴퓨터가 명시적인 프로그래밍 없이도 데이터를 통해 학습하도록 하는 알고리즘과 기술을 연구합니다. 즉, 데이터를 기반으로 반복적인 개선을 통해 스스로 패턴을 발견하고, 미래를 예측하거나 분류하는 능력을 갖추게 하는 것입니다.


기계 학습에서 다루는 데이터 유형

기계 학습에서 데이터는 크게 다음과 같이 나뉩니다:

  • 범주형 자료(질적 데이터)
    예: 성별, 지역, 등급 등
    • 명목형(Nominal): 순서 없음 (예: 성별)
    • 순위형(Ordinal): 순서 있음 (예: 만족도 수준)
  • 연속형 자료(양적 데이터)
    예: 키, 몸무게, 가격 등
    • 구간형(Interval): 절대적인 0이 없음 (예: 온도)
    • 비율형(Ratio): 절대적인 0이 존재 (예: 무게)

또한 데이터 구성 요소는 다음과 같이 구분됩니다:

  • Input 변수: 독립변수, 특징(Features), 설명변수
  • Output 변수: 종속변수, 반응변수, 목표값
  • Observation: 관찰값, 레코드, 샘플(예: 한 명의 사용자 정보)

기계 학습의 분류

지도학습 (Supervised Learning)

  • 입력(X)과 목표값(Y)이 모두 주어짐
  • 대표적 기법:
    • 회귀(Regression): 연속적인 값 예측
    • 분류(Classification): 범주 예측

비지도학습 (Unsupervised Learning)

  • 목표값(Y)이 없이 입력(X)만 주어짐
  • 주로 **군집화(Clustering)**에 사용됨

강화학습 (Reinforcement Learning)

  • 명시적 정답 대신 보상 신호를 통해 학습
  • 에이전트가 환경과 상호작용하며 최적의 행동을 학습

준지도학습 (Semi-Supervised Learning)

  • 일부 데이터는 레이블(Y)이 있고, 나머지는 없음
  • 레이블이 없는 데이터도 학습에 활용

대표적 기계학습 모델

  • 일반화 선형모형 (GLM): 선형 회귀, 로지스틱 회귀 등
  • 신경망 (Neural Network)
  • 의사결정나무 (Decision Tree)

회귀 VS 기계학습

항목회귀분석기계학습
목적 데이터 설명, 해석 예측 성능 최적화
접근방식 수학적 모델 기반 수치적 최적화 및 반복 개선
과적합 제어 모델 단순화, 통계적 검정 검증집합, 교차검증, 규제기법 사용
 

기계학습에서 중요한 개념들

1. 차원의 저주 (Curse of Dimensionality)

차원이 늘어날수록 계산량과 학습 난이도가 기하급수적으로 증가. 고차원 공간에서는 데이터 간 거리의 유의미성이 떨어짐.

2. 과소적합(Underfitting)과 과잉적합(Overfitting)

  • 과소적합: 모델이 너무 단순해서 패턴을 학습하지 못함
  • 과잉적합: 훈련 데이터에 너무 민감하게 맞춰 일반화 실패

3. 바이어스-분산 트레이드오프

  • 바이어스: 모델이 잘못된 가정을 하는 경향
  • 분산: 데이터의 미세한 변화에 민감하게 반응하는 경향
    → 두 요소 간 균형이 중요

모델 평가 및 선택

검증집합(Validation Set)

  • 훈련 후, 독립적인 데이터로 모델의 성능을 평가
  • 모델 선택 또는 하이퍼파라미터 튜닝에 사용

교차검증(Cross-Validation)

  • 별도 검증집합이 없을 때, 훈련 데이터를 K개의 폴드로 나누어 반복 학습 및 평가
  • 대표적 기법: K-Fold, Leave-One-Out 등

일반화와 규제

  • 일반화(Generalization): 새로운 데이터에 잘 작동하는 능력
  • 규제(Regularization): 과적합 방지를 위한 기법
    • 대표 예: L1, L2 정규화, 드롭아웃
    • 가중치 감쇠(Weight decay)는 L2 정규화의 일종

데이터 확장 (Data Augmentation)

  • 학습 데이터를 인위적으로 변형하여 데이터 양을 늘리고 일반화 능력을 높임

결정론적 VS 스토캐스틱 학습

유형설명
결정론적 학습 같은 데이터로 학습하면 항상 같은 결과가 나옴
확률적 학습 학습 중 난수 사용 → 같은 데이터로도 결과 달라짐 (ex. 딥러닝의 가중치 초기화)
 
728x90

'Master's degree > 머신러닝Ⅰ' 카테고리의 다른 글

3장. 다층 퍼셉트론  (0) 2025.05.09
2장. 기계 학습  (0) 2025.05.09
기계학습에 필요한 선형 대수  (0) 2025.03.09