Log/Book Log

[혼공머신] Chapter 02 데이터 다루기

TypeMIN 2022. 3. 2. 22:52
728x90

02-1 훈련 세트와 테스트 세트


Machine Learning Algorithm

  1. Supervised Learning (지도 학습)
    • Input과 Target을 전달하여 Model을 훈련한 다음 새로운 데이터를 예측하는 데 활용
    • 훈련하기 위한 Data와 Target이 필요
      • Training Data = Input + Target
    • Feature (특성)
    • ex) length, weight
    • Sample (샘플)
    • 하나의 입력 데이터
  2. Unsupervised Learning (비지도 학습)
    • 무엇을 예측하는 것이 아니라 Input data에서 어떤 Feature를 찾는데 활용
    • Target없이 Input data만 사용하여 학습

Train set와 Test set

  1. Train Set (훈련 세트)
    • 많을 수록 좋기 때문에 Test set을 제외한 모든 Data 사용
  2. Model을 Training할 때 사용하는 Data
  3. Test Set (테스트 세트)
    • 또 다른 Data를 준비하거나 이미 준비된 Data 중에 일부(20~30%)를 떼어 내어 활용
    • 전체 데이터가 아주 크다면 1%만 떼어내도 가능
  4. 평가에 사용하는 Data

Sampling bias (샘플링 편향)

Train set와 Test set에 Sample이 골고루 섞이지 않고 한 쪽으로 치우쳐진 상황


Numpy

Python의 대표적인 Array library

02-2 데이터 전처리


Data Preprocessing

Machine Learning Model에 train set를 주입하기 전에 가공하는 단계
특성값을 일정한 기준으로 맞추는 작업

  • 데이터를 표현하는 기준이 다르면 알고리즘이 올바르게 예측 불가능
    • 거리 기반의 알고리즘일때 특히 영향을 많이 받음
  • Standard Score (표준점수, z 점수)

    각 특성값이 0에서 표준편차의 몇 배만큼 떨어져 있는지를 나타내는 값
    표준점수 = (특성값 - 평균) / 표준편차

    • Test set도 반드시 Training set의 평균과 표준편차를 이용하여 표준점수를 계산
728x90
반응형