티스토리

TypeLOG

검색하기

[혼공머신] Chapter 02 데이터 다루기

Log/Book Log

[혼공머신] Chapter 02 데이터 다루기

TypeMIN 2022. 3. 2. 22:52

02-1 훈련 세트와 테스트 세트

Machine Learning Algorithm

Supervised Learning (지도 학습)
- Input과 Target을 전달하여 Model을 훈련한 다음 새로운 데이터를 예측하는 데 활용
- 훈련하기 위한 Data와 Target이 필요
  - Training Data = Input + Target
- Feature (특성)
- ex) length, weight
- Sample (샘플)
- 하나의 입력 데이터
Unsupervised Learning (비지도 학습)
- 무엇을 예측하는 것이 아니라 Input data에서 어떤 Feature를 찾는데 활용
- Target없이 Input data만 사용하여 학습

Train set와 Test set

Train Set (훈련 세트)
- 많을 수록 좋기 때문에 Test set을 제외한 모든 Data 사용
Model을 Training할 때 사용하는 Data
Test Set (테스트 세트)
- 또 다른 Data를 준비하거나 이미 준비된 Data 중에 일부(20~30%)를 떼어 내어 활용
- 전체 데이터가 아주 크다면 1%만 떼어내도 가능
평가에 사용하는 Data

Sampling bias (샘플링 편향)

Train set와 Test set에 Sample이 골고루 섞이지 않고 한 쪽으로 치우쳐진 상황

Numpy

Python의 대표적인 Array library

02-2 데이터 전처리

Data Preprocessing

Machine Learning Model에 train set를 주입하기 전에 가공하는 단계
특성값을 일정한 기준으로 맞추는 작업

데이터를 표현하는 기준이 다르면 알고리즘이 올바르게 예측 불가능
- 거리 기반의 알고리즘일때 특히 영향을 많이 받음
Standard Score (표준점수, z 점수)

각 특성값이 0에서 표준편차의 몇 배만큼 떨어져 있는지를 나타내는 값
표준점수 = (특성값 - 평균) / 표준편차
- Test set도 반드시 Training set의 평균과 표준편차를 이용하여 표준점수를 계산

728x90

저작자표시 비영리 변경금지