Log/Book Log
[혼공머신] Chapter 02 데이터 다루기
TypeMIN
2022. 3. 2. 22:52
728x90
02-1 훈련 세트와 테스트 세트
Machine Learning Algorithm
- Supervised Learning (지도 학습)
- Input과 Target을 전달하여 Model을 훈련한 다음 새로운 데이터를 예측하는 데 활용
- 훈련하기 위한 Data와 Target이 필요
- Training Data = Input + Target
- Feature (특성)
- ex) length, weight
- Sample (샘플)
- 하나의 입력 데이터
- Unsupervised Learning (비지도 학습)
- 무엇을 예측하는 것이 아니라 Input data에서 어떤 Feature를 찾는데 활용
- Target없이 Input data만 사용하여 학습
Train set와 Test set
- Train Set (훈련 세트)
- 많을 수록 좋기 때문에 Test set을 제외한 모든 Data 사용
- Model을 Training할 때 사용하는 Data
- Test Set (테스트 세트)
- 또 다른 Data를 준비하거나 이미 준비된 Data 중에 일부(20~30%)를 떼어 내어 활용
- 전체 데이터가 아주 크다면 1%만 떼어내도 가능
- 평가에 사용하는 Data
Sampling bias (샘플링 편향)
Train set와 Test set에 Sample이 골고루 섞이지 않고 한 쪽으로 치우쳐진 상황
Numpy
Python의 대표적인 Array library
02-2 데이터 전처리
Data Preprocessing
Machine Learning Model에 train set를 주입하기 전에 가공하는 단계
특성값을 일정한 기준으로 맞추는 작업
- 데이터를 표현하는 기준이 다르면 알고리즘이 올바르게 예측 불가능
- 거리 기반의 알고리즘일때 특히 영향을 많이 받음
- Standard Score (표준점수, z 점수)
각 특성값이 0에서 표준편차의 몇 배만큼 떨어져 있는지를 나타내는 값
표준점수 = (특성값 - 평균) / 표준편차- Test set도 반드시 Training set의 평균과 표준편차를 이용하여 표준점수를 계산
728x90
반응형