30.데이터(Data) - yojulab/learn_MLs GitHub Wiki
데이터 종류별 학습법
- 지도 학습 : 입력 + 출력
- Label 연속성 숫자 값인 경우(Continuous(-Regression) Value)
- Label 분류값 되는 경우(Discrete(-Classification) Value)
- 이진 분류 : Binary Classification
- 다중 분류 : Multinomial Calssification
- 비지도 학습 : 입력만
- 준지도 학습 : 지도 학습 + 준비도 학습
- 강화 학습 : 시계열 금융 데이터 등
준비 데이터 방식(Training Dataset)
- 입력 데이터 : Feature, x-data, 독립변수
- 출력 데이터 : Target, Label, t-data, 종속변수, 정답 데이터,
Ex) - 입력(공부시간) - 출력(시험성적) - 입력(연수시간,공부시간) - 출력(평가 점수 or 합격 여부)
학습 데이터 사용 유의점
- 대표성 있는 데이터 : 순서 있게 수집된 데이터(MNIST 0~9)를 무작위로 섞고 훈련과 테스트로 사용
- 시간 방향 데이터 : 테스트 세트는 모두 미래 데이터로 구성
- 데이터 중복 : 훈련 세트와 검증 세트는 중복되지 않는 것이 좋음.