데이터분석을 위해 데이터 입력 방법을 알려준다.
1. 어떤 특성의 데이터를 포함해야 하는가?
- 특성값이 예측할 때 알 수 있는 변수여야한다.
- 특성은 수치형 또는 문자형이어야한다.
- 목표변수와 관련있다고 생각되는 특성들만 입력하는 것이 좋다.
* 머신러닝의 정확도가 떨어지는 경우
- 상관 없는 변수라고 생각했지만 상관이 있는 변수를 제거하는 경우
- 관련있다고 생각하는 변수를 모두 넣어버려 잡음이 커지는 경우
- 목표변수와 관련이 있음을 이미 알고 그런 집합만 넣었을 때 예측에 도움되는 그밖의 변수들이 제거되는 경우
이런 문제의 해결 방법은
=> 목표 변수를 예측하는데 도움이 된다고 생각되는 모든 특성을 포함시켜 모델을 만들고 모델의 정확도가 충분하면 중단한다.
=> 그래도 정확도가 충분하지 않으면 목표와 관련성이 낮은 특성들까지 확장하여 모델을 제작하고 정확도를 평가한다. 충분하면 중단한다.
=> 아직도 충분치 않으면 그 상태에서 특성 선택 알고리즘을 사용해 가장 도움이 되는 부분집합을 선택한다.
2. 훈련 데이터의 양은 어떻게 정하는가?
=> 정확히 말하기 어렵지만 몇가지 요소를 고려해볼 수 있다.
- 문제의 복잡성: 입력특성과 목표변수의 관계가 단순선형인가 비선형인가
- 정확도를 위한 요구사항: 정확도가 높은 모델을 만들려고 할수록 많은 데이터가 필요하다.
- 특성 공간의 차원: 입력특성이 적으면 많은 것보다 적은 데이터가 필요하다.
원칙: 훈련집합이 클수록 평균적으로 모델이 정확해진다.
3. 훈련 집합이 충분히 대표성을 띄는가?
=> 시각화를 통해 대표성을 띄는지 검토해야 한다.
'데이터분석 > 머신러닝' 카테고리의 다른 글
Decision Tree (의사결정나무) 분석법 (0) | 2020.11.18 |
---|---|
Multiple linear regression (다중 선형 회귀 모델) (0) | 2020.11.18 |
k-prototype clustering - 비지도학습 (0) | 2020.11.10 |
리얼월드 머신러닝 2장 - 데이터 전처리 (0) | 2019.12.02 |
리얼월드 머신러닝 1장 공부하기 (0) | 2019.11.30 |