데이터분석을 위해 데이터 입력 방법을 알려준다.

 

1. 어떤 특성의 데이터를 포함해야 하는가?

- 특성값이 예측할 때 알 수 있는 변수여야한다.

- 특성은 수치형 또는 문자형이어야한다.

- 목표변수와 관련있다고 생각되는 특성들만 입력하는 것이 좋다.

 

* 머신러닝의 정확도가 떨어지는 경우

- 상관 없는 변수라고 생각했지만 상관이 있는 변수를 제거하는 경우

- 관련있다고 생각하는 변수를 모두 넣어버려 잡음이 커지는 경우

- 목표변수와 관련이 있음을 이미 알고 그런 집합만 넣었을 때 예측에 도움되는 그밖의 변수들이 제거되는 경우

 

이런 문제의 해결 방법은

=> 목표 변수를 예측하는데 도움이 된다고 생각되는 모든 특성을 포함시켜 모델을 만들고 모델의 정확도가 충분하면 중단한다.

=> 그래도 정확도가 충분하지 않으면 목표와 관련성이 낮은 특성들까지 확장하여 모델을 제작하고 정확도를 평가한다. 충분하면 중단한다.

=> 아직도 충분치 않으면 그 상태에서 특성 선택 알고리즘을 사용해 가장 도움이 되는 부분집합을 선택한다. 

 

2. 훈련 데이터의 양은 어떻게 정하는가? 

=> 정확히 말하기 어렵지만 몇가지 요소를 고려해볼 수 있다.

 

- 문제의 복잡성: 입력특성과 목표변수의 관계가 단순선형인가 비선형인가

- 정확도를 위한 요구사항: 정확도가 높은 모델을 만들려고 할수록 많은 데이터가 필요하다.

- 특성 공간의 차원: 입력특성이 적으면 많은 것보다 적은 데이터가 필요하다.

 

원칙: 훈련집합이 클수록 평균적으로 모델이 정확해진다.

 

3. 훈련 집합이 충분히 대표성을 띄는가?

=> 시각화를 통해 대표성을 띄는지 검토해야 한다.

 

+ Recent posts