약한 관계 + 약한 관계 => 강력한 예측변수
로지스틱은 입력값과 출력값의 관계가 복잡하게 표현될때 제한될 수도 있다.
매개변수모델 , 비매개변수모델 ?
매개변수모델은 예측값과 설명변수의 관계를 잘 알고 있을 때 사용하면 효율적이다.
또 이러한 선형 알고리즘은 설명하기 쉽고 큰데이터셋을 다루기 유용하면서 작업속도가 더 빠른 모델이다.
비매개변수 머신러닝 알고리즘은 데이터에서 복잡한 경향과 구조를 자동으로 발견해낼 수 있는 더욱 유연한 모델이다.
데이터 처리: 결측치가 있다면 왜 결측치가 났는지 모르지만 결측치를 제거할 수 있어야하며, 최소한 오해의 소지가 있는 데이터에서 특정 알고리즘이 얼마나 잘 작동하는지 알아내야한다.
특정 알고리즘은 쓸데없는 특성을 알아서 제거하지만 대부분의 알고리즘이 그런 특성을 제거했을때 정확도가 더 높게 나온다. (그렇지만 귀중한 정보가 보기에 쓸데없어 보이는 특성으로 추출될 수 있다는 점도 명심해야한다.)
feature engeneering (특성 공학): 수집된 데이터에서 값을 추출하고 실제로 모델을 구축하기 전에 모델의 특성을 추가하는 작업들
'데이터분석 > 머신러닝' 카테고리의 다른 글
Decision Tree (의사결정나무) 분석법 (0) | 2020.11.18 |
---|---|
Multiple linear regression (다중 선형 회귀 모델) (0) | 2020.11.18 |
k-prototype clustering - 비지도학습 (0) | 2020.11.10 |
리얼월드 머신러닝 2장 - 데이터 전처리 (0) | 2019.12.02 |
리얼월드 머신러닝 2장 - 데이터 입력법 (0) | 2019.12.02 |