1. 머신러닝 모델링의 기본

 

머신러닝의 목적: 예측과 추론( 크게 두가지)

머신러닝 모델들을 사용할 때 유의할 점: 모델의 예측정확도와 모델해석사이에는 절충관계 (trade off)가 있다.

 

2. 매개변수와 비매개변수모델

 

본질적인 차이점은 매개변수모델은 f_추정 함수라 특정 함수꼴을 갖는 반면에 비매개변수모델은 엄격한 가정을 하지 않는다.

 

3. 지도학습과 비지도학습

 

본질적 차이는 목표변수의 유무이다.

 

지도학습의 방법은 회귀와 분류, 비지도 학습의 방법은 군집화와 차원축소가 있다.

주로 비지도 학습은 지도학습을 위해 훈련데이터를 편집하거나 입력특성을 이끌어 낼 때 사용한다.

 

3-1. 분류(classification)

 

분류는 분류기(classifier)를 사용해서 신규데이터가 어떤 버킷(계급)에 속하는지 예측하는 일을 말한다.

 

가장 간단한 예로 로지스틱 회귀 알고리즘을 들겠다!

왜 선형알고리즘인가? 결정경계선이 직선이다.

 

*서포트벡터머신(SVM, support vector machine): 선형과 비선형에 모두 사용, kernel을 이용해서 데이터가 존재하는 공간을 휘게 할 수 있는 수학적 구조를 갖고있어서 비선형에도 사용이 가능하다.

 

여러계급으로 분류를 할때? 

기본적으로 k 최근접 이웃 분류기 사용

 

*k 최근접 이웃 알고리즘(k-nearest neighbors algorithm)

모델을 빠르게 훈련시키나 예측 속도는 느린편

 

3-2. 회귀(regression)

 

회기는 회귀기(regressor)를 사용해서 신규데이터의 값을 예측하는 일을 말한다.

 

*선형회귀(linear regression)

회귀모델 중 가장 간단하고, 널리 사용되는 모델

강점: 선형 확장성 및 높은 수준의 해석 능력

 

그렇다면 복잡한 비선형 데이터에 대한 회귀분석 수행은 어떻게 하는가?

일부 데이터셋은 특성간의 관계가 선형 모델에 적합하지 않으며, 

 

*랜덤포레스트(random forest)

비선형문제를 다루는 이것은 분류와 회귀를 둘 다 수행할 수 있다.

 

기본 => 결정트리(decision tree)

 

 

 

+ Recent posts