안녕하세요

 

오늘은 수치형 데이터와 범주형데이터의 혼합형데이터를 clustering하는 모델을 사용해보려고합니다.

우리가 잘 알다시피, 

k-means는 수치형데이터만 이루어진 데이터에서 동작하고, k-modes는 반대로 범주형데이터들에서만 작동하도록 되어있습니다.

하지만, k-means모델의 경우 범주형데이터를 핫코딩하여 모델을 구사할 수 있지만 이또한 정확하지 않습니다.

 

그래서 둘을 혼합하여 사용할 수 있는 k-prototype clustering을 시도할 것입니다. 

 

R의 'clustMixType' 패키지내에 kproto함수를 사용할 것입니다.

함수에 대한 설명은 아래에 있습니다.

 

www.rdocumentation.org/packages/clustMixType/versions/0.2-5/topics/kproto

 

kproto function | R Documentation

Looks like there are no examples yet.

www.rdocumentation.org

또한, kproto와 k-means를 사용했을때 두 모델의 차이가 없는 경우에 대해 설명해놓은 페이지를 링크로 첨부하겠습니다.

 

rpubs.com/ecosang/dsdsfgksjdgfser

 

RPubs - kproto_vs_kmeans

 

rpubs.com

 

 

+ Recent posts