안녕하세요

 

오늘은 수치형 데이터와 범주형데이터의 혼합형데이터를 clustering하는 모델을 사용해보려고합니다.

우리가 잘 알다시피, 

k-means는 수치형데이터만 이루어진 데이터에서 동작하고, k-modes는 반대로 범주형데이터들에서만 작동하도록 되어있습니다.

하지만, k-means모델의 경우 범주형데이터를 원핫인코딩하여 모델을 구사할 수 있지만 이또한 정확하지 않습니다.

 

그래서 둘을 혼합하여 사용할 수 있는 k-prototype clustering을 시도할 것입니다. 

 

R의 'clustMixType' 패키지내에 kproto함수를 사용할 것입니다.

함수에 대한 설명은 아래에 있습니다.

 

www.rdocumentation.org/packages/clustMixType/versions/0.2-5/topics/kproto

 

kproto function | R Documentation

Looks like there are no examples yet.

www.rdocumentation.org

또한, kproto와 k-means를 사용했을때 두 모델의 차이가 없는 경우에 대해 설명해놓은 페이지를 링크로 첨부하겠습니다.

 

rpubs.com/ecosang/dsdsfgksjdgfser

 

RPubs - kproto_vs_kmeans

 

rpubs.com

 

기본 k-means clustering에 대한 예제는 아래의 블로그가 정리가 잘 되어있어 공유드립니다.

https://suy379.tistory.com/51

 

고객 유형을 나누기(파이썬 클러스터링, 군집 분석) / 파이썬 데이터 분석 실무 테크닉 100

안녕하세요, Everly입니다. 정말 오랫만에 '파이썬 분석 실무 테크닉' 공부한 부분을 리뷰하는데요! (3달 만이군요..) 앞으로는 좀 더 자주 업로드해보도록 하겠습니다 :) 오늘은 지난 포스팅에서

suy379.tistory.com

 

+ Recent posts