안녕하세요
오늘은 수치형 데이터와 범주형데이터의 혼합형데이터를 clustering하는 모델을 사용해보려고합니다.
우리가 잘 알다시피,
k-means는 수치형데이터만 이루어진 데이터에서 동작하고, k-modes는 반대로 범주형데이터들에서만 작동하도록 되어있습니다.
하지만, k-means모델의 경우 범주형데이터를 원핫인코딩하여 모델을 구사할 수 있지만 이또한 정확하지 않습니다.
그래서 둘을 혼합하여 사용할 수 있는 k-prototype clustering을 시도할 것입니다.
R의 'clustMixType' 패키지내에 kproto함수를 사용할 것입니다.
함수에 대한 설명은 아래에 있습니다.
www.rdocumentation.org/packages/clustMixType/versions/0.2-5/topics/kproto
kproto function | R Documentation
Looks like there are no examples yet.
www.rdocumentation.org
또한, kproto와 k-means를 사용했을때 두 모델의 차이가 없는 경우에 대해 설명해놓은 페이지를 링크로 첨부하겠습니다.
rpubs.com/ecosang/dsdsfgksjdgfser
RPubs - kproto_vs_kmeans
rpubs.com
기본 k-means clustering에 대한 예제는 아래의 블로그가 정리가 잘 되어있어 공유드립니다.
고객 유형을 나누기(파이썬 클러스터링, 군집 분석) / 파이썬 데이터 분석 실무 테크닉 100
안녕하세요, Everly입니다. 정말 오랫만에 '파이썬 분석 실무 테크닉' 공부한 부분을 리뷰하는데요! (3달 만이군요..) 앞으로는 좀 더 자주 업로드해보도록 하겠습니다 :) 오늘은 지난 포스팅에서
suy379.tistory.com
'데이터분석 > 머신러닝' 카테고리의 다른 글
Decision Tree (의사결정나무) 분석법 (0) | 2020.11.18 |
---|---|
Multiple linear regression (다중 선형 회귀 모델) (0) | 2020.11.18 |
리얼월드 머신러닝 2장 - 데이터 전처리 (0) | 2019.12.02 |
리얼월드 머신러닝 2장 - 데이터 입력법 (0) | 2019.12.02 |
리얼월드 머신러닝 1장 공부하기 (0) | 2019.11.30 |