안녕하세요
오늘은 수치형 데이터와 범주형데이터의 혼합형데이터를 clustering하는 모델을 사용해보려고합니다.
우리가 잘 알다시피,
k-means는 수치형데이터만 이루어진 데이터에서 동작하고, k-modes는 반대로 범주형데이터들에서만 작동하도록 되어있습니다.
하지만, k-means모델의 경우 범주형데이터를 핫코딩하여 모델을 구사할 수 있지만 이또한 정확하지 않습니다.
그래서 둘을 혼합하여 사용할 수 있는 k-prototype clustering을 시도할 것입니다.
R의 'clustMixType' 패키지내에 kproto함수를 사용할 것입니다.
함수에 대한 설명은 아래에 있습니다.
www.rdocumentation.org/packages/clustMixType/versions/0.2-5/topics/kproto
또한, kproto와 k-means를 사용했을때 두 모델의 차이가 없는 경우에 대해 설명해놓은 페이지를 링크로 첨부하겠습니다.
rpubs.com/ecosang/dsdsfgksjdgfser
'데이터분석 > 머신러닝' 카테고리의 다른 글
Decision Tree (의사결정나무) 분석법 (0) | 2020.11.18 |
---|---|
Multiple linear regression (다중 선형 회귀 모델) (0) | 2020.11.18 |
리얼월드 머신러닝 2장 - 데이터 전처리 (0) | 2019.12.02 |
리얼월드 머신러닝 2장 - 데이터 입력법 (0) | 2019.12.02 |
리얼월드 머신러닝 1장 공부하기 (0) | 2019.11.30 |