모든 데이터 분석에 앞서 데이터 전처리 과정을 알아보자!
1. 범주형 특성 (categorical)
: 값을 분류할 수 있고 값에 순서가 없는 경우
함부로 범주형 특성을 수치형 특성으로 바꾸는 경우 '순서'의 의미가 들어갈 수 있음을 주의하자
하지만 2진 특성(1/0)으로 치환은 가능하다. : 이런식으로 처리된 변수를 가변수(dummy variable)이라고 한다.
2. 결측자료 다루기
- 결측의 두가지 사용
1) 없는 것이 의미가 있는 경우: informative 결측치
수치형인 경우 해결 방법 => 일반적인 열과 동일하게 사용하기 위해서 변환, 예를 들면, -1이나 -999와 같이 편향된 값을 사용해서 입력 (왜냐하면? 수치는 순서를 내포하기 때문에 값의 중간값을 쓰는것을 원치 않을 것이다.)
범주형인 경우 해결 방법 => 결측된 값을 위한 새로운 열을 만든다.
2) 없는 것이 아무 의미가 없는 경우
해결 방법 => 적절한 값으로 imputation한다.
수가 매우 작을때는 무시하는 것이 좋다.
시간순으로 정렬된 데이터셋의 경우 해결 방법 => 이전 사례 값으로 바꾼다.
데이터가 단순한 분포를 따르는 경우 해결 방법 => 열의 평균으로 대체, 이와중에 이상점을 제외하고자하면 중위수로 대체
3. 간단한 특성추출
예를 들어, 타이타닉호의 객실번호 (ex. C134)가 승객들의 대피와 관련이 있다면 이를 문자는 => 범주형, 숫자는 => 수치형으로 추출을 하여 정보를 살릴 수 있다.
feature engeneering (특성공학)
4. 데이터 정규화
일부 머신러닝 데이터는 normalized(정규화되어)있어야한다.
한 특성에 가중치를 주고 싶지 않을 것이다.
해결 => 0~1이나 -1~1사이의 값으로 정규화를 해준다.
정규화하는 factor를 남기고, 정규화된 값을 동시에 남겨 어떤식으로 정규화를 했는지 기억하자!
5. 데이터 시각화
*훈련집합이 대표성을 띄는지 알 수 있고, 사례가 부족한 유형도 알 수 있다!
*시각화에서 특성과 반응변수간의 명확한 관계가 보이지 않는다고 쉽게 제거해서는 안된다.
1) 모자이크 분포도 (특성:범주형, 반응변수:범주형)
2) 상자 분포도 (수치형, 범주형)
3) 밀도 분포표 (범주형, 수치형)
4) 산점도 (수치형, 수치형)
'데이터분석 > 머신러닝' 카테고리의 다른 글
Decision Tree (의사결정나무) 분석법 (0) | 2020.11.18 |
---|---|
Multiple linear regression (다중 선형 회귀 모델) (0) | 2020.11.18 |
k-prototype clustering - 비지도학습 (0) | 2020.11.10 |
리얼월드 머신러닝 2장 - 데이터 입력법 (0) | 2019.12.02 |
리얼월드 머신러닝 1장 공부하기 (0) | 2019.11.30 |