모든 데이터 분석에 앞서 데이터 전처리 과정을 알아보자!

 

1. 범주형 특성 (categorical)

: 값을 분류할 수 있고 값에 순서가 없는 경우

 

함부로 범주형 특성을 수치형 특성으로 바꾸는 경우 '순서'의 의미가 들어갈 수 있음을 주의하자

하지만 2진 특성(1/0)으로 치환은 가능하다. : 이런식으로 처리된 변수를 가변수(dummy variable)이라고 한다.

 

2. 결측자료 다루기

 

- 결측의 두가지 사용

1)  없는 것이 의미가 있는 경우: informative 결측치

 

수치형인 경우 해결 방법 => 일반적인 열과 동일하게 사용하기 위해서 변환, 예를 들면, -1이나 -999와 같이 편향된 값을 사용해서 입력 (왜냐하면? 수치는 순서를 내포하기 때문에 값의 중간값을 쓰는것을 원치 않을 것이다.)

 

범주형인 경우 해결 방법 => 결측된 값을 위한 새로운 열을 만든다. 

 

2) 없는 것이 아무 의미가 없는 경우

해결 방법 => 적절한 값으로 imputation한다.

수가 매우 작을때는 무시하는 것이 좋다.

 

시간순으로 정렬된 데이터셋의 경우 해결 방법 => 이전 사례 값으로 바꾼다.

 

데이터가 단순한 분포를 따르는 경우 해결 방법 => 열의 평균으로 대체, 이와중에 이상점을 제외하고자하면 중위수로 대체

 

 

3. 간단한 특성추출

 

예를 들어, 타이타닉호의 객실번호 (ex. C134)가 승객들의 대피와 관련이 있다면 이를 문자는 => 범주형, 숫자는 => 수치형으로 추출을 하여 정보를 살릴 수 있다.

 

feature engeneering (특성공학)

 

4. 데이터 정규화

 

일부 머신러닝 데이터는 normalized(정규화되어)있어야한다.

한 특성에 가중치를 주고 싶지 않을 것이다.

해결 => 0~1이나 -1~1사이의 값으로 정규화를 해준다.

 

정규화하는 factor를 남기고, 정규화된 값을 동시에 남겨 어떤식으로 정규화를 했는지 기억하자!

 

5. 데이터 시각화

 

*훈련집합이 대표성을 띄는지 알 수 있고, 사례가 부족한 유형도 알 수 있다!

*시각화에서 특성과 반응변수간의 명확한 관계가 보이지 않는다고 쉽게 제거해서는 안된다.

 

1) 모자이크 분포도 (특성:범주형, 반응변수:범주형)

2) 상자 분포도 (수치형, 범주형)

3) 밀도 분포표 (범주형, 수치형)

4) 산점도 (수치형, 수치형)

 

 

 

 

+ Recent posts