두개 이상의 단위가 다른 대상을 분석하기 위해서는, 데이터들을 표준화 혹은 정규화해주어야합니다.
- 정규화
- 표준화
1. 정규화(normalization)
데이터의 상대적 크기의 영향을 줄이기위해 사용합니다.
데이터를 특정 구간으로 바꾸는 방법이고, ( 예를 들면, 0~1사이, 0~100사이 )
식은 위처럼, x= 관측값, x_min = 최소값, x_max = 최대값 으로 계산하여서 새로운 값을 도출해냅니다.
특정데이터가 그 그룹에서 가지는 위치를 볼때 사용합니다.
주기를 띄는 데이터들은 이전 위치에서 현재위치가 얼마나 바뀐지 보기위해서 사용하는데 유용합니다.
2. 표준화(standardization)
데이터를 0을 중심으로 양쪽에 분포하게 하는 방법입니다. 각 데이터들이 평균으로부터 얼마나 떨어져있는지 나타냅니다.
z-score 표준화라고 하는데 측정값에서 평균값을 빼고, 이를 표준편차로 나누어줍니다.
데이터 분석을 하기전에 표준화와 정규화를 진행해주어야하는 경우가 있고, 각 모델에서 표준화나 정규화를 자동으로 진행하는 경우가 있습니다.
'데이터분석 > 전처리' 카테고리의 다른 글
Feature selection? sklearn을 활용하면 (0) | 2023.07.19 |
---|---|
Sampling 방법 (0) | 2023.04.28 |
평가지표 (1) Accuracy와 Precision and Recall (0) | 2021.08.02 |
데이터 불균형 문제를 대하는 법 - Sampling 방법론 (0) | 2021.04.13 |
PCA - 주성분 분석 (0) | 2020.11.16 |