두개 이상의 단위가 다른 대상을 분석하기 위해서는, 데이터들을 표준화 혹은 정규화해주어야합니다. 

 

  • 정규화
  • 표준화

1. 정규화(normalization)

데이터의 상대적 크기의 영향을 줄이기위해 사용합니다. 

 

데이터를 특정 구간으로 바꾸는 방법이고, ( 예를 들면, 0~1사이, 0~100사이 )

식은 위처럼, x= 관측값, x_min = 최소값, x_max = 최대값 으로 계산하여서 새로운 값을 도출해냅니다.

특정데이터가 그 그룹에서 가지는 위치를 볼때 사용합니다. 

주기를 띄는 데이터들은 이전 위치에서 현재위치가 얼마나 바뀐지 보기위해서 사용하는데 유용합니다.

 

2. 표준화(standardization)

데이터를 0을 중심으로 양쪽에 분포하게 하는 방법입니다. 각 데이터들이 평균으로부터 얼마나 떨어져있는지 나타냅니다. 

 

z-score 표준화라고 하는데 측정값에서 평균값을 빼고, 이를 표준편차로 나누어줍니다. 

 

데이터 분석을 하기전에 표준화와 정규화를 진행해주어야하는 경우가 있고, 각 모델에서 표준화나 정규화를 자동으로 진행하는 경우가 있습니다. 

+ Recent posts