일반 선형 모형은 독립변수와 종속변수사이의 선형성, 오차항의 정규성, 독립성, 등분산성을 가정한다.

 

자료가 연속형으로만 구성되있지 않고, 범주형을 포함한 경우나 종속변수가 정규분포 되어있다는 가정이 어려운경우, 종속변수마저 범주형변수인 경우, 종속변수가 count인 경우 (예를 들면, 한 주간 교통사고 발생건수 => 이런 경우에는 평균과 분산이 밀접하게 관련되어 있으므로 정규분포하지 않는다.) 등 이와 같이  폭넓게 사용할 수 있는 것이 일반화 선형모형이다. 

 

일반선형모형의 종속변수 y를 f(x)라는 함수로 치환한 형태가 일반화선형모형이다. 

이때, 종속변수에 들어가는 함수를 link function이라고 하는데,

오차항의 확률분포가 무엇이냐에 따라 사용이 달라진다.

https://danbi-ncsoft.github.io/study/2018/05/04/study-regression_model_summary.html

또한, logistic regression, Cox proportional hazard ratio model, poisson regression등 모두 f(x) 함수를 

대상으로 회귀분석을 수행한 형태이다.

 

대표 선형모형

 

 

1. 포아송 분포

 

포아송 분포는 종속변수가 poisson 분포를 따른다고 가정을 한다. 종속변수가 가산자료(count)인 경우 사용을 한다.

포아송 분포 http://www.incodom.kr/R%ED%99%9C%EC%9A%A9/poisson_Regression

 

ERROR 해결

 

1. In dpois(y, mu, log = TRUE) : non-integer

R 패키지의 glm함수를 사용해 poisson regression을 하다보면

In dpois(y, mu, log = TRUE) : non-integer 라는 에러가 난다. 

이유는 poisson은 종속변수가 0을 포함한 1,2,3 과 같은 정수만으로 구성된 가산자료여야 하는데 

floating point가 포함된 float형같은 경우는 사용되서는 안된다. 

 

자신의 자료가 정수만으로 구성된 가산자료가 아닌 경우에 감마모델이나 로그정규모델을 고려해야한다. 

 

2. In Ops.factor(y, 0) :<’ not meaningful for factors

종속변수가 factor인 경우 발생하는 에러로 numeric으로 대체해준다.

 


Odds ratio?

Odds ratio는 확률의 다른 표현법이다. 

어떤 일이 일어날 확률 p, 그렇다면 odds는 일어나지 않을 확률분에 일어날 확률이다.

odds = p / (1-p) 

 

 

 

 

'통계분석 > 통계기본' 카테고리의 다른 글

Z-test 수행하기  (0) 2023.07.20
모수 vs 비모수  (0) 2021.03.29

+ Recent posts