통계적으로 두 그룹 간의 차이를 검정하는 가장 간단한 방법 중 하나는 "z-검정 (z-test)" 입니다. 이 방법을 사용하여 b 그룹이 a 그룹보다 큰 반응률을 가질 가능성이 있는지를 확인할 수 있습니다. 

1. 귀무가설(H0)과 대립가설(H1) 설정: 이 경우 귀무가설은 "두 그룹 간의 반응률 차이가 없다"입니다. 대립가설은 "b 그룹이 a 그룹보다 더 큰 반응률을 보인다"입니다.

2. 유의수준(α) 설정: 일반적으로 유의수준은 0.05 또는 0.01로 설정됩니다.

3. 계산: z-검정 통계량을 계산합니다. 이 값을 계산하기 위해서는 두 그룹의 반응률, 표준오차 및 표본 크기가 필요합니다.

4. 결과 해석: 계산된 z-검정 통계량을 표준 정규 분포에서 비교하여 p-값을 계산합니다. p-값이 유의수준보다 낮으면 귀무가설을 기각하고 대립가설을 채택합니다. 이 경우, b 그룹이 a 그룹보다 더 큰 반응률을 보인다는 결론을 내릴 수 있습니다.

위의 방법 외에도 t-검정(t-test), 카이제곱 검정(Chi-square test), 로지스틱 회귀(Logistic regression) 등의 분석 방법을 사용하여 두 그룹 간의 차이를 검정할 수 있습니다.

 

import numpy as np
from scipy.stats import norm

# a 그룹과 b 그룹의 샘플 크기와 반응률을 지정합니다.
n_a = 1000
r_a = 0.15
n_b = 1000
r_b = 0.2

# z-검정 통계량을 계산합니다.
p_a = r_a
p_b = r_b
se = np.sqrt(p_a * (1 - p_a) / n_a + p_b * (1 - p_b) / n_b)
z = (p_b - p_a) / se

# p-값 계산
p_value = norm.sf(z)

# 유의수준을 0.05로 설정한 경우, p-값이 유의수준보다 작으면 귀무가설을 기각합니다.
alpha = 0.05
if p_value < alpha:
    print("b 그룹이 a 그룹보다 더 큰 반응률을 보입니다.")
else:
    print("두 그룹 간의 반응률 차이가 없습니다.")

'통계분석 > 통계기본' 카테고리의 다른 글

모수 vs 비모수  (0) 2021.03.29
일반화 선형 모형(Generalized Linear Regression)  (0) 2020.09.09

brunch.co.kr/@seoungbumkim/7

 

모수 모델 vs. 비모수 모델

머신러닝 모델링 관점에서 | 본 글은 필자가 가지고 있는 현재까지의 지식을 바탕으로 작성했으나 관점에 따라 다른 의견이 많을 것으로 판단됩니다. 본 글의 대한 가감 없는 의견/비판을 기대

brunch.co.kr

 

 

'통계분석 > 통계기본' 카테고리의 다른 글

Z-test 수행하기  (0) 2023.07.20
일반화 선형 모형(Generalized Linear Regression)  (0) 2020.09.09

일반 선형 모형은 독립변수와 종속변수사이의 선형성, 오차항의 정규성, 독립성, 등분산성을 가정한다.

 

자료가 연속형으로만 구성되있지 않고, 범주형을 포함한 경우나 종속변수가 정규분포 되어있다는 가정이 어려운경우, 종속변수마저 범주형변수인 경우, 종속변수가 count인 경우 (예를 들면, 한 주간 교통사고 발생건수 => 이런 경우에는 평균과 분산이 밀접하게 관련되어 있으므로 정규분포하지 않는다.) 등 이와 같이  폭넓게 사용할 수 있는 것이 일반화 선형모형이다. 

 

일반선형모형의 종속변수 y를 f(x)라는 함수로 치환한 형태가 일반화선형모형이다. 

이때, 종속변수에 들어가는 함수를 link function이라고 하는데,

오차항의 확률분포가 무엇이냐에 따라 사용이 달라진다.

https://danbi-ncsoft.github.io/study/2018/05/04/study-regression_model_summary.html

또한, logistic regression, Cox proportional hazard ratio model, poisson regression등 모두 f(x) 함수를 

대상으로 회귀분석을 수행한 형태이다.

 

대표 선형모형

 

 

1. 포아송 분포

 

포아송 분포는 종속변수가 poisson 분포를 따른다고 가정을 한다. 종속변수가 가산자료(count)인 경우 사용을 한다.

포아송 분포 http://www.incodom.kr/R%ED%99%9C%EC%9A%A9/poisson_Regression

 

ERROR 해결

 

1. In dpois(y, mu, log = TRUE) : non-integer

R 패키지의 glm함수를 사용해 poisson regression을 하다보면

In dpois(y, mu, log = TRUE) : non-integer 라는 에러가 난다. 

이유는 poisson은 종속변수가 0을 포함한 1,2,3 과 같은 정수만으로 구성된 가산자료여야 하는데 

floating point가 포함된 float형같은 경우는 사용되서는 안된다. 

 

자신의 자료가 정수만으로 구성된 가산자료가 아닌 경우에 감마모델이나 로그정규모델을 고려해야한다. 

 

2. In Ops.factor(y, 0) :<’ not meaningful for factors

종속변수가 factor인 경우 발생하는 에러로 numeric으로 대체해준다.

 


Odds ratio?

Odds ratio는 확률의 다른 표현법이다. 

어떤 일이 일어날 확률 p, 그렇다면 odds는 일어나지 않을 확률분에 일어날 확률이다.

odds = p / (1-p) 

 

 

 

 

'통계분석 > 통계기본' 카테고리의 다른 글

Z-test 수행하기  (0) 2023.07.20
모수 vs 비모수  (0) 2021.03.29

+ Recent posts