참고로 식 11.1 의 오른쪽에 나타나는 식을 선형예측식(linear predictor, \(\eta\))라고 부른다.
이러한 평균의 선형성의 가정이 적절하지 않은 경우가 있다. 예를 들어 공학이나 생물학에서 사용되는 비선형 회귀모형(nonlinear regression model)처럼 반응변수 평균의 변화가 설명변수들의 복잡한 비선형 관계(예를 들어 미분방정식의 관계)로 나타나는 경우로 흔히 나타난다. 이러한 비선형 회귀모형은 섹션 10.4 장에서 다루었다.
반응변수가 가질 수 있는 평균값의 범위에 제한이 있을 수 있다. 예를 들어 베르누이 분포의 경우 평균이 성공확률이기 때문에 0과 1사이에 있으며 포아송 분포의 경우 반응값은 음의 값을 가질 수 없다. 따라서 식 11.1 의 선형예측식 \(\eta\)와 반응값의 평균 \(E(y| x)\)의 관계를 선형모형 식 11.1 처럼 정의할 수 없다.
이렇게 반응변수의 평균과 선형에측식의 범위가 일치하지 않는 경우 임의의 단조증가 함수 \(g\)를 사용하여 그 범위를 일치하게 만들어 줄 수 있다. 예를 들어 베르누이 분포의 경우 표준 정규분포의 누적분포함수 \(\Phi\)를 사용하여 확률의 범위와 선형에측식의 범위를 맞추어 줄 수 있다. 이러한 회귀모형을 프로빗(probit)모형이라고 부른다.
반응값의 분포가 주어진 경우 연결함수는 평균의 범위와 선형예측식의 범위를 연속적으로 1-1 대응하게 해주는 함수이며 사용할 수 있는 가능한 함수는 무한히 많다. 예를 들어 베르누이 분포의 경우 위에서 정의된 프로빗 모형 식 11.2 에서 \(\Phi^{-1}\) 같이 (0,1) 에서 실수전체 집합으로 단조증가하는 함수는 모두 연결함수로 고려할 수 있다.
지수군 분포에서 모수 \(\theta\)를 기본형모수(canonical parameter)라고 부르며 일반적으로 \(\theta\) 는 평균 \(\mu\)의 비선형 함수로 나타난다. 만약 다음과 같은 관계를 나타내는 연결함수 \(g\) 가 있다면 그 함수를 기본형 연결함수(canonical link function) 또는 자연결합함수(natural link function)라고 부른다.
\[
\theta = \eta
\tag{11.5}\]
예를 들어 이항분포의 확률밀도함수를 지수군 분포의 형태로 표현했을 때 그 형태를 보면 다음과 같은 관계를 알 수 있다.
여기서 \(\theta_i\)는 \(i\) 번째 관측값에 대한 모수로서 첨자 \(i\) 를 붙이는 이유는 관측치의 기대값 \(\mu_i = E(y_i | { x}_i)\)가 독립변수의 값 \({ x}_i\)에 따라 다를 수 있고 \(\theta_i\)는 평균 \(\mu_i\)의 함수이기 떄문이다.
이제 식 11.4 과 같이 설명변수와 반응변수 평균과의 관계가 연결함수 \(g\)로 정의되었다고 하자.
보기 11.1 (이항분포) 주어진 예측변수 \(\pmb x_i=(x_{1i},\dots,x_{pi})^t\)에서 실행횟수가 \(m_i\)인 이항분포\(B(m_i, p(x_i))\)를 생각하자. \(m_i\)의 시행 중에 성공의 횟수가 \(y_i\)라고 하면 \(y_i\)의 평균과 분산은 다음과 같다.
위의 로그가능도함수에서 볼 수 있듯이 충분통계량인 성공의 횟수 \(y_i\)와 곱으로 나타내어진 함수가 로짓함수이며 이렇게 가능도함수에서 얻어진 결합함수를 기본형 연결함수라고 한다.
노트
Nelder 와/과 Wedderburn (1972) 에서 연결 함수(link function)의 개념이 제시할 때 다음과 같은 작업 변량(working variate) \(z_i\)를 이용하여 선형모형을 일반화하고자 하였다. 작업 변량 \(z_i\) 은 다음과 같이 정의된다.
이러한 가정하에서 작업 변량 \(z_i\)를 반응변수로 놓고 분산의 역수를 가중치로하는 가중 선형모형(wighted linear regression) 을 최소제곱법으로 적합하고 계수의 값이 수렴할 때까지 반복적으로 수행하는하는 계산법을 제공하였다. 이러한 방법을 반복가중최소최곱법(iterative weighted least square method; IWLS)라고 부른다.
이제 회귀계수 \(\beta\)를 최대가능도추정법(Maximum Likelihood Estimation)으로 가능도 방정식을 식 11.16 를 이용하면 다음과 같은 행렬 방정식으로 표시된다.
\[
{ X}^t W \Delta y = { X}^t W \Delta \mu
\tag{11.17}\]
위의 방정식은 일반적으로 회귀계수 벡터 \(\beta\)에 대하여 선형방정식이 아니므로 최소제곱법과 같이 최대가능도 추정량을 직접 구할 수 없다.
노트
정규분포 가정 하에서 선형회귀 모형에서는 식 11.17 이 최소제곱법의 방정식 \({ X}^t y = { X}^t { X} \beta\)로 유도되고 직접적으로 구할 수 있다.
많은 경우 스케일 모수 \(a(\phi_i)\)는 관측값 \(y_i\)에 따라 변하지 않고 상수인 경우가 흔하다. 즉 \(a(\phi_i) \equiv a(\phi)\). 이러한 경우 가능도 방정식 식 11.14 또는 식 11.16 에서 스케일 모수 \(a(\phi_i)\)를 1로 놓고 방정식을 푼다.
최대가능도추정량을 실제 계산하기 위하여 로그 가능도 함수의 2차 도함수(헤시안) 행렬을 구해보자. 식 11.14 에서 얻은 1차 도함수를 한번 더 미분하면 다음과 같은 결과를 얻는다.
최대가능도추정량 \(\hat { \beta}\)는 가능도 방정식 식 11.17 을 직접 풀어서 계산할 수 있지만 대부분의 경우 직접해(explicit solution)를 구하는 것이 불가능 하다. 따라서 보통의 경우 선형화된 작업변량에 반복가중최소제곱법(iterative weighted least square; IWLS)을 적용하여 최대가능도 추정량을 구하며 IWLS로 구하는 해는 가능도 방정식 식 11.17 의 해와 동일하다.
주어진 분포에서 기본 연결함수를 \(g\) 라고 하고 관측값 \(y\)를 변환한 작업변량 \(z=g(y)\)의 테일러 전개를 다음과 같이 고려해 보자.
\[
z \equiv g(y) \cong g(\mu) + g_\mu (\mu)(y-\mu)
\]
IWLS 추정량 \(\hat { \beta}\)는 \(z_0\) 를 설명변수 벡터 \(x\)로 선형회귀분석을 적합할 때 가중치를 \(w_0\) 로 이용하는 가중최소제곱법으로 반복적으로 적용하여 개선할 수 있다.
실제로 IWLS 추정량은 피셔정보를 이용한 스코어 방법(Fisher scoring method)로 구한 최대가능도 추정량과 동일함을 보일 수 있다. 일단 회귀계수 벡터의 초기값 \(\hat { \beta}^0\) 으로 계산된 피셔정보 행렬을 \(A\)로 아래와 같이 정의하자.
위의 방정식은 \(z_0 = \eta_0 + g_\mu (\mu_0) (y-\mu_0)\)를 가중치 \(w_0\)를 사용하여 얻은 가중최소제곱법에서 나온 방정식임을 알 수 있다. 따라서 최대가능도 추정량을 구하는 피셔의 스코링 방법은 앞에서 알아본 반복가중최소제곱법과 동일하다.
11.5 편차
선형모형에서 잔차제곱합(residual sum of square; SSE)에 대한 의미를 살펴보고 이를 일반화 선형모형에 확장하는 개념인 편차(deviance)의 정의를 알아보자.
이러한 포화 모형은 \(n\)개의 반응변수의 평균을 \(n\)개의 모수를 가진 모형으로 추정하는 것으로 위와 같은 모형을 포화 모형(saturated model)이라고 한다. 포화 모형에서 모수 \(\beta_{0i}\)의 최소제곱 추정량(또는 최대가능도 추정량)는 관측값 \(y_i\)임을 쉽게 알수 있다.
포화모형은 설정할 수 있는 최대의 모수를 가진 가장 큰 모형이므로 우리가 생각할 수 있는 모형 중에서 관측값을 예측하는 예측력은 가장 좋다는 것을 알 수 있다(하지만 과적합모형이다). 따라서 예측변수 \(\pmb x\)들을 사용하는 선형회귀모형의 예측력이 포화모형이 가지는 예측력에 가까우면 좋은 모형이라고 생각할 수 있다. 반응변수의 평균을 예측하는 예측력은 로그가능도함수의 크기로서 나타낼 수 있다. 포화모형과 선형회귀모형의 로그가능도함수를 비교하면 포화모형의 로그가능도함수가 크다는 것을 알수 있고 (why?) 두 로그가능도함수의 의 차이를 비교하면 다음과 같다.
위의 모형에서 포화모형은 어떤 모형일까? 포화모형은 \(n\)개의 관측변수의 평균, 여기서 \(E(y_i/m_i) = p(\pmb x_i)\)를 \(n\)개의 관측치 \(y_i\)를 이용하여 추정한 모형으로서 각 성공확률은 해당하는 관측된 성공의 비율에 의해 추정된다. 즉,
위에서 \(\hat y_i = m_i \hat p(x_i)\)으로 로지스틱 회귀에서 성공의 횟수의 평균에 대한 예측값이다.
위의 논의에서 알 수 있듯이 로지스틱 회귀에서의 편차는 선형회귀 분석에서 잔차 제곱합 SSE의 의미로 해석할 수 있으며 작을 수록 모형의 예측력이 좋다는 것을 알 수 있다.
또한 편차는 표본의 개수가 충분히 크면 자유도가 \(n-p\) 인 카이제곱분포를 따른다. 여기서 \(p\)는 회귀계수 벡터 \(\pmb \beta\)의 크기이다.
정규분포와 이항분포의 편차를 비교하면 정규분포의 편차에는 산포를 나타내는 모수 \(\sigma^2\) 이 포함되어 있지만 이항분포의 편차에는 다른 모수가 나타나지 않는다. 식 11.19 에서 주어진 편차를 척도 모수(scaled parameter) 또는 산포 모수(dispersion parameter) \(\phi\) 를 곱해준 값을 척도화 편차(scaled deviance) \(D^*(\pmb y;\hat {\pmb \mu})\) 라고 부른다.
\[
H_0: \beta_{1} = \beta_2 =\dots =\beta_q =0 \quad vs. H_1: \text{ not } H_0
\]
만약 축소모형(reduced moldel) 에 대한 편차를 \(D_0\) 라고 하고 큰 모형(full model)에 대한 척도화 편차를 \(D_1\) 라고 하면 귀무가설이 참인 경우 두 편차의 차이 \(D_0 - D_1\) 은 근사적으로 자유도가 \(d\) 인 카이제곱분포를 따른다. 여기서 자유도 \(d\) 는 두 모형의 회귀계수의 갯수 차이이다. 이러한 두 편차의 차이의 점근적 분포 가능도비검정 이론에 의하여 유도할 수 있다.
11.6 이항변수에 대한 회귀모형
11.6.1 단순 로지스틱 회귀모형
이제 반응변수의 값이 연속형 변수가 아니라 두 개의 가능한 결과만을 가지는 이항변수라면 선형 회귀식은 적절하지 못하다. 왜냐하면 반응변수의 기대값이 0과 1사이의 확률로 나타나기 때문이다.
다른 종류의 결합함수도 생각할 수 있다. 식 11.2 에 나타난 프로빗 함수 \(\Phi(x)=P(Z \le x)\) 또한 결합함수로 생각할 수 있다.
11.6.2 오즈비
일반적인 선형 회귀분석의 모형에서 기울기 계수 \(\beta_1\)은 기울기로서 예측변수 \(x\)의 단위가 1 증가할 때 반응변수의 평균이 \(\beta_1\)만큼 증가하는 것으로 해석할 수 있다. 하지만 로지스틱 회귀모형 식 11.24 에서는 이러한 해석을 할 수 없다.
로지스틱 회귀모형에서 기울기 \(\beta_1\)의 의미를 알아보기 위하여 다음과 같은 주어진 확률 \(p\)에 대한 몇 가지 함수를 알아야 한다.
먼저 하나의 확률 \(p\) 에 대한 오드(odd)는 다음과 같이 정의된다.
\[
\text{odd} = \frac{p}{1-p}
\]
예로 성공의 확률이 \(1/3\)일 떄 오드는 \(1/2\)가 되며 이는 평균적으로 세 번의 시행할 때 한 번 성공하고 두 번 실패한다는 의미이다. 반대로 성공의 확률이 \(2/3\)일 떄 오드는 \(2=2/1\)가 되며 이는 평균적으로 세 번의 시행할 때 두 번 성공하고 한 번 실패한다는 의미이다. 성공의 확률이 \(1/2\)일 떄 오드는 \(1\)이 된다.
두 개의 확률 \(p_1\)과 \(p_2\) 에 대한 오즈비(odds ratio) 는 다음과 같이 정의된다.
위의 식에서 볼 때 예측변수 \(x\)가 1 의 값을 가질 때 반응 변수의 오드가 예측변수 \(x\)가 0일 경우의 오드의 \(\exp (\beta_1)\)배로 변하는 것을 알 수 있다. 따라서 \(\exp (\beta_1)\)는 반응변수의 오드의 증가량으로 볼 수 있다. 이는 두 성공확률의 오즈 비가 \(\exp (\beta_1)\)을 말한다. 위의 식에 로그를 취하면 다음과 같은 관계를 얻는다.
즉 오즈 비의 로그값이 단순 로지스틱 회귀식에서 기울기 \(\beta_1\)으로 나타난다.
간단한 예제를 통하여 오즈비와 로지스틱 회귀의 기울기의 관계를 명확히 해보자. 100명의 사람들을 55세 이상의 사람(\(x=1\))과 55세 미만의 사람(\(x=0\))의 그룹으로 나누었을 떄 각 그룹에서 만성심장질환(CHD)가 있는 사람(\(y=1\))과 없는 사람(\(y=0\))의 수가 다음 표에 주어져있다.
위의 표 \(\ref{twotwotable}\)의 자료를 이용하여 로지스틱회귀를 적합시키면 결과가 아래와 같고 회귀계수 \(\beta_1\)의 추정값은 오즈비의 로그값임을 알 수 있다.
\[
\hat \beta_1 = \log (8.11) = 2.094
\]
yes <-c(21,22) no <-c(6,51) x <-c (1,0) m1 <-glm(cbind(yes,no) ~ x,family=binomial()) summary(m1)
Call:
glm(formula = cbind(yes, no) ~ x, family = binomial())
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.8408 0.2551 -3.296 0.00098 ***
x 2.0935 0.5285 3.961 7.46e-05 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 1.8704e+01 on 1 degrees of freedom
Residual deviance: 1.4211e-14 on 0 degrees of freedom
AIC: 11.987
Number of Fisher Scoring iterations: 3
11.6.3 로지스틱 회귀식 추정 및 예측
주어진 예측변수 \({\pmb x}_i=(x_{1i},\dots,x_{pi})^t\)에서 실행횟수가 \(m_i\)인 이항분포\(B(m_i, p(x_i))\)를 생각하자. \(m_i\)의 시행 중에 성공의 횟수가 \(y_i\)라고 하면 \(y_i\)의 평균과 분산은 다음과 같다.
이러한 포아송 분포에서 나온 반응변수에 대하여 예측변수 \(x\)의 영향에 대한 회귀분석을 포아송 회귀식이라고 한다. 포아송 분포의 평균 \(\mu\)는 양의 실수이고 선형예측식 \(\eta= {\pmb x}^t \pmb beta\)의 범위는 실수이기 때문에 로그함수를 결합함수(link function)으로 이용하여 회귀식을 세운다.
사실 포아송분포의 로그 가능도함수에서 로그함수가 기본형 결합함수임을 쉽게 알 수 있다. 즉, \(\pmb y=(y_1,y_2,\dots,y_n)^t\)를 서로 독립이고 평균이 \(\mu_i = \mu({\pmb x}_i)\)인 포아송 확률변수라고 한다면 로그가능도함수는 다음과 같다.
위에서 볼 수 있듯이 충분통계량 \(y_i\)에 대응하는 모수에 대한 항은 \(\log \mu_i\)로서 이는 로그함수가 기본형 결합함수임을 나타낸다.
포아송 회귀분석는 다음과 같은 몇 가지 특징을 가지고 있다.
만약에 어떤 사건이 일어난 횟수가 몇 가지 가능한 수중 하나라면 (예: \(y \le M\)) 포아송분포를 이항분포의 근사(approximation)로 생각할 수 있다. 즉 \(n\)이 크고 성공확률 \(p\)가 작으면 이항분포는 평균이 \(\mu=np\)인 포아송 분포와 매우 가깝기 때문에 가능한 횟수가 제한되었다 하더라도 포아송 회귀식을 이용할 수 있다.
사건의 일어난 횟수가 주어진 시간의 길이에 비례하고 다른 사건과 독립이면 포아송 분포를 따른다. 또한 포아송 분포는 두 개의 사건이 일어날 때 시간 간격이 지수분포(exponential distribution)을 따른다면 주어진 시간 간격동안 일어난 사건의 횟수는 포아송 분포를 따른다.
\(y_i\)가 서로 독립이고 평균이 \(\mu_i\)인 포아송 분포를 따른다면 합 \(\sum_i y_i\)는 평균이 \(\sum_i \mu_i\)인 포아송분포를 따른다
포아송 회귀분석에서 식 11.19 에서 정의된 편차 \(D(\pmb y; \hat{\pmb \mu})\)를 구해보기 위하여 포화모형을 생각해보자. 각 관측값의 평균 \(\mu_i\)를 자신의 관측값 \(y_i\)로 추정하는 것이 포화모형이다. 따라서 포화모형의 로그가능도함수는 다음과 같이 주어지고
Call:
glm(formula = Species ~ ., family = poisson, data = gala)
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 3.155e+00 5.175e-02 60.963 < 2e-16 ***
Area -5.799e-04 2.627e-05 -22.074 < 2e-16 ***
Elevation 3.541e-03 8.741e-05 40.507 < 2e-16 ***
Nearest 8.826e-03 1.821e-03 4.846 1.26e-06 ***
Scruz -5.709e-03 6.256e-04 -9.126 < 2e-16 ***
Adjacent -6.630e-04 2.933e-05 -22.608 < 2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for poisson family taken to be 1)
Null deviance: 3510.73 on 29 degrees of freedom
Residual deviance: 716.85 on 24 degrees of freedom
AIC: 889.68
Number of Fisher Scoring iterations: 5
11.7.2 비율 모형
어떤 사건이 일어날 횟수(count)는 집단이나 시간의 크기(group size)에 의존할 수 있다. 예를 들어 각 도시의 1년 범죄 발생 횟수는 그 도시의 인구수나 크기에 비례하게 된다. 이러한 모형은 이항분포를 이용하여 분석할 수 도 있지만 사건의 발생 확률이 매우 작고 집단의 크기가 크면 포아송 근사를 통한 분석도 가능하다. 또한 어떤 경우에는 집단의 크기에 대한 정보가 부족할 수 있다.
이는 다시 발생횟수에 대한 포아송 회귀모형의 형태로 나타내면 다음과 같이 쓸 수 있다. \[
\log \text{ count } = (1)(\log \text{ group size }) + {\pmb x}^t {\pmb \beta}
\]
따라서 발생횟수에 대한 포아송 회귀분석을 적합할 때 집단의 크기를 안다면 그 로그 변환값을 회귀식에 포함하여 적합할 수 있다. 위의 식에서 알 수 있듯이 크기의 로그 변환변수는 회귀계수를 강제로 1 로 놓는 제약을 둘 수 있다. 이러한 변수를 오프셋(offset)이라고 한다.
보기 11.3 (비율 모형) 세포(cells)에 감마 방사능을 쏘였을 떄 비정상성(ca)를 나타내는 횟수에 대하여 비율 모형을 적합시켰다. 독립변수는 방사능의 양(doseamt)와 비율(doserate)이다. 여기서 세포의 수(cells)를 오프셋(offset) 변수로 사용한다 (자료 출처는 Faraway (2016)).
위의 식에서 볼 수 있듯이 영과잉 포아송 모형은 과포화(overdispersion)을 보인다 (\(Var(y_i) > E(y_i)\)). 영과잉 포아송 모형에 대한 회귀분석은 별도로 나타난 0이 관측될 확률 \(\pi_i\)에 대한 로지스틱회귀와 발생회수에 대한 포아송회귀의 결합으로 분석할 수 있다.
Faraway, Julian J. 2016. Extending the linear model with R: generalized linear, mixed effects and nonparametric regression models. Chapman; Hall/CRC.
Nelder, John Ashworth, 와/과 Robert WM Wedderburn. 1972. “Generalized linear models”. Journal of the Royal Statistical Society: Series A (General) 135 (3): 370–84.
Searle, Shayle Robert, 와/과 Charles E McCulloch. 2001. Generalized, linear and mixed models. Wiley.