추정해야할 모수는 전체 평균 \(\mu\)와 각 그룹의 처리 효과 \(\alpha_1,\alpha_2, \dots, \alpha_a\) 그리고 분산 \(\sigma_E^2\)이다. 전체 평균과 그룹의 효과는 오차제곱합(Sum of Square Error; SSE)을 최소로 하는 모수를 추정하는 최소제곱법(Least Square method; LS)으로 구할 수 있다.
위의 방정식에서 첫 번째 방정식은 다른 \(a\)개의 방정식을 모두 합한 방정식과 같다. 따라서 모수는 \(a+1\)개이지만 실제 방정식의 개수는 \(a\)개이므로 유일한 해가 얻어지지 않는다. 따라서 유일한 해를 구하려면 하나의 제약조건이 필요하며 일반적으로 다음과 같은 두 개의 조건 중 하나를 사용한다.
7.2.1 set-to-zero condition
첫 번째 효과 \(\alpha_1\)를 0으로 놓는 조건을 주는 것이다 (\(\alpha_1=0\)). set-to-zero 조건 하에서는 다음과 같은 추정량이 얻어진다.
여기서 유의할 점은 선형모형식 식 10.16 의 계획행렬 \(\pmb X\) 가 완전 계수(full rank) 행렬이 아니다. 계획행렬 \(\pmb X\)의 첫 번째 열은 다른 열을 합한 것과 같다. 또한 정규 방정식 식 7.10 에서 \(\pmb X^t \pmb X\) 행렬도 완전계수 행렬이 아니다. 따라서 \(\pmb X^t \pmb X\) 행렬의 역행렬은 존재하지 않는다.
이러한 이유로 모수에 대한 유일한 추정량이 존재하지 않기 때문에 앞에서 언급한 제약 조건을 고려해야 정규방정식을 풀 수 있다.
7.3.1 Set-to-zero 조건에서의 모형과 최소제곱 추정량
만약 Set-to-zero 조건을 가정한다면 모수에서 \(\alpha_1\)을 제외하고 선형모형식 식 10.16 를 다음과 같이 다시 표현할 수 있다.
효과 \(\alpha_1\)을 0 으로 놓는다는 것은 \(\alpha_1\)을 추정할 필요가 없으므로 모수벡터 \(\pmb \beta\) 에서 \(\alpha_1\)를 빼고 게획행렬에서도 대응하는 열을 제거하는 것이다.
Call:
lm(formula = score ~ grade, data = english1)
Residuals:
Min 1Q Median 3Q Max
-9.500 -5.500 0.600 4.667 11.667
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 78.333 2.868 27.312 1.75e-15 ***
grade2 -3.833 4.056 -0.945 0.3579
grade3 -6.933 4.254 -1.630 0.1215
grade4 9.167 4.535 2.021 0.0593 .
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 7.025 on 17 degrees of freedom
Multiple R-squared: 0.4341, Adjusted R-squared: 0.3342
F-statistic: 4.347 on 3 and 17 DF, p-value: 0.01905
함수 lm() 을 이용하여 일원배치 모형을 적합한 결과를 보면 default 로 grade 에 대하여 1학년 효과 grade1 는 0 으로 고정되고 grade2, grade3, grade4 에 대한 추정치는 각각 -3.83, - 6.933, 9.167 로 추정된다. 즉, 범주형 변수의 첫 번째 수준을 0으로 고정하고 이를 기준으로 다른 수준에 대한 효과를 추정한 것이다.
\[ \hat \mu = 78.333, \quad \hat \alpha_1 =0, \quad \hat \alpha_2 = -3.83, \quad \hat \alpha_3 = -6.933, \quad \hat \alpha_4 = 9.167 \] 사용된 계획행렬을 보면 다음과 같다.
Call:
lm(formula = score ~ grade, data = english1)
Residuals:
Min 1Q Median 3Q Max
-9.500 -5.500 0.600 4.667 11.667
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 87.500 3.513 24.910 8.06e-15 ***
grade1 -9.167 4.535 -2.021 0.05927 .
grade2 -13.000 4.535 -2.867 0.01069 *
grade3 -16.100 4.713 -3.416 0.00329 **
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 7.025 on 17 degrees of freedom
Multiple R-squared: 0.4341, Adjusted R-squared: 0.3342
F-statistic: 4.347 on 3 and 17 DF, p-value: 0.01905
7.4 불완전 계수행렬에서의 추정
설계행렬 \(\pmb X\)의 계수가 완전하지 않을 때 회귀 계수를 추정하기 위한 방법으로서 다음과 같은 세 가지 방법이 있다.
7.4.1 모수의 재조정 (reparameterization)
\(\pmb X\)의 계수가 완전하지 않을 때 설계행렬의 열을 다시 구성하여 계수를 완전하게 하는 방법이 있다. 즉 \(\pmb X = (\pmb X_1, \pmb X_2)\)으로 표시하고 \(\pmb X_1\)을 \(n \times r~ (r < p)\)라고 하며 어떤 행렬 \(\pmb F\)가 존재하여 \(\pmb X_2 = \pmb X_1 \pmb F\)의 관계를 가진다고 가정하자. 이러한 관계는 \(\pmb X_2\)의 열들이 \(\pmb X_1\)의 열들의 선형결합으로 표현될 수 있다는 것을 의미한다. 이러한 경우에 선형모형은 다음과 같이 표현될 수 있다.
\[
\pmb y= \pmb X \pmb \beta + \pmb e = \pmb X_1 (\pmb I, \pmb F)\pmb \beta + \pmb e = \pmb X_1 \pmb \alpha +\pmb e
\] 여기서 새롭게 조정된 계수 \(\pmb \alpha\)와 처음의 계수 \(\pmb \beta\)는 다음과 같은 관계가 있다.
따라서 새롭게 구성된 선형모형 \(\pmb y=\pmb X_1 \pmb \alpha +\pmb e\)에서 새로운 계수의 추정치는 \(\hat {\pmb \alpha} = (\pmb X_1^t \pmb X_1 )^{-1} \pmb X_1^t \pmb y\) 이다.
7.4.2 부가 조건의 이용
회귀게수에 부가 조건(side condition)을 주면 유일한 계수의 추정치를 구할 수 있다. 즉 \((p-r) \times p\) 행렬 \(\pmb H\)를 고려하고 \(\pmb H \pmb \beta =0\)이라는 부가조건을 가정하자. 즉 모든 \(\pmb \eta = R(\pmb X)\)에 대하여 \(\pmb \eta=\pmb X \pmb \beta\)와 \(\pmb H \pmb \beta =0\)를 만족하는 \(\pmb \beta\)는 유일하게 존재한다.
이러한 부가 조건 \(\pmb H \pmb \beta =0\)과 정규방정식 \((\pmb X^t \pmb X ) \pmb \beta = \pmb X^t \pmb y\)를 동시에 만족하는 유일한 해를 구하고 이를 최소제곱추정량으로 한다. 이러한 부가 조건을 주는 방법은 분산분석을 이용하는 여러 가지 선형 모형 (예: 일원 배치법)에 자주 사용된다.
7.4.3 일반화 역행렬의 이용
\(\pmb X\)의 계수가 완전하지 않을 때 일반화 역행렬(generalized inverse matrix)를 이용하면 회귀계수의 추정치를 구할 수 있다.
여기서 \(m \times n\) 행렬 \(\pmb A\)의 일반화 역행렬 \(\pmb A^{-}\)는 다음을 만족하는 행렬이다.
\[
\pmb A = \pmb A \pmb A^{-} \pmb A
\]
일반화 역행렬은 일반적으로 유일하지 않다. \(\pmb A\)가 정방행렬이고 정칙행렬일 때 유일하게 존재하며 \(\pmb A^- = \pmb A^{-1}\)이다. 정규방정식 \(\pmb X^t \pmb y=\pmb X^t \pmb X \hat {\pmb \beta}\)의 양변에 \(\pmb X^t \pmb X (\pmb X^t \pmb X )^-\)를 곱하면
\[\pmb X^t \pmb X (\pmb X^t \pmb X )^- \pmb X \pmb y =
\pmb X^t \pmb X (\pmb X^t \pmb X )^- \pmb X^t \pmb X \hat {\pmb \beta} =
\pmb X^t \pmb X \hat {\pmb \beta} = \pmb X^t \pmb y
\]
이므로 \(\hat {\pmb \beta} = (\pmb X^t \pmb X )^- \pmb X^t \pmb y\)는 정규방정식의 해가 된다. 앞에서 언급하였듯이 일반화 역함수를 이용한 계수의 추정량은 유일하지 않다. 그러나 반응변수의 추정량 \(\hat {\pmb y} = \pmb X \hat {\pmb \beta}\)는 추정된 계수에 관계없이 유일하다.
7.5 추정 가능한 함수
7.5.1 일원배치법에 추정가능한 모수
앞 절에서 보았듯이 일원배치법을 선형 모형식으로 표현하는 경우 평균에 대한 모수는 모두 \(a+1\) 개가 있다.
\[ \mu, \alpha_1, \alpha_2, \cdots, \alpha_a \]
하지만 모형식에서 계획행렬 \(\pmb X\)가 완전 계수 행렬이 아니기 때문에 1개의 제약 조건을 가정하고 모수를 추정하였다. 하지만 제약 조건이 달라지면 각 모수의 추정량이 달라지기 때문에 각 모수는 유일한 값으로 추정이 불가능하다.
이렇게 각 모수들은 제약 조건에 따라서 유일하게 추정이 불가능하지만 앞 절에서 보았듯이 \(\mu + \alpha_i\) 에 대한 추정량은 제약조건에 관계없이 표본 평균 \(\bar y_{i.}\)으로 동일하게 추정되어 진다.
그러면 어떤 모수들은 유일하게 추정이 불가능하고 어떤 모수들이 유일하게 추정이 가능할까?
이제 제약조건이 달라도 유일하게 추정이 가능한 모수들의 형태를 살펴보자.
7.5.2 추정가능한 모수의 함수
선형모형 \(\pmb y =\pmb X \pmb \beta + \pmb e\) 에서 계획행렬 \(\pmb X\)의 계수가 완전하지 않으면 모수 벡터 \(\pmb \beta\)는 유일한 값으로 추정할 수 없다.
이제 임의의 벡터 \(\pmb c\)가 있을 때 모수들의 선형결합 \(\psi = \pmb c^t \pmb \beta\)를 고려하자.
이제 문제는 선형조합 \(\psi= \pmb c^t \pmb \beta\) 에서 계수들 \(c_0, c_1, \dots, c_a\)가 어떤 값을 가지는 경우 유일한 추정이 가능한 지 알아내는 것이다.
이제 \(\psi = \pmb c^t \pmb \beta\) 에 대한 유일한 추정량 \(\hat \psi\) 이 있다고 가정하자. 선형 모형에서 추정량 \(\hat \psi\)의 형태는 관측값에 대한 선형함수가 되어야 한다. 따라서 추정량을 \(\hat \psi = \pmb a^t \pmb y\) 로 나타낼 수 있다. 이제 추정량 \(\hat \psi\)의 기대값은 \(\psi=\pmb c^t \pmb \beta\)이어야 하므로 다음이 성립해야 한다.
\[
\pmb a^t \pmb X = \pmb c^t \quad \text{ equivalently }\quad \pmb c = \pmb X^t \pmb a
\tag{7.15}\]
즉 추정가능한 모수의 조합 \(\psi = \pmb c^t \pmb \beta\)에서 계수 벡터 \(\pmb c\) 는 계획행렬에 있는 행들의 선형 조합으로 표시되어야 한다는 것이다. 이렇게 유일하게 추정이 가능한 모수의 조합을 추정가능한 함수(estimable function)이라고 한다.
7.5.3 예제
2개의 수준이 있고 반복이 2번 있는 일원배치 \((a=2,r=2)\) 에 대한 선형모형 식 10.16 을 생각해보자. 이 경우 계획행렬 \(\pmb X\) 과 모수벡터 \(\pmb \beta\) 는 다음과 같다.
가설검정에서 사용되는 유의수준(significance level, \(\alpha\))에 대하여 생각해 보자. 지금까지 가설검정을 수행할 때 유의수준 5% 라는 말을 사용해 왔는데 이것이 무슨 의미를 가지는지 알아보자.
유의수준 5%라는 것은 수행하는 가설검정에서 귀무가설이 옳은 경우에 기각하는 확률을 말한다. 예를 들어 식 7.26 의 3개의 검정에 대하여 각각 t-검정을 수행하는 경우 귀무가설이 옳은데 우연하게 자료가 극단적으로 나와서 귀무가설을 기각하고 대립가설을 채택하는 확률이 유의수준이며 보통 5%를 사용한다. 이러한 오류를 제 1종의 오류(Type I error; false discovery error;false positve error)라고 한다.
위 식 7.26 에서 처럼 3개의 가설 검정을 동시에 실시한다면 각각의 가설검정에서 제 1 종의 오류를 범할 확률은 5%이다. 그런데 3개의 가설 검정을 동시에 실행하므로 다음과 같이 3개의 검정을 합쳐서 다음과 같은 확률에 관심이 있을 수 있다.
3개의 가설검정을 동시에 수행할 때 제 1종의 오류가 최소한 1번 발생할 확률은 얼마인가?
세 개의 가설검정을 동시에 수행하는 경우 세 검정 모두 제 1 종의 오류를 범하거나 두 개 또는 하나의 검정에서 제 1 종의 오류를 범할 사건의 확률은 얼마나 될까? 5%보다 작을까 아니면 클까? 또는 5%인가? 간단한 확률 공식을 이용하여 알아보자.
7.7.3 실험단위 오류
일단 두 개의 검정 \(H_{01}\) 과 \(H_{02}\)을 각각 유의수준 \(\alpha=0.05\)로서 동시에 수행 한다고 가정하고 다음과 같은 사건을 정의한다.
\(A_1\): \(H_{01}\) 검정에서 제 1 종의 오류를 범하는 사건
\(A_2\): \(H_{02}\) 검정에서 제 1 종의 오류를 범하는 사건
각 검정에서 제 1 종의 오류를 범할 확률을 \(\alpha\)라고 가정하자.
\[ P( A_1 ) = P(A_2) = \alpha =0.05 \]
이제 두개의 가설검정을 동시에 수행하는 경우 제 1 종의 오류를 최소한 1번 범하는 사건은 \(P(A_1 \cup A_2)\) 이며 여사건의 확률공식을 이용하면 다음과 같이 나타낼 수 있다.
\[ P( A_1 \cup A_2 ) = 1- P(A_1^c \cap A^c_2 ) \]
여기서 우리는 \(P(A_1^c)=P(A_2^c)=1-0.05=0.95\)를 알 수 있지만 두 사건의 교집합에 대한 확률은 계산하기 쉽지 않다. 왜냐하면 두 사건 \(A_1\)과 \(A_2\)가 일반적으로 독립이 아니어서 두 확률의 곱으로 쉽게 나타낼 수 없다.
만약에 두 사건이 독립이라면 다음과 같은 결과가 나온다. 즉 두 개의 독립인 가설검정을 동시에 수행하는 경우 최소한 1번의 제 1 종의 오류를 범하는 사건의 학률은 0.0975로 5%의 두 배 정도가 된다.
만약 \(k\) 개의 독립인 가설검정을 동시에 수행하는 경우 제 1 종의 오류를 최소한 1번 이라도 범하는 사건의 학률은 \(1-(1-0.05)^k\)으로 급격하게 증가한다. 예를 들어 \(k=6\)인 경우 26.5% 로 5%의 5 배가 된다. 여기서 유의할 점은 이러한 결과는 모든 가설검정이 독립이고 여러 개의 가설검정들을 동시에 고려하는 경우이다.
즉, 두 개 이상의 가설검정을 동시에 고려해서 제 1 종의 오류를 최소한 1번 범할 경우를 오류라고 한다면 그 확률은 고려하는 검정의 개수가 증가함에 따라 빠르게 커진다.
이렇게 두 개 이상의 가설검정을 동시에 고려해서 계산하는 오류의 확률을 실험단위 오류(Experiment-wise error 또는 Family-wise error)라고 하며 반대로 가설검정을 동시에 고려하지 않고 개별적로 생각하는 오류를 개별단위 오류(Individual-wise error)라고 한다.
7.7.4 예제: 2개의 가설을 가진 임상실험
임상실험에서 신약(처리 1)의 효과가 위약(처리 2)보다는 우월하다는 사실을 입증하는 것이 일반적이다. 그런데 기존의 약(처리 3)보다 우월하다는 사실을 동시에 입증하려고 하는 경우도 있다. 이러한 경우 다음과 같은 두 개의 가설을 동시에 수행해야 한다.
3개의 수준(신약, 위약, 기본의 약)을 가진 일원배치법으로 실험을 수행한 경우 첫 번쨰 가설 \(H_{01}\)은 \({\bar x}_{1.} - {\bar x}_{2.}\)를 이용하고 두 번쨰 가설 \(H_{02}\)은 \({\bar x}_{1.} - {\bar x}_{3.}\)을 이용하여 가설검정을 한다.
이러한 경우 각 검정에 대하여 유의 수준을 5% (개별단위 오류를 범할 확률이 5%) 라고 해도 실험단위 오류를 범할 확률은 5% 보다 크다.
여기서 유의할 점은 두 개의 가설에 대한 검정 통계량 \({\bar x}_{1.} - {\bar x}_{2.}\)과 \({\bar x}_{1.} - {\bar x}_{3.}\) 는 독립이 아니므로(why?) 실험단위 오류를 범할 확률은 5% 보다 크고 9.75% 보다는 작다.
7.7.5 다중비교
다시 실험 단위 오류의 계산으로 돌아가서 만약에 두 사건이 독립이 아닌 경우에 실험적 오류를 통제할 수 있는, 즉 5%보다 작거나 같게 하는 방법에 대해서 알아보자 두 사건이 독립이 아닌 일반적인 경우에 확률 공식을 이용하여 다음과 같은 부등식을 얻을 수 있다.
이렇게 실험단위 오류를 통제하기 위하여(5%보다 작거나 같게) 각 가설에 대한 개별단위 1 종 오류의 확률(유의수준)를 보정하는 방법을 다중비교(mutiple comparison) 라고 한다.
위에서 제시한 개별단위 1종 오류를 \(k\)배로 줄이는(0.05/k) 방법을 특별하게 본페로니 수정(Bonferroni correction)이라고 부른다. 본페로니 수정은 가장 보수적인 수정(most conservative correction)이라고 불리는데 그 이유는 실험적 오류가 가질 수 있는 가장 큰 값을 가정하고 보정하기 때문에 각각 수정한 개별단위 오류에 대한 유의수준이 너무 작게 되어(\(0.05/k\)) 귀무가설의 기각이 매우 힘들기 떄문이다.
만약 \(k\)개의 가설 검정에 본페로니 수정을 적용한다면 신뢰구간과 가설검정은 다음과 같이 수정된다.
두 수준 평균의 차이 \(\delta_{ij} = \mu_i - \mu_j\) 에 대한 본페로니 수정 신뢰구간은 다음과 같이 주어진다.
일반적으로 각 가설검정들은 완전히 독립도 아니고 또한 완전한 종속도 아니다. 따라서 실험단위 오류는 각 가설 검정들이 어떻게 확률적으로 관련되어 있느냐에 따라 매우 달라진다. 이러한 이유로 인하여 다중비교의 방법은 매우 다양하며, 선택한 방법에 따라서 검정의 결과도 매우 달라질 수있는 사실에 유의해야 한다. 다중비교의 방법을 선택하는 것은 매우 어려운 일이다.
노트
가설이 2개 이상 있는 경우 실험단위의 오류의 확률을 제어해야 하는지에 대한 판단은 상황에 따라서 달라진다.
앞에서 살펴본 임상실험의 예와 같이 중요한 의사 결정을 동시에 수행하는 2개 이상의 검정 결과에 따라서 해야할 경우 주로 다중 비교를 적용한다.
또한 다중 비교 방법은 실험의 설계와 목적에 따라서 많은 방법들이 존재한다. 주어진 실험 계획과 목적에 부합하는 다중 비교법을 선택해야 한다.
반면 탐색적인 목적으로 여러 개의 가설 검정을 동시에 수행하는 경우에는 다중비교를 적용하지 않거나 다중 비교보다 더 유연한 False Discovery Rate 방법(참조) 을 사용한다.