부록 D — 가능도비 검정

D.1 가능도비 검정의 기초

가능도비 검정(likelihood ratio test) 은 제약 있는 모형제약 없는 모형의 최대가능도 함수(maximum likelihood function)의 비율를 이용하여 두 모형을 비교하는 검정이며 통계적 가설 검정에 널리 사용되고 있다.

먼저 확률 변수 또는 확률 벡터 \(\pmb X\) 가 확률 밀도 함수 \(f(\pmb X | \pmb \theta)\) 를 따른다고 가정하자. 또한 다음과 같은 귀무 가설 검정을 고려하자. 또한 모수벡터 \(\pmb \theta\) 는 전체 모수 공간 \(\pmb \Theta\) 에 속한다고 가정한다.

\[ H_0: \pmb \theta \in {\pmb \Theta}_0 \quad \text{ vs } \quad H_a: \pmb \theta \in {\pmb \Theta} \setminus {\pmb \Theta}_0 \tag{D.1}\]

위의 가설에서 귀무 가설 \(H_0\) 는 모수 공간 \(\pmb \Theta\) 의 부분 집합 \(\pmb \Theta_0\) 에 모수가 속한다는 것 (모수에 대한 제약조건)을 의미한다.

이러한 가설 검정을 위하여 표본 벡터 \(\pmb X_1, \ldots, \pmb X_n\) 에 대한 가능도 함수 \(L(\pmb \theta)\) 와 로그 가능도 함수 \(\ell(\pmb \theta)\)는 다음과 같이 정의된다. 참고로 가능도 함수는 주어진 표본의 값에 대하여 모수 \(\pmb \theta\) 의 함수로 생각할 수 있다.

\[ \begin{aligned} L(\pmb \theta) & = \prod_{i=1}^n f(\pmb X_i| \pmb \theta) \\ \ell(\pmb \theta) & = \log \prod_{i=1}^n f(\pmb X_i| \pmb \theta) \\ &= \sum_{i=1}^n \log f(\pmb X_i| \pmb \theta) \end{aligned} \]

이제 최대 가능도 추정을 다음 두 개의 경우에 대하여 고려해 보자.

  1. 제약이 있는 경우, 즉 귀무 가설이 참인 경우: \(\theta \in \pmb \Theta_0\)

제약이 있는 경우에 대한 최대 가능도 추정량은 다음의 조건을 만족하는 경우

\[ \hat{\pmb \theta}_0 = \arg\max_{\pmb \theta \in \pmb \Theta_0} L(\pmb \theta) \]

  1. 제약이 없는 경우, 즉 귀무 가설이 거짓인 경우

제약이 없는 경우에 대한 최대 가능도 추정량은 다음의 조건을 만족하는 경우니다.

\[ \hat{\pmb \theta} = \arg\max_{\pmb \theta \in \pmb \Theta} L(\pmb \theta) \]

이제 두 경우에 대한 최대 가능도 추정량을 이용하여 가능도비 검정 통계량 \(\Lambda\) 를 다음과 같이 정의한다.

\[ \begin{aligned} \Lambda & =\frac{\sup_{\pmb \theta \in \pmb \Theta_0} L(\pmb \theta)}{\sup_{\pmb \theta \in \pmb \Theta} L(\pmb \theta)} \\ & =\frac{L(\hat{\pmb \theta}_0)}{L(\hat{\pmb \theta})} \in (0,1] \end{aligned} \]

가능도비 \(\Lambda\) 는 귀무 가설이 참일 때 1에 가까운 값을 가지며, 실제 모수가 귀무 가설의 제약조건에서 멀어지면 0에 가까운 값을 가진다. 따라서 귀무 가설을 기각하기 위한 기각역은 \(\Lambda\) 가 작은 값이 되는 영역으로 설정한다. 또한 가설 검정의 편의성을 위하여 가능도비에 로그를 취하고 \(-2\) 를 취한 값을 검정에 이용한다.

\[ \lambda = -2 \log \Lambda = -2 \left\{ \ell(\hat{\pmb \theta}_0) - \ell(\hat{\pmb \theta}) \right\} \in [0, \infty) \tag{D.2}\]

이제 위의 식에서 정의된 \(\lambda\) 는 값이 크면 클수록 귀무가설에 반대되는 증거이다. 따라서 \(\lambda\)의 값이 주어진 기각역 \(c\) 보다 크면 귀무 가설을 기각한다.

\[ \text{reject } H_0 \quad \text{ if } \lambda > c \]

기각역 \(c\)\(\lambda\) 에 비례하는 적절한 검정 통계량을 찾은 다음, 주어진 확률 분포와 표본의 갯수에 따라서 검정 통계량의 정확한 분포를 구하여 유도할 수 있다. 하지만 대부분의 경우에는 \(\lambda\) 의 다음과 같은 점근적 성질(표본의 개수가 증가할 때 극한 분포를 이용)을 이용하여 기각역을 유도한다(Wilks’ theorem)

\[ \lambda = -2\log\Lambda \rightarrow_{d} \chi^2_{\nu} \] 위의 성질에서 \(\rightarrow_{d}\) 는 분포의 수렴을 의미하며, \(\chi^2_\nu\) 는 자유도 \(\nu\) 인 카이제곱 분포를 나타낸다. 자유도 \(\nu\) 는 전체 모수 공간과 제약조건 공간 차원의 차이이며 다음과 같이 계산된다.

\[ \nu = \dim(\pmb \Theta)-\dim( \pmb \Theta_0) \]

D.2 다변량 정규분포의 가능도비 검정

D.2.1 두 평균벡터의 비교

확률 벡터 \(\pmb X\)\(\pmb Y\) 가 평균이 각각 \(\pmb \mu_1\), \(\pmb \mu_2\) 이고 공분산이 \(\pmb \Sigma\) 인 p-차원 다변량 정규 분포를 따른다고 가정하자.

\[ \pmb X \sim N_p(\pmb \mu_1, \pmb \Sigma), \quad \pmb Y \sim N_p(\pmb \mu_2, \pmb \Sigma) \] 다변량 정규 분포의 확률밀도함수는 다음과 같이 주어진다.

\[ f_p(\pmb X \mid {\pmb \mu},{\pmb \Sigma} )= |2 \pi \pmb \Sigma|^{-1/2} \exp \{ - \tfrac{1}{2} ( \pmb X -\pmb \mu)^t {\pmb \Sigma}^{-1}( \pmb X-\pmb \mu) \} \]

더 나아가 다음과 같은 가설 검정을 고려하자.

\[ H_0 : \pmb \mu_1 = \pmb \mu_2 \text{ vs } H_a: \pmb \mu_1 \neq \pmb \mu_2 \]

이제 가설 검정을 위하여 두 그룹에서 각각 \(n_1, n_2\)개의 다변량 표본이 관측되었다고 하자.

\[ \pmb X_1, \pmb X_2, \dots, \pmb X_{n_1} \sim_{IID} N(\pmb \mu_1, \pmb \Sigma), \quad \pmb Y_1, \pmb Y_2, \dots, \pmb Y_{n_2} \sim_{IID} N(\pmb \mu_2, \pmb \Sigma) \] ### 로그 가능도 함수

이제 로그 가능도 함수를 정의하자. 먼저 제약 조건이 없는 경우를 고려하자.

\[ \begin{aligned} \ell({\pmb \mu_1},{\pmb \mu_2},{\pmb \Sigma}) &= \log L({\pmb \mu_1},{\pmb \mu_2},{\pmb \Sigma}) \\ & = \log \prod_{i=1}^{n_1} f_p(\pmb X_i \mid {\pmb \mu_1},{\pmb \Sigma} ) \prod_{i=1}^{n_2} f_p(\pmb Y_i \mid {\pmb \mu_2},{\pmb \Sigma} ) \\ & = \sum_{i=1}^{n_1} \log f_p(\pmb X_i \mid {\pmb \mu_1},{\pmb \Sigma} ) + \sum_{i=1}^{n_2} \log f_p(\pmb Y_i \mid {\pmb \mu_2},{\pmb \Sigma} ) \\ & = -\frac{n_1 + n_2 }{2}\log|2\pi \pmb \Sigma| \\ & ~~ -\frac{1}{2} \Bigg [ \sum_{i=1}^{n_1} (\pmb X_i - \pmb \mu_1)^t \pmb \Sigma^{-1} (\pmb X_i - \pmb \mu_1) + \sum_{i=1}^{n_2} (\pmb Y_i - \pmb \mu_2)^t \pmb \Sigma^{-1} (\pmb Y_i - \pmb \mu_2) \Bigg ] \end{aligned} \tag{D.3}\]

만약 귀무 가설이 참이라면 \(\pmb \mu_1 = \pmb \mu_2 = \pmb \mu\) 이므로 로그 가능도 함수는 다음과 같이 주어진다.

\[ \begin{aligned} \ell({\pmb \mu},{\pmb \Sigma}) &= \log L({\pmb \mu},{\pmb \Sigma}) \\ & = \log \prod_{i=1}^{n_1} f_p(\pmb X_i \mid {\pmb \mu},{\pmb \Sigma} ) \prod_{i=1}^{n_2} f_p(\pmb Y_i \mid {\pmb \mu},{\pmb \Sigma} ) \\ & = \sum_{i=1}^{n_1} \log f_p(\pmb X_i \mid {\pmb \mu},{\pmb \Sigma} ) + \sum_{i=1}^{n_2} \log f_p(\pmb Y_i \mid {\pmb \mu},{\pmb \Sigma} ) \\ & = -\frac{n_1 + n_2 }{2}\log|2\pi \pmb \Sigma| \\ & ~~ -\frac{1}{2} \Bigg [ \sum_{i=1}^{n_1} (\pmb X_i - \pmb \mu)^t \pmb \Sigma^{-1} (\pmb X_i - \pmb \mu) + \sum_{i=1}^{n_2} (\pmb Y_i - \pmb \mu)^t \pmb \Sigma^{-1} (\pmb Y_i - \pmb \mu) \Bigg ] \end{aligned} \tag{D.4}\]

D.2.2 재곱합의 분해

이제 이차형식의 다음과 같은 대각합(trace) 표현을 이용하면

\[ {\pmb x}^t \pmb A {\pmb x} =tr({\pmb x}^t \pmb A {\pmb x}) = tr(\pmb A {\pmb x} {\pmb x}^t ) \]

로그 가능도 함수에 나타나는 제곱합 항들을 다음과 같이 표현할 수 있다.

\[ \begin{aligned} \sum_{i=1}^{n_1} (\pmb X_i - \pmb \mu_1)^t \pmb \Sigma^{-1} (\pmb X_i - \pmb \mu_1) &= \operatorname{tr} \Bigg [ \sum_{i=1}^{n_1} (\pmb X_i - \pmb \mu_1)^t \pmb \Sigma^{-1} (\pmb X_i - \pmb \mu_1) \Bigg ] \\ &= \sum_{i=1}^{n_1} \operatorname{tr} \Bigg [ (\pmb X_i - \pmb \mu_1)^t \pmb \Sigma^{-1} (\pmb X_i - \pmb \mu_1) \Bigg ] \\ &= \sum_{i=1}^{n_1} \operatorname{tr} \Bigg [ \pmb \Sigma^{-1} (\pmb X_i - \pmb \mu_1) (\pmb X_i - \pmb \mu_1)^t \Bigg ] \\ &= \operatorname{tr} \Bigg [ \pmb \Sigma^{-1} \sum_{i=1}^{n_1} (\pmb X_i - \pmb \mu_1) (\pmb X_i - \pmb \mu_1)^t \Bigg ] \end{aligned} \tag{D.5}\]

또한 위의 식에서 \(\pmb X_i - \pmb \mu_1\)\((\pmb X_i - \bar{\pmb X}_1) + (\bar{\pmb X}_1 - \pmb \mu_1)\) 로 전개하면 평균 분해를 이용하여 다음과 같이 쓸 수 있다.

\[ \begin{aligned} \sum_{i=1}^{n_1} (\pmb X_i - \pmb \mu_1) (\pmb X_i - \pmb \mu_1)^t &= \sum_{i=1}^{n_1} \Big [ (\pmb X_i - \bar{\pmb X}_1) + (\bar{\pmb X}_1 - \pmb \mu_1) \Big ] \Big [ (\pmb X_i - \bar{\pmb X}_1) + (\bar{\pmb X}_1 - \pmb \mu_1) \Big ]^t \\ &= \sum_{i=1}^{n_1} (\pmb X_i - \bar{\pmb X}_1) (\pmb X_i - \bar{\pmb X}_1)^t + n_1 (\bar{\pmb X}_1 - \pmb \mu_1) (\bar{\pmb X}_1 - \pmb \mu_1)^t \\ &= n_1 S_x + n_1 (\bar{\pmb X} - \pmb \mu_1) (\bar{\pmb X} - \pmb \mu_1)^t \end{aligned} \tag{D.6}\]

위의 식에서 \(S_x\) 는 확률 표본 \(\pmb X_1, \pmb X_2, \dots, \pmb X_{n_1}\) 으로 만들어진 표본 공분산 행렬이다 (아래 식에서 공분산행렬의 추정에서 분포를 최대가능도 추정량으로 하여 \(n_1-1\) 대신 \(n_1\) 을 적용하였다)

\[ S_X = \frac{1}{n_1} \sum_{i=1}^{n_1} (\pmb X_i - \bar{\pmb X}_1) (\pmb X_i - \bar{\pmb X}_1)^t \]

이제 식 D.6식 D.5 에 적용하면 다음과 같이 쓸 수 있다.

\[ \begin{aligned} \sum_{i=1}^{n_1} (\pmb X_i - \pmb \mu_1)^t \pmb \Sigma^{-1} (\pmb X_i - \pmb \mu_1) &= \operatorname{tr} \Bigg [ \pmb \Sigma^{-1} \sum_{i=1}^{n_1} (\pmb X_i - \pmb \mu_1) (\pmb X_i - \pmb \mu_1)^t \Bigg ] \\ &= \operatorname{tr} \Bigg [ n_1\pmb \Sigma^{-1} S_x + n_1 \pmb \Sigma^{-1} (\bar{\pmb X} - \pmb \mu_1) (\bar{\pmb X} - \pmb \mu_1)^t \Bigg ] \\ &= n_1 \Bigg [ \operatorname{tr} ( \pmb \Sigma^{-1} S_x ) + \operatorname{tr} ( \pmb \Sigma^{-1} (\bar{\pmb X} - \pmb \mu_1) (\bar{\pmb X} - \pmb \mu_1)^t ) \Bigg ] \\ &= n_1 \operatorname{tr} ( \pmb \Sigma^{-1} S_x ) + n_1 (\bar{\pmb X} - \pmb \mu_1)^t \pmb \Sigma^{-1} (\bar{\pmb X} - \pmb \mu_1) \end{aligned} \tag{D.7}\]

D.2.3 로그 가능도 함수의 재표현

이제 분해식 식 D.7식 D.3 에 적용하여 제약조건이 없는 경우의 로그 가능도 함수를 다음과 같이 표현할 수 있다.

\[ \begin{aligned} \ell({\pmb \mu_1},{\pmb \mu_2},{\pmb \Sigma}) & = -\frac{n_1 + n_2 }{2}\log|2\pi \pmb \Sigma| \\ & ~~ -\frac{1}{2} \Bigg [ \sum_{i=1}^{n_1} (\pmb X_i - \pmb \mu_1)^t \pmb \Sigma^{-1} (\pmb X_i - \pmb \mu_1) + \sum_{i=1}^{n_2} (\pmb Y_i - \pmb \mu_2)^t \pmb \Sigma^{-1} (\pmb Y_i - \pmb \mu_2) \Bigg ] \\ & = -\frac{n_1 + n_2 }{2}\log|2\pi \pmb \Sigma| \\ & ~~ -\frac{1}{2} \Bigg [ n_1 \operatorname{tr} ( \pmb \Sigma^{-1} S_x ) + n_1 (\bar{\pmb X} - \pmb \mu_1)^t \pmb \Sigma^{-1} (\bar{\pmb X} - \pmb \mu_1) \\ & \quad \quad \quad + n_2 \operatorname{tr} ( \pmb \Sigma^{-1} S_y ) + n_2 (\bar{\pmb Y} - \pmb \mu_2)^t \pmb \Sigma^{-1} (\bar{\pmb Y} - \pmb \mu_2) \Bigg ] \\ & = -\frac{n_1 + n_2 }{2}\log|2\pi {\pmb \Sigma} | -\frac{1}{2} \operatorname{tr} ( {\pmb \Sigma}^{-1} [n_1 S_x + n_2 S_y]) \\ & \quad -\frac{1}{2} \left [ n_1 (\bar{\pmb X} - {\pmb \mu_1})^t {\pmb \Sigma}^{-1} (\bar{\pmb X} - {\pmb \mu_1}) + n_2 (\bar{\pmb Y} - { \pmb \mu_2} )^t {\pmb \Sigma}^{-1} (\bar{\pmb Y} - { \pmb \mu_2} ) \right ] \\ & = -\frac{n_1 + n_2 }{2}\log|2\pi {\pmb \Sigma} | -\frac{1}{2} \operatorname{tr} ( {\pmb \Sigma}^{-1} \pmb W ) \\ & \quad -\frac{1}{2} \left [ n_1 (\bar{\pmb X} - {\pmb \mu_1})^t {\pmb \Sigma}^{-1} (\bar{\pmb X} - {\pmb \mu_1}) + n_2 (\bar{\pmb Y} - { \pmb \mu_2} )^t {\pmb \Sigma}^{-1} (\bar{\pmb Y} - { \pmb \mu_2} ) \right ] \end{aligned} \tag{D.8}\]

위의 식에서 \(\pmb W\) 는 그룹내의 변동을 표시하는 제곱합 행렬이다. 참고로 식 3.4 에서 정의된 풀링된 공분산 행렬 \(\pmb S_p\) 와 다음과 같은 관계가 있다.

\[ \begin{aligned} \pmb W & = n_1 S_X + n_2 S_Y \\ & = \sum_{i=1}^{n_1} (\pmb X_i - \bar{\pmb X}_1) (\pmb X_i - \bar{\pmb X}_1)^t + \sum_{i=1}^{n_2} (\pmb Y_i - \bar{\pmb Y}_2) (\pmb Y_i - \bar{\pmb Y}_2)^t \\ & = (n_1+n_2 -2) \pmb S_{p} \end{aligned} \tag{D.9}\]

제약조건이 없는 가능도 함수 식 D.8 에 대해서 최대 가능도 추정을 적용하면 다음과 같은 평균에 대한 최대가능도 추정량은 각각 그룹의 표본 평균이 된다.

\[ \hat{\pmb \mu}_1 = \bar{\pmb X}_1, \quad \hat{\pmb \mu}_2 = \bar{\pmb Y}_1 \]

이제 위의 평균에 대한 최대가능도 추정량을 제약 조건이 없는 가능도 함수 식 D.8 에 대입하면 다음과 같은 식을 얻게 된다.

\[ \begin{aligned} \ell(\hat {\pmb \mu_1},\hat {\pmb \mu_2},{\pmb \Sigma}) & = -\frac{n_1 + n_2 }{2}\log|2\pi {\pmb \Sigma} | -\frac{1}{2} \operatorname{tr} ( {\pmb \Sigma}^{-1} \pmb W ) \\ & \quad -\frac{1}{2} \left [ n_1 (\bar{\pmb X} - \hat {\pmb \mu_1})^t \hat {\pmb \Sigma}^{-1} (\bar{\pmb X} - \hat {\pmb \mu_1}) + n_2 (\bar{\pmb Y} - \hat { \pmb \mu_2} )^t \hat {\pmb \Sigma}^{-1} (\bar{\pmb Y} - \hat { \pmb \mu_2} ) \right ] \\ & = -\frac{n_1 + n_2 }{2}\log|2\pi {\pmb \Sigma} | -\frac{1}{2} \operatorname{tr} ( {\pmb \Sigma}^{-1} \pmb W ) + 0 \end{aligned} \]

위의 식에서 공분산 행렬에 대한 최대가능도 추정량을 구하면 다음과 같은 추정량을 얻게되며

\[ \hat {\pmb \Sigma} = \frac{1}{n_1 + n_2} \pmb W \]

따라서 공분산 행렬에 대한 추정량을 제약조건이 없는 로그 가능도 함수에 대입하면 다음의 값을 얻게된다.

\[ \begin{aligned} \ell(\hat {\pmb \mu_1},\hat {\pmb \mu_2},\hat {\pmb \Sigma}) & = -\frac{n_1 + n_2 }{2}\log|2\pi \hat {\pmb \Sigma} | -\frac{1}{2} \operatorname{tr} ( \hat {\pmb \Sigma}^{-1} \pmb W ) \\ & = -\frac{n_1 + n_2 }{2}\log|2\pi \hat {\pmb \Sigma} | -\frac{1}{2} \operatorname{tr} ( (n_1 + n_2) \pmb W^{-1} \pmb W ) \\ & = -\frac{n_1 + n_2 }{2}\log|2\pi \hat {\pmb \Sigma} | -\frac{p(n_1 + n_2)}{2} \end{aligned} \tag{D.10}\]

이제 제약조건 \(\pmb \mu_1 = \pmb \mu_2 = \pmb \mu\) 가 있는 경우의 로그 가능도 함수를 고려하자. 식 D.8 의 마지막 항을 이용하면 다음과 같이 제약 조건이 있는 가능도 함수 식 D.4 를 다음과 같이 표현할 수 있다.

\[ \begin{aligned} \ell({\pmb \mu},{\pmb \Sigma}) & = -\frac{n_1 + n_2 }{2}\log|2\pi {\pmb \Sigma} | -\frac{1}{2} \operatorname{tr} ( {\pmb \Sigma}^{-1} \pmb W ) \\ & \quad -\frac{1}{2} \left [ n_1 (\bar{\pmb X} - {\pmb \mu})^t {\pmb \Sigma}^{-1} (\bar{\pmb X} - {\pmb \mu}) + n_2 (\bar{\pmb Y} - { \pmb \mu} )^t {\pmb \Sigma}^{-1} (\bar{\pmb Y} - { \pmb \mu} ) \right ] \end{aligned} \tag{D.11}\]

위의 제약조건이 있는 로그 가능도 함수에 대하여 평균 벡터 \(\pmb \mu\) 에 최대 가능도 추정량을 구하면 다음과 같다.

\[ \hat{\pmb \mu} = \frac{n_1 \bar{\pmb X} + n_2 \bar{\pmb Y}}{n_1 + n_2} \]

여기서 그룹 간의 변동을 나타내는 제곱합 행렬 \(\pmb B\) 는 다음과 같이 정의한다.

\[ \pmb B \equiv n_1 (\bar{\pmb X} - \hat{\pmb \mu}) (\bar{\pmb X} - \hat{\pmb \mu})^t + n_2 (\bar{\pmb Y} - \hat{\pmb \mu}) (\bar{\pmb Y} - \hat{\pmb \mu})^t \tag{D.12}\]

이제 평균 벡터의 추정량 \(\hat{\pmb \mu}\)식 D.11 을 에 대입하면 다음과 같이 로그 가능도 함수가 나타나며

\[ \begin{aligned} \ell( \hat {\pmb \mu},{\pmb \Sigma}) & = -\frac{n_1 + n_2 }{2}\log|2\pi {\pmb \Sigma} | -\frac{1}{2} \operatorname{tr} ( {\pmb \Sigma}^{-1} \pmb W ) \\ & \quad -\frac{1}{2} \left [ n_1 (\bar{\pmb X} - \hat{\pmb \mu})^t {\pmb \Sigma}^{-1} (\bar{\pmb X} - \hat {\pmb \mu}) + n_2 (\bar{\pmb Y} - \hat { \pmb \mu} )^t {\pmb \Sigma}^{-1} (\bar{\pmb Y} - \hat { \pmb \mu} ) \right ] \\ & = -\frac{n_1 + n_2 }{2}\log|2\pi {\pmb \Sigma} | -\frac{1}{2} \operatorname{tr} ( {\pmb \Sigma}^{-1} \pmb W ) \\ & \quad -\frac{1}{2} \operatorname{tr} \left [ {\pmb \Sigma}^{-1} \{ n_1 (\bar{\pmb X} - \hat{\pmb \mu}) (\bar{\pmb X} - \hat{\pmb \mu})^t + n_2 (\bar{\pmb Y} - \hat{\pmb \mu}) (\bar{\pmb Y} - \hat{\pmb \mu})^t \} \right ] \\ & = -\frac{n_1 + n_2 }{2}\log|2\pi {\pmb \Sigma} | -\frac{1}{2} \operatorname{tr} ( {\pmb \Sigma}^{-1} (\pmb W + \pmb B) ) \end{aligned} \tag{D.13}\]

이제 오그 가능도 함수 식 D.13 에서 공분산 행렬 \(\pmb \Sigma\) 에 대한 최대 가능도 추정량을 구하면 다음과 같다.

\[ \hat {\pmb \Sigma}_0 = \frac{1}{n_1 + n_2} (\pmb W + \pmb B) \]

위의 공분산 행렬에 대한 추정량을 식 D.13 에 대입하면 제약조건이 있는 경우 로그 가능도 함수의 최대값은 다음과 같이 얻어진다.

\[ \ell( \hat {\pmb \mu},\hat {\pmb \Sigma}_0) = -\frac{n_1 + n_2 }{2}\log|2\pi \hat {\pmb \Sigma}_0 | -\frac{p(n_1 + n_2)}{2} \tag{D.14}\]

D.2.4 가능도비 검정 통계량

이제 로그가능도비 통계량 \(\lambda\)식 D.2 에 정의된 식을 이용하여 다음과 같이 쓸 수 있다.

\[ \begin{aligned} \lambda &= -2 \log \Lambda \\ &= -2 \left\{ \ell\!\left(\hat{\boldsymbol{\mu}},\,\hat{\boldsymbol{\Sigma}}_{0}\right) - \ell\!\left(\hat{\boldsymbol{\mu}}_{1},\,\hat{\boldsymbol{\mu}}_{2},\,\hat{\boldsymbol{\Sigma}}\right) \right\} \\ &= N \log \left|\hat{\boldsymbol{\Sigma}}_{0}\right| - N \log \left|\hat{\boldsymbol{\Sigma}}\right| \\ &= N \log \left( \frac{ \left|\hat{\boldsymbol{\Sigma}}_{0}\right| }{ \left|\hat{\boldsymbol{\Sigma}}\right| } \right) \\ &= N \log \left( \frac{ \left|\boldsymbol{W}+\boldsymbol{B}\right| }{ \left|\boldsymbol{W}\right| } \right), \end{aligned} \tag{D.15}\]

위의 식에서 \(N = n_1 + n_2\) 이다.

마지막으로 두 집단에서는 다음과 같은 행렬식 공식를 이용하자 (부록의 섹션 A.9 참조)

\[ |{\pmb A}+{\pmb u} {\pmb v}^t |=| {\pmb A}| \big ( {\pmb 1} +{\pmb v}^t {\pmb A}^{-1} {\pmb u} \big ) \tag{D.16}\]

위의 정리를 이용하기 위하여 식 D.12 정의된 그룹간 제곱합 행렬 \(\pmb B\) 를 다음과 같이 표현해 보자

\[ \begin{aligned} \pmb B & = n_1 (\bar{\pmb X} - \hat{\pmb \mu}) (\bar{\pmb X} - \hat{\pmb \mu})^t + n_2 (\bar{\pmb Y} - \hat{\pmb \mu}) (\bar{\pmb Y} - \hat{\pmb \mu})^t \\ & = n_1 \left [ \bar{\pmb X} - \frac{n_1 \bar{\pmb X} + n_2 \bar{\pmb Y}}{N} \right ] + n_2 \left [ \bar{\pmb Y} - \frac{n_1 \bar{\pmb X} + n_2 \bar{\pmb Y}}{N} \right ]^t \\ & = \frac{n_1 n_2}{N} (\bar{\pmb X} - \bar{\pmb Y}) (\bar{\pmb X} - \bar{\pmb Y})^t \\ & = \alpha {\pmb d} {\pmb d}^t, \end{aligned} \tag{D.17}\]

위의 식에서

\[ \alpha = \frac{n_1 n_2}{N}, \quad d = \bar{\pmb X} - \bar{\pmb Y} \]

따라서 식 D.16 에서 \(\pmb u = \pmb v = \sqrt{\alpha} \pmb d\) 로 놓으면

\[ \begin{aligned} | {\pmb W} + {\pmb B} | & = | {\pmb W} + \alpha {\pmb d} {\pmb d}^t | \\ &= |{\pmb W}| \left( {\pmb 1} + \alpha {\pmb d}^t {\pmb W}^{-1} {\pmb d} \right) \end{aligned} \] 이제 위의 식을 식 D.15 에 넣고 정리하면 다음과 같은 결과를 얻는다.

\[ \begin{aligned} \lambda &= -2 \log \Lambda \\ &= N \log \left( \frac{ \left|\boldsymbol{W}+\boldsymbol{B}\right| }{ \left|\boldsymbol{W}\right| } \right) \\ &= N \log \left( \frac{ |{\pmb W}| \left( 1 + \alpha {\pmb d}^t {\pmb W}^{-1} {\pmb d} \right) }{ |{\pmb W}| } \right) \\ &= N \log\Big(1+\alpha\ d^\top W^{-1} d\Big) \\ & = N \log \Big ( 1+ \frac{T^2}{N-2} \Big ) \end{aligned} \tag{D.18}\]

위의 식에서 주어진 \(T^2\)식 3.5 에서 장의한 Hotelling의 \(T^2\) 통계량이다. 따라서 로그 가능도비 검정 통계량 \(\lambda\) 와 Hotelling의 \(T^2\) 통계량은 단조 증가 함수 관계에 있음을 알 수 있다. 이러한 결과로서 Hotelling의 \(T^2\) 을 이용한 검정은 가능도비 검정이다.