교과서에서 변량모형으로 불리는 모형으로 흔히 임의효과 모형(random effect model) 또는 혼합모형(mixed effects model) 이라고 부른다.
C.1 고정효과
앞 장에서 하나의 요인있는 일원배치 모형에 대한 추론에 대하여 알아보있다.
\[
x_{ij} = \mu + \alpha_i + e_{ij}
\tag{C.1}\]
여기서 오차항 \(e_{ij}\)는 모두 독립이며 \(N(0,\sigma_E^2)\)를 따른다.
일원배치 모형 식 C.1 에서 전체 평균 \(\mu\) 와 처리수준의 효과를 나타내는 \(\alpha_1, \alpha_2, \dots, \alpha_a\)는 모두 고정된 값을 가지는 모수(parameter)이다. 식 C.1 의 오른쪽 항들 중에서 확률변수는 오차항 \(e_{ij}\)이 유일하다.
처리수준의 효과 \(\alpha_i\)들이 모수이라는 것은 의미는 만약 새로운 실험에서 실험단위(experiment unit)에 동일한 처리를 적용하면 평균 처리 효과는 \(\alpha_i\)로 일정하다는 의미이다.
예를 들어 예제 3.1에서 수행한 실험을 다른 회사에서 동일한 납품업체의 원단(동일한 실험 단위와 처리)을 가지고 새로운 실험을 하면 평균적인 효과는 예제 3.1과 동일하다는 가정을 할 수 있다. 물론 횩과는 동일하지만 설명할 수 없는오차떄문에 관측값은 다를 수 있다.
또한 예제 4.1 에 대한 실험에서도 만약 동일한 돼지 품종과 사료를 사용하여 새로운 실험을 수행할 때 처리 효과는 원래 실험과 같다고 가정할 수 있다. 즉, 처리라는 것이 기술적인 의미를 지니고 있어 반복하여 재현할 수 있는 효과이다. 이러한 고정된 모수로서의 효과를 고정 효과(fixed effect)라고 부른다.
더 나아가 고정효과를 가지는 모형에서는 고정효과를 추정하고 처리 수준간의 차이가 있는지 추론하는 것이 실험의 주요 목적이다.
C.2 임의효과
이제 고정효과와는 다른 의미를 가지는 몇 가지 실험들을 생각해 보자.
보기 C.1 (화학약품 회사:교과서예제 3.3) 화학약품 회사에서는 매년 원자재의 수백 개의 배치(batch)를 정제하여 순도가 높은 화학약품을 만든다. 품질 관리를 위하여 수백 개의 배치들 중에서 5개를 랜덤하게 선택하고 배치당 3개의 시료를 채취한 후에 순도를 측정하였다.
배치마다 순도가 크게 다르면 품질을 일정하게 유지할 수 없눈 문제가 생긴다. 따라서 실험의 목적은 품질 관리이며 배치 간의 변동과 배치 내의 변동을 알아보는 것이다.
보기 C.2 (학교간의 성적 비교) 학교 간에 성적의 차이를 알아보기 위하여 서울에 있는 603개의 학교에서 20개의 학교를을 임의로 추출하고 추출된 학교에 속한 6학년 학생들 10명을 임의로 추출하여 과학시험을 보게 하여 점수를 얻었다.
이러한 자료에서 학생들의 성적은 가장 점수가 낮은 학생부터 매우 우수한 성적을 낸 학생까지 점수의 변동(variation)이 존재한다. 변동의 요인은 무었일까? 학생의 개인의 차이(예:학생의 지능, 노력 정도, 학습 환경)도 변동의 요인이지만 또한 학교의 차이(예: 교사, 거주 환경)도 변동의 요인이 될 수 있다.
보기 C.3 (Test-ReTest) 새로 개발된 CT 로 만든 영상에 근거하여 의사들이 암의 단계를 점수로 파악하는 방법이 제안되었다. 제안된 방법의 유료성과 안정성을 알아보기 위하여 실험을 진행하였다. 일단 5명의 암환자들에서 CT 영상을 쵤영하였다. 다음으로 15명의 의사를 임의로 추출하고 5명의 CT 영상을 본 후 암의 진행 단계를 판단할 수 있는 점수를 매기도록 하였다.
실험의 목적은 CT 영상에 근거한 진단이 의사들간에 잘 일치하는지를 알아보는 실험이다. 이 실험에서는 의사와 환자라는 두 가지 요인이 존재한다.
위의 예제에서 배치, 의사, 학교는 고정 효과를 가정한 실험에서 고려하는 요인과는 성격이 틀리다. 5개의 배치들은 수백 개의 배치들에서 임의로 추출 되었으며 5명의 의사들은 다수의 의사들 중 임의로 추출되었다. 603개 초등 학교의 모집단에서 20개의 학교가 임의로 추출되었다.
배치, 의사 또는 학교 간의 차이는 잘 설계된 실험의 처리에 대한 고정 효과와는 다르다. 동일한 배치, 학교 또는 의사으로 부터 나온 관측값들은 동일한 처릴 받은 값들이라기 보다는 동일한 집단(group, cluster)에서 나온 관측값으로 볼 수 있다. 위의 예제들에서는 식 C.2 에서 효과 \(\alpha_i\) 의 변동은 모집단을 구성하는 집단들의 변동이라고 할 수 있다.
위에서 언급한 3개 예제는 실험의 목적이 선택된 수준들의 효과의 기술적인 비교가 아니라 모집단이 가지고 있는 여러 가지 변동(variance)에 대하여 추론하는 것이다.
노트
같은 학교에 다니는 학생들은 주거 환경, 교사 등 공통적인 요인에 의하여 영향을 받는다고 가정할 수 있다. 따라서 같은 학교에 다는 학생들의 성적이 독립이 아닐 수도 있다.
깉은 의사가 5명의 환자에 대한 평가하여 진단을 한 경우 5개의 진단결과는 다른 환자에 대항 결과임에도 불구하고 서로 독립이라고 가정하지 않을 수 있다. 의사의 역량, 경험, 성향에 따라서 환자에 대한 진단에 공통적인 영향을 미칠 수 있기 때문이다.
고정효과처럼 기술적인 처리효과가 아니라 모집단의 구성 단위들의 변동을 기술하는 효과를 임의효과(random effect, 변량) 라고 한다. 임의효과를 가진 일원배치 모형을 변량모형(random models) 또는 임의효과 모형(random effect models)이라고 부르며 다음과 같이 나타낼 수 있다.
위의 식에서 \(\alpha_1, \alpha_2, \dots, \alpha_a\)를 임의 효과라고 부르며 서로 독립인 확률 변수로서 분포는 \(N(0,\sigma_A^2)\)을 따른다. 또한 임의 효과 \(\alpha_i\)와 오차항 \(e_{ij}\)은 서로 독립이다.
임의효과가 가지는 분산을 \(\sigma_A^2\)을 분산성분(variance component)라고 하며 집단 간의 변동을 의미한다. \(\sigma_A^2\)이 크면 모집단을 구성하고 있는 단위들의 변동이 크다고 할 수 있다. 반면 \(\sigma_A^2\)이 작으면 단위들간의 변동이 작아진다.
그럼 효과를 어느 경우에 고정효과로 가정하는지? 또 임의효과로 가정하는 경우는 언제인지? 이러한 질문에 대하여 간단하고 명료한 대답은 없다. 많은 학자들이 이 문제에 대하여 다양한 설명을 내놓았는데 정답은 없다.
심지어 다음과 같이 말한 학자도 있어요
노트
Before proceeding further with random field linear models, we need to remind the reader of the adage that one modeler’s random effect is another modeler’s fixed effect.
모형은 실제 현상이 어떻게 작동되는지 인간이 가진 제한적인 지식으로 간단한 수식과 분포 가정을 사용하여 기술하는 것이기 때문에 가정한 모형이 옳다 그르다를 판별하기 어렵다. G.P. Box 가 말했듯이 모형을 평가하는 가장 중요한 요소는 모형의 유용성일 것이다. 즉, 유용하지 않는 모형은 사람들이 금방 외면해 버릴 것이고 유용한 모형은 실제 자료를 예측하는데 도음을 주니 많은 사람들이 이용할 것이다.
아직도 같은 자료에 대하여 고정효과와 임의효과 모형이 동시에 사용되고 있으니 두 모형 모두 유용하다고 할 수 있다. 하지만 두 효과에 대한 어느 정도 차이점은 알아야 한다. 지금까지 경험으로 고정효과와 임의효과의 대략적 의미와 차이점은 다음과 같습니다.
고정효과
기술적인 효과(technical effect)
실험자가 기술적으로 반복하여 적용할 수 있는 효과
평균 효과의 비교가 주 목적인 경우
예를 들어 온도, 사료, 비료, 촉매 등등
임의효과
효과가 있는 것 같은데 기술적으로 명확한 설명이 어려운 효과 (Unobservable heterogeneity)
숨겨진 변수 (latent variable )
모집단에서 추출된 집단(group, cluster, repeated menasure)에 속하여 나타나는 효과 - 급내상관계수
효과들의 변동에 관심있는 경우
예를 들어 학교, 병원, 재배단위(plot) 등등
C.3 변량모형의 성질
C.3.1 총변동의 분해
일원배치 변량 모형 식 C.2 을 따르는는 반응변수 \(x_{ij}\)의 평균과 분산은 다음과 같다.
위의 상관계수(교과서애서 기여율)는 보통 급내 상관계수(Intra Class Correlation, ICC)라고 부른다. 그룹 변동의 크기를 나타내는 분산성분 \(\sigma^2_A\)가 그룹 내 변동을 나타내는 오차항의 분산 \(\sigma^2_E\)보다 상대적으로 클수록 급내 상관계수가 1에 가까와진다.
보통 \(\sigma^2_A\)을 집단간 변동(between-group variance)라 하고 \(\sigma^2_E\)를 집단내 변동(within-group variance)라고 한다. 따라서 \(\sigma^2_A\)와 \(\sigma^2_E\)의 상대적인 크기의 차이에 따라 그룹내 관측값의 상관관계가 달라진다.
C.3.3 제곱합의 기대값
일원배치 변량 모형 식 C.2 은 고정효과 모형 식 C.1 과 동일한 분산분석(ANOVA) 표를 사용한다. 분산분석 표의 제곱합을 이용하여 \(\sigma^2_A\)와 \(\sigma^2_E\)에 대한 추정량을 얻을 수 있다.