Linear Mixed Model - Preliminary Model – Master Thesis Literature Review

Linear Mixed Model의 Preliminary Model

개요

Preliminary Model은 선형혼합모형(Linear Mixed Model, LMM)의 기초가 되는 주변 모형(Marginal Model) 관점을 다룹니다. 이 섹션은 고정효과 추정과 분산 성분 추정의 이론적 기초를 제공하며, 후속 내용인 최대우도추정(MLE)과 제한최대우도추정(REML)으로 연결됩니다.

1. 주변 모형(Marginal Model) 개념

기본 아이디어

선형혼합모형은 다음과 같이 표현됩니다:

Stage 1 (개체 내 변이) \[ \mathbf{Y}_i = \mathbf{X}_i \boldsymbol{\beta} + \mathbf{Z}_i \mathbf{b}_i + \boldsymbol{\epsilon}_i \]

여기서: - \[\mathbf{Y}_i\]: \[i\]번째 개체의 반응벡터 (\[n_i \times 1\]) - \[\mathbf{X}_i\]: \[i\]번째 개체의 고정효과 설계행렬 (\[n_i \times p\]) - \[\boldsymbol{\beta}\]: 고정효과 계수벡터 (\[p \times 1\]) - \[\mathbf{Z}_i\]: \[i\]번째 개체의 랜덤효과 설계행렬 (\[n_i \times q\]) - \[\mathbf{b}_i\]: 개체 특이적 랜덤효과 (\[q \times 1\]), \[\mathbf{b}_i \sim N(\mathbf{0}, \mathbf{G})\] - \[\boldsymbol{\epsilon}_i\]: 측정오차 (\[n_i \times 1\]), \[\boldsymbol{\epsilon}_i \sim N(\mathbf{0}, \mathbf{R}_i)\]

주변 모형 유도

랜덤효과 \[\mathbf{b}_i\]를 적분으로 제거하면(마지널화), 다음의 주변 모형을 얻습니다:

\[ E[\mathbf{Y}_i] = \mathbf{X}_i \boldsymbol{\beta} \]

\[ \text{Var}[\mathbf{Y}_i] = \mathbf{V}_i = \mathbf{Z}_i \mathbf{G} \mathbf{Z}_i^T + \mathbf{R}_i \]

따라서 \[\mathbf{Y}_i \sim N(\mathbf{X}_i \boldsymbol{\beta}, \mathbf{V}_i)\]

중요한 특징: 주변 모형은 랜덤효과의 존재를 명시적으로 가정하지 않습니다. 대신 공분산 구조 \[\mathbf{V}_i\]로 개체 간 관측값의 상관성과 개체 내 이질성을 모델링합니다.

2. 기호법(Notation)

매개변수 정의

기호	의미	차원
\[\boldsymbol{\beta}\]	고정효과 계수 벡터	\[p \times 1\]
\[\boldsymbol{\alpha}\]	분산 성분 벡터 (모든 \[\mathbf{G}\]와 \[\mathbf{R}\]의 원소)	변수
\[\boldsymbol{\theta}\]	주변 모형의 전체 매개변수 벡터 = \[[\boldsymbol{\beta}^T, \boldsymbol{\alpha}^T]^T\]	-
\[\mathbf{V}_i\]	\[i\]번째 개체의 공분산 행렬 = \[\mathbf{Z}_i \mathbf{G} \mathbf{Z}_i^T + \mathbf{R}_i\]	\[n_i \times n_i\]
\[\mathbf{W}_i\]	가중 행렬 = \[\mathbf{V}_i^{-1}\]	\[n_i \times n_i\]

3. 주변 우도함수(Marginal Likelihood Function)

전체 우도 함수

\[N\]명의 개체로부터 수집된 데이터에 대한 주변 우도함수는:

\[ L(\boldsymbol{\theta}) = \prod_{i=1}^{N} (2\pi)^{-n_i/2} |\mathbf{V}_i|^{-1/2} \exp\left\{-\frac{1}{2}(\mathbf{Y}_i - \mathbf{X}_i \boldsymbol{\beta})^T \mathbf{V}_i^{-1} (\mathbf{Y}_i - \mathbf{X}_i \boldsymbol{\beta})\right\} \]

로그 우도함수(Log-likelihood):

\[ \log L(\boldsymbol{\theta}) = -\frac{1}{2}\sum_{i=1}^{N}\left[n_i \log(2\pi) + \log|\mathbf{V}_i| + (\mathbf{Y}_i - \mathbf{X}_i \boldsymbol{\beta})^T \mathbf{V}_i^{-1} (\mathbf{Y}_i - \mathbf{X}_i \boldsymbol{\beta})\right] \]

4. 고정효과 추정

\[\boldsymbol{\alpha}\]가 알려진 경우

분산 성분 \[\boldsymbol{\alpha}\]를 알고 있다고 가정하면, 로그 우도함수를 \[\boldsymbol{\beta}\]에 대해 최대화할 때:

\[ \frac{\partial \log L}{\partial \boldsymbol{\beta}} = \sum_{i=1}^{N} \mathbf{X}_i^T \mathbf{V}_i^{-1}(\mathbf{Y}_i - \mathbf{X}_i \boldsymbol{\beta}) = \mathbf{0} \]

이를 풀면, 일반화 최소제곱(Generalized Least Squares, GLS) 추정량을 얻습니다:

\[ \hat{\boldsymbol{\beta}}(\boldsymbol{\alpha}) = \left(\sum_{i=1}^{N} \mathbf{X}_i^T \mathbf{W}_i \mathbf{X}_i\right)^{-1} \sum_{i=1}^{N} \mathbf{X}_i^T \mathbf{W}_i \mathbf{Y}_i \]

여기서 \[\mathbf{W}_i = \mathbf{V}_i^{-1}\]는 가중행렬입니다.

의미: 각 개체별 공분산 구조를 반영한 가중치 \[\mathbf{W}_i\]를 사용하여 고정효과를 추정합니다. 측정오차가 큰 관측값일수록 가중치가 작아집니다.

\[\boldsymbol{\alpha}\]가 미지수인 경우

실제로 분산 성분은 미지수이므로, \[\boldsymbol{\alpha}\]의 추정량 \[\hat{\boldsymbol{\alpha}}\]로 대체합니다:

\[ \hat{\boldsymbol{\beta}} = \hat{\boldsymbol{\beta}}(\hat{\boldsymbol{\alpha}}) \]

이것이 일반화 최소제곱의 시행적 적용(Iterative Generalized Least Squares)입니다.

5. 분산 성분 추정 방법

5.1 최대우도추정(Maximum Likelihood Estimation, MLE)

원리: 분산 성분 \[\boldsymbol{\alpha}\]는 프로파일 우도함수(profile likelihood)를 최대화하여 추정합니다.

절차: 1. \[\boldsymbol{\alpha}\]의 초기값을 설정 2. 각 \[\boldsymbol{\alpha}\] 값에 대해 \[\hat{\boldsymbol{\beta}}(\boldsymbol{\alpha})\]를 계산 3. 프로파일 우도 \[L_{ML}(\boldsymbol{\alpha}, \hat{\boldsymbol{\beta}}(\boldsymbol{\alpha}))\]를 최대화하는 \[\boldsymbol{\alpha}\]를 찾음 4. 최종 추정량: \[\hat{\boldsymbol{\alpha}}_{ML}\], \[\hat{\boldsymbol{\beta}}_{ML} = \hat{\boldsymbol{\beta}}(\hat{\boldsymbol{\alpha}}_{ML})\]

문제점: MLE는 고정효과 매개변수의 수를 추정할 때 자유도 손실을 고려하지 않아, 분산 성분을 과소 추정(biased downward)하는 경향이 있습니다.

5.2 제한최대우도추정(Restricted Maximum Likelihood Estimation, REML)

동기: MLE의 편향 문제를 해결하기 위해 개발되었습니다.

핵심 아이디어: 고정효과 \[\boldsymbol{\beta}\]에 대한 정보를 제거한 오차 대비(error contrasts)를 사용합니다.

수학적 구성:

데이터 \[\mathbf{Y}\]를 다음과 같이 변환합니다:

\[ \mathbf{U} = \mathbf{A}^T \mathbf{Y} \]

여기서 \[\mathbf{A}\]는 \[N \times (N-p)\] 행렬로서 다음을 만족합니다: - \[\mathbf{A}^T \mathbf{A} = \mathbf{I}_{N-p}\] (직교성) - \[\mathbf{A}^T \mathbf{X} = \mathbf{0}\] (\[\mathbf{X}\]와 직교)

변환 후:

\[ E[\mathbf{U}] = \mathbf{A}^T \mathbf{Z} \mathbf{b} + \mathbf{A}^T \boldsymbol{\epsilon} \]

\[\mathbf{X}\]가 제거되어 \[\boldsymbol{\beta}\]에 의존하지 않습니다.

REML 우도함수:

\[ L_{REML}(\boldsymbol{\alpha}) = (2\pi)^{-(N-p)/2} |\mathbf{A}^T \mathbf{V} \mathbf{A}|^{-1/2} \exp\left\{-\frac{1}{2} \mathbf{U}^T (\mathbf{A}^T \mathbf{V} \mathbf{A})^{-1} \mathbf{U}\right\} \]

또는 동등하게:

\[ L_{REML}(\boldsymbol{\alpha}) \propto |\mathbf{V}|^{-1/2} |\mathbf{X}^T \mathbf{V}^{-1} \mathbf{X}|^{1/2} \exp\left\{-\frac{1}{2} (\mathbf{Y} - \mathbf{X}\hat{\boldsymbol{\beta}})^T \mathbf{V}^{-1} (\mathbf{Y} - \mathbf{X}\hat{\boldsymbol{\beta}})\right\} \]

장점: - 분산 성분의 불편추정량(unbiased estimate) 제공 - 고정효과의 추정에 필요한 자유도를 자동으로 반영 - 반복측정 데이터 분석에서 표준 방법

비고: REML은 분산 성분 추정에만 사용되며, 추정된 분산 성분은 고정효과 추정에 다시 사용됩니다(\[\hat{\boldsymbol{\beta}}_{REML} = \hat{\boldsymbol{\beta}}(\hat{\boldsymbol{\alpha}}_{REML})\]).

6. MLE와 REML의 비교: 간단한 예시

예시: 정규분포에서 분산 추정

\[N\]개 독립 관측치 \[Y_1, \ldots, Y_N \sim N(\mu, \sigma^2)\]에서:

경우 1: \[\mu\]가 알려진 경우

\[ \hat{\sigma}^2_{MLE} = \frac{1}{N}\sum_{i=1}^{N}(Y_i - \mu)^2 \]

\[E[\hat{\sigma}^2_{MLE}] = \sigma^2\] ✓ 불편

경우 2: \[\mu\]가 미지수인 경우

\[ \hat{\sigma}^2_{MLE} = \frac{1}{N}\sum_{i=1}^{N}(Y_i - \bar{Y})^2 \]

\[E[\hat{\sigma}^2_{MLE}] = \frac{N-1}{N}\sigma^2\] ✗ 편향 (과소추정)

REML 추정량:

\[ \hat{\sigma}^2_{REML} = \frac{1}{N-1}\sum_{i=1}^{N}(Y_i - \bar{Y})^2 \]

\[E[\hat{\sigma}^2_{REML}] = \sigma^2\] ✓ 불편

이 간단한 예시는 Preliminary Model 섹션에서 제시되는 핵심 논리를 보여줍니다.

7. 실제 적용의 의미

왜 주변 모형인가?

주변 모형 관점의 장점:

모델 불확정성 해소: 랜덤효과 구조가 명확하지 않은 경우에도, 공분산 구조 \[\mathbf{V}_i\]를 직접 모델링하여 분석 가능
인구 평균 해석(Population Averaging): 고정효과 \[\boldsymbol{\beta}\]는 모집단 평균 효과를 나타내므로 임상 해석이 직관적
불균형 데이터 처리: 각 개체별로 다른 수의 측정값을 가져도 \[\mathbf{V}_i\]로 자동 처리

고정효과 vs 분산 성분 추정의 구분

고정효과 \[\boldsymbol{\beta}\]: 분산 성분이 알려졌을 때 GLS로 추정 → 효율적이고 편향 없음
분산 성분 \[\boldsymbol{\alpha}\]: REML로 추정 → 자유도 손실 반영, 불편 추정량 제공

이 이원적 추정 구조(two-stage estimation)가 LMM의 핵심입니다.

8. Preliminary Model과 후속 내용의 연결

단계	내용	목적
Preliminary Model	주변 모형 정의, MLE와 REML 소개	이론적 기초 구축
Parameter Estimation	MLE와 REML의 상세 유도	실제 추정 알고리즘
Analysis with LMM	주변 vs 랜덤효과 모형 선택	실무 적용 기준
Marginal & Random Effect Model	두 모형의 관계와 차이	해석 방법

요약

Preliminary Model 섹션의 핵심 메시지:

선형혼합모형은 주변 모형 관점에서 이해되며, 공분산 구조 \[\mathbf{V}_i = \mathbf{Z}_i \mathbf{G} \mathbf{Z}_i^T + \mathbf{R}_i\]로 개체 간 상관성을 모델링합니다.
고정효과는 분산 성분을 알 때 GLS로, 모를 때 반복적 GLS로 추정합니다.
분산 성분은 MLE(편향)와 REML(불편)로 추정할 수 있으며, 실무에서는 REML을 선호합니다.
이러한 두 단계 추정 구조가 불균형 데이터와 결측치가 있는 반복측정 설계에서 유연성을 제공합니다.

고정효과 추정: GLS 공식의 상세 전개

이 섹션은 정규 방정식(normal equation)에서 GLS 추정량까지의 완전한 수학적 전개를 단계별로 설명합니다.[1]

1. 우도함수 설정 및 미분

주변 모형의 로그 우도함수 (복습)

선형혼합모형에서 \[i\]번째 개체의 데이터는 다음을 따릅니다:

\[ \mathbf{Y}_i \sim N(\mathbf{X}_i \boldsymbol{\beta}, \mathbf{V}_i) \]

여기서: - \[\mathbf{Y}_i\]: \[n_i \times 1\] 반응벡터 - \[\mathbf{X}_i\]: \[n_i \times p\] 설계행렬 - \[\boldsymbol{\beta}\]: \[p \times 1\] 고정효과 계수 (모든 개체에 동일) - \[\mathbf{V}_i = \mathbf{Z}_i \mathbf{G} \mathbf{Z}_i^T + \mathbf{R}_i\]: \[n_i \times n_i\] 공분산행렬

전체 데이터에 대한 로그 우도함수 (분산 성분 \[\boldsymbol{\alpha}\]는 알려졌다고 가정):

\[ \ell(\boldsymbol{\beta}) = \sum_{i=1}^{N} \ell_i(\boldsymbol{\beta}) \]

여기서 각 개체별 로그 우도는:

\[ \ell_i(\boldsymbol{\beta}) = -\frac{1}{2}\left[n_i \log(2\pi) + \log|\mathbf{V}_i| + (\mathbf{Y}_i - \mathbf{X}_i \boldsymbol{\beta})^T \mathbf{V}_i^{-1}(\mathbf{Y}_i - \mathbf{X}_i \boldsymbol{\beta})\right] \]

\[\boldsymbol{\beta}\]를 포함하지 않는 항들을 제거하면:

\[ \ell(\boldsymbol{\beta}) \propto -\frac{1}{2}\sum_{i=1}^{N} (\mathbf{Y}_i - \mathbf{X}_i \boldsymbol{\beta})^T \mathbf{V}_i^{-1}(\mathbf{Y}_i - \mathbf{X}_i \boldsymbol{\beta}) \]

정규 방정식 유도

\[\boldsymbol{\beta}\]에 대한 로그 우도함수의 1차 미분 (정규 방정식):

\[ \frac{\partial \ell(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}} = -\frac{1}{2}\sum_{i=1}^{N} \frac{\partial}{\partial \boldsymbol{\beta}} (\mathbf{Y}_i - \mathbf{X}_i \boldsymbol{\beta})^T \mathbf{V}_i^{-1}(\mathbf{Y}_i - \mathbf{X}_i \boldsymbol{\beta}) \]

연쇄 법칙 적용:

임의의 벡터 \[\mathbf{u}(\boldsymbol{\beta})\]와 대칭행렬 \[\mathbf{A}\]에 대해:

\[ \frac{\partial}{\partial \boldsymbol{\beta}} [\mathbf{u}(\boldsymbol{\beta})]^T \mathbf{A} \mathbf{u}(\boldsymbol{\beta}) = 2 \left[\frac{\partial \mathbf{u}^T}{\partial \boldsymbol{\beta}}\right] \mathbf{A} \mathbf{u}(\boldsymbol{\beta}) \]

여기서 \[\mathbf{u} = \mathbf{Y}_i - \mathbf{X}_i \boldsymbol{\beta}\]이고, \[\frac{\partial \mathbf{u}}{\partial \boldsymbol{\beta}} = -\mathbf{X}_i\]입니다.

따라서:

\[ \frac{\partial}{\partial \boldsymbol{\beta}} (\mathbf{Y}_i - \mathbf{X}_i \boldsymbol{\beta})^T \mathbf{V}_i^{-1}(\mathbf{Y}_i - \mathbf{X}_i \boldsymbol{\beta}) = 2(-\mathbf{X}_i)^T \mathbf{V}_i^{-1}(\mathbf{Y}_i - \mathbf{X}_i \boldsymbol{\beta}) \]

\[ = -2\mathbf{X}_i^T \mathbf{V}_i^{-1}(\mathbf{Y}_i - \mathbf{X}_i \boldsymbol{\beta}) \]

정규 방정식 (1차 미분을 0으로 설정):

\[ \frac{\partial \ell}{\partial \boldsymbol{\beta}} = -\frac{1}{2}\sum_{i=1}^{N} \left[-2\mathbf{X}_i^T \mathbf{V}_i^{-1}(\mathbf{Y}_i - \mathbf{X}_i \boldsymbol{\beta})\right] = \mathbf{0} \]

정리하면:

\[ \sum_{i=1}^{N} \mathbf{X}_i^T \mathbf{V}_i^{-1}(\mathbf{Y}_i - \mathbf{X}_i \boldsymbol{\beta}) = \mathbf{0} \]

또는 다르게 표현하면:

\[ \sum_{i=1}^{N} \mathbf{X}_i^T \mathbf{V}_i^{-1}\mathbf{Y}_i = \sum_{i=1}^{N} \mathbf{X}_i^T \mathbf{V}_i^{-1}\mathbf{X}_i \boldsymbol{\beta} \]

2. 정규 방정식에서 GLS 추정량까지

정규 방정식의 행렬 형태로 정리

\[ \sum_{i=1}^{N} \mathbf{X}_i^T \mathbf{V}_i^{-1}\mathbf{X}_i \boldsymbol{\beta} = \sum_{i=1}^{N} \mathbf{X}_i^T \mathbf{V}_i^{-1}\mathbf{Y}_i \]

가중 행렬 \[\mathbf{W}_i = \mathbf{V}_i^{-1}\]를 정의하면:

\[ \sum_{i=1}^{N} \mathbf{X}_i^T \mathbf{W}_i \mathbf{X}_i \boldsymbol{\beta} = \sum_{i=1}^{N} \mathbf{X}_i^T \mathbf{W}_i \mathbf{Y}_i \]

GLS 추정량 도출

양변에서 \[\left[\sum_{i=1}^{N} \mathbf{X}_i^T \mathbf{W}_i \mathbf{X}_i\right]\]의 역행렬을 곱합니다:

\[ \hat{\boldsymbol{\beta}}(\boldsymbol{\alpha}) = \left(\sum_{i=1}^{N} \mathbf{X}_i^T \mathbf{W}_i \mathbf{X}_i\right)^{-1} \sum_{i=1}^{N} \mathbf{X}_i^T \mathbf{W}_i \mathbf{Y}_i \]

행렬 표현:

전체 데이터를 \[\mathbf{Y} = (\mathbf{Y}_1^T, \ldots, \mathbf{Y}_N^T)^T\], \[\mathbf{X} = (\mathbf{X}_1^T, \ldots, \mathbf{X}_N^T)^T\]로 블록 행렬로 나타내면:

\[ \mathbf{V} = \begin{pmatrix} \mathbf{V}_1 & \mathbf{0} & \cdots & \mathbf{0} \\ \mathbf{0} & \mathbf{V}_2 & \cdots & \mathbf{0} \\ \vdots & \vdots & \ddots & \vdots \\ \mathbf{0} & \mathbf{0} & \cdots & \mathbf{V}_N \end{pmatrix} \]

\[\mathbf{W} = \mathbf{V}^{-1}\]는 블록 대각 행렬이므로:

\[ \mathbf{W} = \begin{pmatrix} \mathbf{W}_1 & \mathbf{0} & \cdots & \mathbf{0} \\ \mathbf{0} & \mathbf{W}_2 & \cdots & \mathbf{0} \\ \vdots & \vdots & \ddots & \vdots \\ \mathbf{0} & \mathbf{0} & \cdots & \mathbf{W}_N \end{pmatrix} \]

따라서:

\[ \hat{\boldsymbol{\beta}}(\boldsymbol{\alpha}) = (\mathbf{X}^T \mathbf{W} \mathbf{X})^{-1} \mathbf{X}^T \mathbf{W} \mathbf{Y} \]

이것이 일반화 최소제곱(Generalized Least Squares, GLS) 추정량의 표준 형태입니다.

3. GLS 추정량의 성질

3.1 불편성(Unbiasedness)

\[\boldsymbol{\alpha}\]가 알려져 있을 때, \[\hat{\boldsymbol{\beta}}(\boldsymbol{\alpha})\]는 \[\boldsymbol{\beta}\]의 불편추정량입니다.

증명:

\[ E[\hat{\boldsymbol{\beta}}(\boldsymbol{\alpha})] = E\left[(\mathbf{X}^T \mathbf{W} \mathbf{X})^{-1} \mathbf{X}^T \mathbf{W} \mathbf{Y}\right] \]

\[\mathbf{X}\]는 확정적(deterministic)이므로:

\[ = (\mathbf{X}^T \mathbf{W} \mathbf{X})^{-1} \mathbf{X}^T \mathbf{W} E[\mathbf{Y}] \]

\[E[\mathbf{Y}] = \mathbf{X} \boldsymbol{\beta}\]를 이용하면:

\[ = (\mathbf{X}^T \mathbf{W} \mathbf{X})^{-1} \mathbf{X}^T \mathbf{W} \mathbf{X} \boldsymbol{\beta} = \boldsymbol{\beta} \]

따라서 \[\hat{\boldsymbol{\beta}}\]는 불편추정량입니다. ✓

3.2 공분산 행렬(Covariance Matrix)

\[ \text{Var}[\hat{\boldsymbol{\beta}}(\boldsymbol{\alpha})] = (\mathbf{X}^T \mathbf{W} \mathbf{X})^{-1} \mathbf{X}^T \mathbf{W} \text{Var}[\mathbf{Y}] \mathbf{W} \mathbf{X} (\mathbf{X}^T \mathbf{W} \mathbf{X})^{-1} \]

\[\text{Var}[\mathbf{Y}] = \mathbf{V}\]이고 \[\mathbf{W} = \mathbf{V}^{-1}\]이므로:

\[ \text{Var}[\hat{\boldsymbol{\beta}}(\boldsymbol{\alpha})] = (\mathbf{X}^T \mathbf{W} \mathbf{X})^{-1} \mathbf{X}^T \mathbf{W} \mathbf{V} \mathbf{W} \mathbf{X} (\mathbf{X}^T \mathbf{W} \mathbf{X})^{-1} \]

\[\mathbf{W}\mathbf{V}\mathbf{W} = \mathbf{W}\]이므로 (왜냐하면 \[\mathbf{W} = \mathbf{V}^{-1}\]):

\[ \text{Var}[\hat{\boldsymbol{\beta}}(\boldsymbol{\alpha})] = (\mathbf{X}^T \mathbf{W} \mathbf{X})^{-1} \]

더 명시적으로:

\[ \text{Var}[\hat{\boldsymbol{\beta}}(\boldsymbol{\alpha})] = \left(\sum_{i=1}^{N} \mathbf{X}_i^T \mathbf{V}_i^{-1} \mathbf{X}_i\right)^{-1} \]

3.3 최적성(Optimality): Gauss-Markov 정리

정리: \[\mathbf{Y}\]가 선형 모형 \[\mathbf{Y} \sim N(\mathbf{X}\boldsymbol{\beta}, \mathbf{V})\]를 따를 때, GLS 추정량 \[\hat{\boldsymbol{\beta}}\]는 모든 선형 불편추정량 중에서 가장 작은 분산을 가집니다(BLUE: Best Linear Unbiased Estimator).

4. GLS와 OLS(최소제곱법)의 비교

OLS (일반적인 선형 회귀)

OLS는 공분산 구조가 \[\mathbf{V}_i = \sigma^2 \mathbf{I}_{n_i}\] (관측값들이 독립이고 동일 분산)인 특수한 경우입니다.

\[ \hat{\boldsymbol{\beta}}_{OLS} = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{Y} \]

GLS와의 관계

GLS는 OLS를 일반화합니다:

\[ \hat{\boldsymbol{\beta}}_{GLS} = (\mathbf{X}^T \mathbf{V}^{-1} \mathbf{X})^{-1} \mathbf{X}^T \mathbf{V}^{-1} \mathbf{Y} \]

변환 해석: GLS는 다음의 변환 선형 모형에 OLS를 적용하는 것과 동등합니다.

\[\mathbf{V}_i^{-1/2}\]를 사용하여 데이터를 화이트닝(whitening)하면:

\[ \mathbf{V}_i^{-1/2}\mathbf{Y}_i = \mathbf{V}_i^{-1/2}\mathbf{X}_i \boldsymbol{\beta} + \mathbf{V}_i^{-1/2}\boldsymbol{\epsilon}_i \]

변환된 데이터는 \[\text{Var}[\mathbf{V}_i^{-1/2}\boldsymbol{\epsilon}_i] = \mathbf{I}_{n_i}\]를 만족하므로 (독립), 변환 데이터에 OLS를 적용하면 GLS와 동일한 결과를 얻습니다.

5. 수치 예제: 간단한 2개체 사례

데이터 설정

각 개체에서 2개 시점에서 측정:

개체 1: \[\mathbf{Y}_1 = (y_{11}, y_{12})^T\], \[\mathbf{X}_1 = \begin{pmatrix} 1 & 0 \\ 1 & 1 \end{pmatrix}\]
개체 2: \[\mathbf{Y}_2 = (y_{21}, y_{22})^T\], \[\mathbf{X}_2 = \begin{pmatrix} 1 & 0 \\ 1 & 1 \end{pmatrix}\]

고정효과: \[\boldsymbol{\beta} = (\beta_0, \beta_1)^T\] (절편과 시간 효과)

공분산 구조 (교환 가능, exchangeable):

\[ \mathbf{V}_i = \begin{pmatrix} \sigma^2 & \rho\sigma^2 \\ \rho\sigma^2 & \sigma^2 \end{pmatrix}, \quad i=1,2 \]

GLS 계산

역행렬:

\[ \mathbf{V}_i^{-1} = \frac{1}{\sigma^2(1-\rho^2)} \begin{pmatrix} 1 & -\rho \\ -\rho & 1 \end{pmatrix} \]

고정 공분산 \[\sigma^2 = 1\], \[\rho = 0.5\]라 가정:

\[ \mathbf{V}_i^{-1} = \frac{1}{0.75} \begin{pmatrix} 1 & -0.5 \\ -0.5 & 1 \end{pmatrix} = \begin{pmatrix} 1.33 & -0.67 \\ -0.67 & 1.33 \end{pmatrix} \]

GLS 행렬 연산 (계산 생략):

\[ \sum_{i=1}^{2} \mathbf{X}_i^T \mathbf{V}_i^{-1} \mathbf{X}_i = \begin{pmatrix} 2.67 & 0.67 \\ 0.67 & 2.67 \end{pmatrix} \]

\[ \hat{\boldsymbol{\beta}}_{GLS} = \begin{pmatrix} 2.67 & 0.67 \\ 0.67 & 2.67 \end{pmatrix}^{-1} \left(\sum_{i=1}^{2} \mathbf{X}_i^T \mathbf{V}_i^{-1} \mathbf{Y}_i\right) \]

이는 측정 간 상관성을 고려한 최적 추정값을 제공합니다.

6. \[\boldsymbol{\alpha}\]가 미지수인 경우: 반복 알고리즘

실무에서 분산 성분 \[\boldsymbol{\alpha}\]는 알려지지 않으므로, 다음의 반복 절차를 거칩니다:[1]

알고리즘: 시행적 GLS (Iterative GLS)

초기화: 초기 추정량 \[\hat{\boldsymbol{\alpha}}^{(0)}\] 설정 (예: 표본 분산으로부터)

반복 \[k = 0, 1, 2, \ldots\]:

Step 1: 현재 분산 추정량 \[\hat{\boldsymbol{\alpha}}^{(k)}\]를 이용해 \[\hat{\mathbf{V}}_i^{(k)}\] 구성
Step 2: GLS를 적용하여 고정효과 추정:

\[ \hat{\boldsymbol{\beta}}^{(k+1)} = \left(\sum_{i=1}^{N} \mathbf{X}_i^T (\hat{\mathbf{V}}_i^{(k)})^{-1} \mathbf{X}_i\right)^{-1} \sum_{i=1}^{N} \mathbf{X}_i^T (\hat{\mathbf{V}}_i^{(k)})^{-1} \mathbf{Y}_i \]

Step 3: 업데이트된 고정효과를 이용해 잔차 계산:

\[ \hat{\boldsymbol{\epsilon}}_i^{(k+1)} = \mathbf{Y}_i - \mathbf{X}_i \hat{\boldsymbol{\beta}}^{(k+1)} \]

Step 4: 분산 성분 재추정:

\[ \hat{\boldsymbol{\alpha}}^{(k+1)} = \text{update}(\hat{\boldsymbol{\alpha}}^{(k)}, \hat{\boldsymbol{\epsilon}}^{(k+1)}) \]

(구체적인 업데이트 규칙은 MLE, REML 등에 따라 다름)

수렴 판정: \[\|\hat{\boldsymbol{\beta}}^{(k+1)} - \hat{\boldsymbol{\beta}}^{(k)}\| < \epsilon\] 또는 \[\|\hat{\boldsymbol{\alpha}}^{(k+1)} - \hat{\boldsymbol{\alpha}}^{(k)}\| < \epsilon\]이면 수렴으로 판정, 중단. 아니면 Step 1로 돌아감.

최종 추정량:

\[ \hat{\boldsymbol{\beta}} = \hat{\boldsymbol{\beta}}^{(K+1)}, \quad \hat{\boldsymbol{\alpha}} = \hat{\boldsymbol{\alpha}}^{(K+1)} \]

(여기서 \[K\]는 수렴 반복 횟수)

7. 의미 해석

가중 최소제곱의 관점

GLS는 가중 최소제곱 (Weighted Least Squares)으로 해석할 수 있습니다:

측정 정밀도가 높은 관측값 (\[\mathbf{V}_i\]의 분산이 작음): 가중치 \[w_{ij}\] 크다 → 추정에 더 많은 영향
측정 정밀도가 낮은 관측값 (\[\mathbf{V}_i\]의 분산이 큼): 가중치 \[w_{ij}\] 작다 → 추정에 적은 영향

개체 내 상관성 반영

\[\mathbf{V}_i\]가 대각 행렬이 아니면 (즉, \[\rho \neq 0\]이면):

같은 개체 내 반복측정들 간의 상관성이 자동으로 모델에 반영됨
OLS처럼 독립성을 가정하지 않으므로 더 효율적인 추정 가능

요약

단계	식	의미
정규방정식	\[\sum_i \mathbf{X}_i^T \mathbf{V}_i^{-1}(\mathbf{Y}_i - \mathbf{X}_i\boldsymbol{\beta}) = \mathbf{0}\]	우도함수의 1차 미분 = 0
GLS 추정량	\[\hat{\boldsymbol{\beta}} = (\sum_i \mathbf{X}_i^T \mathbf{V}_i^{-1}\mathbf{X}_i)^{-1} \sum_i \mathbf{X}_i^T \mathbf{V}_i^{-1}\mathbf{Y}_i\]	고정효과 MLE
분산	\[\text{Var}[\hat{\boldsymbol{\beta}}] = (\sum_i \mathbf{X}_i^T \mathbf{V}_i^{-1}\mathbf{X}_i)^{-1}\]	신뢰도 평가
반복 알고리즘	\[\hat{\boldsymbol{\beta}}^{(k+1)} = f(\hat{\boldsymbol{\alpha}}^{(k)})\]	\[\boldsymbol{\alpha}\] 미지수시 사용