Biostat/Clinical Stat

(Generalized) Linear Mixed Model (G/LMM) vs. Generalized Estimating Equations (G

카이집사

최근 저 두개의 반복측정 자료분석방법에 대한 구분을 잘 못하는 경우를 보게 되어 설명하다가 정리해두기로 .. 
PC 버전은 수식이 잘 나오는데 모바일하고 태블릿 버전은 수식이 날것으로 나오네요 ㅜ

🔶 공통점

  • 반복측정(또는 군집 자료)처럼 상관 구조가 존재하는 데이터 분석에 사용됨
  • 일반적인 선형/로지스틱 회귀와 달리 관측치 간의 독립성 가정을 완화
  • 시간에 따른 변화, 군집 내 유사성 등을 모델링할 수 있음

🔷 Mixed-effects model (LMM / GLMM)

Model 

$$
Y_{ij}= \mathbf{X}_{ij}^\top \boldsymbol\beta + \mathbf{Z}_{ij}^\top \mathbf{b}_i + \varepsilon_{ij} 
$$

$Y_{ij} $ : $i $ 번째 subject $j$ 번째 측정

$\mathbf{X}_{ij}$: 고정효과(fixed effect) 변수

$\boldsymbol\beta $: 고정효과 계수

$\mathbf{Z}_{ij} $: 랜덤효과 변수

$\mathbf{b}_i \sim N(0, \mathbf{D})$: 랜덤효과, subject별 분포

$\varepsilon_{ij} \sim N(0, \sigma^2) $: 오차항

  • 공분산 구조는 랜덤효과의 분산구조로 유도 (모델 기반 구조)
모델  개별 단위(예: 환자)의 변이를 모델링하여 예측력을 높이고, 군집 간/내 차이를 명확히 구분
효과 고정효과(fixed effects) + 랜덤효과(random effects)
상관 구조 랜덤효과를 통해 내재적으로 상관구조를 모델링
추정 Maximum Likelihood (ML) 또는 Restricted ML (REML)
결과 개별 대상 단위의 영향을 고려한 평균적 효과 추정
장점 - 개별 단위의 추론 및 예측 가능
- 결측에 좀 더 강건 (MAR 조건)
- 시간 변화 효과를 잘 포착
단점 - 모델이 복잡함 (특히 랜덤효과 구조 선택 시)
- 계산량 많음

🔷 GEE (Generalized Estimating Equations)

Model 

$$
g(\mu_{ij})=X_{ij}^T  \beta 
$$

$g(\cdot) $ : 연결합수 (link function 예: 로짓, identity 등) 

$\mu_{ij} = \mathbb{E}(Y_{ij} )$

상관행렬 구조는 명시적 - 상관행렬 구조는 추정할 뿐 직접 모델링 하지는 않음 (Quasi-likelihood 기반) 

목적 집단 수준의 평균 효과 추정 (population-averaged)
효과 고정효과만 포함 (랜덤효과 없음)
상관 구조 working correlation matrix를 명시적으로 지정 (e.g., exchangeable, AR(1), unstructured)
추정  Quasi-likelihood (pseudo-likelihood based)
결과 집단 평균(population average) 수준의 효과 추정
장점 - 모델이 비교적 단순
- 추정값이 상관 구조에 대해 비교적 robust
- 특정한 분포 가정이 필요 없음
단점 - 개별 단위 예측 불가능
- 결측치에 민감할 수 있음 (특히 불균형 반복측정 시)
- 샘플 수가 작을 경우 비효율적

🔷  추정 방식 (Estimation)

항목 Mixed model GEE
방법 Likelihood 기반 (ML, REML) Quasi-likelihood 기반 (estimating equations)
계수 추정 MLE 기반의 정규분포 가정 Score equation 기반으로 분포에 robust
분산 추정 모델 기반 (likelihood에서 직접 나옴) Empirical sandwich estimator 사용 (robust variance)
정보기준 사용 AIC/BIC 사용 가능 사용 불가 (likelihood 없음)

🔷   효과 해석 (Interpretation)

항목 Mixed Model GEE
계수 의미 subject-specific effect: 개인별 변화 기준 population-average effect: 전체 집단 평균 기준
예시 (로지스틱) β\beta는 개인 수준의 log odds β\beta는 집단 평균의 log odds
주로 사용하는 목적 개인별 경향 추적 또는 개입 효과 분석 정책 효과나 평균적 개입 평가

참고: GEE의 population-averaged 계수는 Mixed model보다 통상적으로 더 보수적으로 나타남.
즉, log-odds 차이가 작게 추정되는 경향이 있음.

🔸 예시 비교 (Diabetic patients, HbA1c 추이 분석)

  • Mixed model:
    • 개별 환자마다 intercept와 slope가 다를 수 있으니, 이를 랜덤효과로 고려하여 모델링 → 개별 환자별 HbA1c 변화 경로 추정 가능
  • GEE:
    • 환자들의 평균적인 HbA1c 변화 패턴이 치료군 간 어떻게 다른지 알고 싶다 → 집단 차이에 대한 평균 효과 추정

✅ 언제 어떤 방법을 써야 할까?


집단 수준의 평균 차이만 보고 싶다 GEE
개인별 변화 경로가 중요하거나 예측이 필요하다 Mixed model
데이터가 균형 잡히고 샘플 수 많다 GEE 또는 Mixed model 모두 가능
반복 측정 간격이 일정하지 않거나 결측 많다 Mixed model 유리