최근 저 두개의 반복측정 자료분석방법에 대한 구분을 잘 못하는 경우를 보게 되어 설명하다가 정리해두기로 ..
PC 버전은 수식이 잘 나오는데 모바일하고 태블릿 버전은 수식이 날것으로 나오네요 ㅜ
🔶 공통점
- 반복측정(또는 군집 자료)처럼 상관 구조가 존재하는 데이터 분석에 사용됨
- 일반적인 선형/로지스틱 회귀와 달리 관측치 간의 독립성 가정을 완화함
- 시간에 따른 변화, 군집 내 유사성 등을 모델링할 수 있음
🔷 Mixed-effects model (LMM / GLMM)
Model
$$
Y_{ij}= \mathbf{X}_{ij}^\top \boldsymbol\beta + \mathbf{Z}_{ij}^\top \mathbf{b}_i + \varepsilon_{ij}
$$
$Y_{ij} $ : $i $ 번째 subject의 $j$ 번째 측정
$\mathbf{X}_{ij}$: 고정효과(fixed effect) 변수
$\boldsymbol\beta $: 고정효과 계수
$\mathbf{Z}_{ij} $: 랜덤효과 변수
$\mathbf{b}_i \sim N(0, \mathbf{D})$: 랜덤효과, subject별 분포
$\varepsilon_{ij} \sim N(0, \sigma^2) $: 오차항
- 공분산 구조는 랜덤효과의 분산구조로 유도됨 (모델 기반 구조)
모델 | 개별 단위(예: 환자)의 변이를 모델링하여 예측력을 높이고, 군집 간/내 차이를 명확히 구분 |
효과 | 고정효과(fixed effects) + 랜덤효과(random effects) |
상관 구조 | 랜덤효과를 통해 내재적으로 상관구조를 모델링 |
추정 | Maximum Likelihood (ML) 또는 Restricted ML (REML) |
결과 | 개별 대상 단위의 영향을 고려한 평균적 효과 추정 |
장점 | - 개별 단위의 추론 및 예측 가능 - 결측에 좀 더 강건 (MAR 조건) - 시간 변화 효과를 잘 포착 |
단점 | - 모델이 복잡함 (특히 랜덤효과 구조 선택 시) - 계산량 많음 |
🔷 GEE (Generalized Estimating Equations)
Model
$$
g(\mu_{ij})=X_{ij}^T \beta
$$
$g(\cdot) $ : 연결합수 (link function 예: 로짓, identity 등)
$\mu_{ij} = \mathbb{E}(Y_{ij} )$
상관행렬 구조는 명시적 - 상관행렬 구조는 추정할 뿐 직접 모델링 하지는 않음 (Quasi-likelihood 기반)
목적 | 집단 수준의 평균 효과 추정 (population-averaged) |
효과 | 고정효과만 포함 (랜덤효과 없음) |
상관 구조 | working correlation matrix를 명시적으로 지정 (e.g., exchangeable, AR(1), unstructured) |
추정 | Quasi-likelihood (pseudo-likelihood based) |
결과 | 집단 평균(population average) 수준의 효과 추정 |
장점 | - 모델이 비교적 단순 - 추정값이 상관 구조에 대해 비교적 robust - 특정한 분포 가정이 필요 없음 |
단점 | - 개별 단위 예측 불가능 - 결측치에 민감할 수 있음 (특히 불균형 반복측정 시) - 샘플 수가 작을 경우 비효율적 |
🔷 추정 방식 (Estimation)
항목 | Mixed model | GEE |
방법 | Likelihood 기반 (ML, REML) | Quasi-likelihood 기반 (estimating equations) |
계수 추정 | MLE 기반의 정규분포 가정 | Score equation 기반으로 분포에 robust |
분산 추정 | 모델 기반 (likelihood에서 직접 나옴) | Empirical sandwich estimator 사용 (robust variance) |
정보기준 사용 | AIC/BIC 사용 가능 | 사용 불가 (likelihood 없음) |
🔷 효과 해석 (Interpretation)
항목 | Mixed Model | GEE |
계수 의미 | subject-specific effect: 개인별 변화 기준 | population-average effect: 전체 집단 평균 기준 |
예시 (로지스틱) | β\beta는 개인 수준의 log odds | β\beta는 집단 평균의 log odds |
주로 사용하는 목적 | 개인별 경향 추적 또는 개입 효과 분석 | 정책 효과나 평균적 개입 평가 |
참고: GEE의 population-averaged 계수는 Mixed model보다 통상적으로 더 보수적으로 나타남.
즉, log-odds 차이가 작게 추정되는 경향이 있음.
🔸 예시 비교 (Diabetic patients, HbA1c 추이 분석)
- Mixed model:
- 개별 환자마다 intercept와 slope가 다를 수 있으니, 이를 랜덤효과로 고려하여 모델링 → 개별 환자별 HbA1c 변화 경로 추정 가능
- GEE:
- 환자들의 평균적인 HbA1c 변화 패턴이 치료군 간 어떻게 다른지 알고 싶다 → 집단 차이에 대한 평균 효과 추정
✅ 언제 어떤 방법을 써야 할까?
집단 수준의 평균 차이만 보고 싶다 | GEE |
개인별 변화 경로가 중요하거나 예측이 필요하다 | Mixed model |
데이터가 균형 잡히고 샘플 수 많다 | GEE 또는 Mixed model 모두 가능 |
반복 측정 간격이 일정하지 않거나 결측 많다 | Mixed model 유리 |
'Biostat > Clinical Stat' 카테고리의 다른 글
의약품 허가규제에 대응하는 통계학자의 자세 (0) | 2024.03.22 |
---|