본 글은 Korea Summer Workshop on Causal Inference 2023의 내용을 주관적으로 정리한 글입니다. 추가적인 설명이 필요한 분들을 위해 원래 영상 링크를 같이 첨부합니다.
- 링크: [Week 3-4] 매칭
Week 3. Regression and Matching
3-4. Matching
Matching
- Observed 변수를 이용해 treatment group과 가까운(or 비슷한) control group을 구성하는 전략(or 방법).
- Regression과 비교
- (공통점) Observed 변수를 통해 treatment group과 control group의 특성을 유사하게 만들어 줌.
- (차이점) control 변수나 selection bias에 대한 함수적 가정(e.g. linear)을 하지 않음.
Regression | Matching | |
---|---|---|
Pros | - 다양한 그룹 내 비교를 위해 공변량과 고정 효과를 쉽게 포함할 수 있음 | - 공변량에 따라 샘플을 매칭하여 함수적 가정을 하지 않고 명확한 연구 설계(RCT 등) 제공 |
- 다양한 (실험)설정과 방법(RCT, DID, RD 등)으로 확장 가능 | - 처리군과 대조군 간 균형을 평가하기 쉬움 | |
- 모든 관측값을 유지 | ||
Cons | - 함수 형태에 민감함 | - (PSM) 성향 점수 추정(propensity score estimation)에 민감함 |
- 조건부 독립 가정(conditional independence assumption)을 평가하기 어려움 | - (모든 매칭 방법에서 해당, 특히 CEM) 더 작은 샘플 크기(통계적으로 덜 효율적이며 더 높은 분산으로 이어질 수 있음) |
Propensity Score Matching
- PSM은 Observed 변수가 주어졌을 때, treatment를 받을 확률, likelihood에 기반한 matching 방법.
- e.g. propensity score.
- propensity score가 비슷한 샘플끼리 매칭 함.
- Selection on observables
- PSM의 가정.
- (selection process에서) propensity score는 observed 변수를 통해 (모두) 설명할 수 있다.
- 예시
graph LR
A[Observed Variables] --Logit or Probit Model--> B
B[Propensity Score 계산] --Mathcing--> C[Matched Samples]
- PSM 옵션
- With(or without) replacement: control unit을 반복해서(or 반복하지 않고) matching.
- $k$ nearest-neighbor matching: 가까운 k개를 matching.
- Caliper matching: 특정한 threshold $c$ 거리 내에 있는 샘플 중 가까운 $k$개 matching.
- Radius matching: 특정한 threshold $c$ 거리 내에 있는 모든 샘플 matching.
- Kernel matching: Radius matching 결과에 특정한 kernel 함수로 weighting.
- Weighting on propensity score: Inverse probability weighting (IPW).
Inverse Probability Weighting
- IPW는 매칭된 데이터만 활용하는 것이 아니라, propensity score의 inverse 만큼 전체 샘플에 가중치를 두는 방법.
- Treatment를 받을 확률을 treatment group과 control group에서 같게 만들어 주게 됨.
- PSM v.s. IPW
- PSM은 매칭 방식(; option)에 따라 추정 결과가 달라질 수 있음(= high variance).
- IPW는 (전체 샘플을 사용하기에) 추정 결과의 variance는 줄일 수 있지만, (propensity score의 추정이 잘못되는 등의 문제로) bias가 커질 수 있음.
- IPW & Doubly robust methods → Propensity score 추정의 misspecification 가능성 완화 (; 나중에 설명 예정).
- IPW는 generalized methods 중 하나.
- IPW는 identification condition이 덜 까다로움.
Coarsened Exact Matching
- CEM은 observed 변수들을 특정한 개수의 bin으로 나누고 동일한 bin에 있는 샘플들을 matching하는 방법.
- PSM v.s. CEM
- CEM은 PSM에 비해 (일반적으로) 더 적은 샘플들이 매칭이 되어서 추정 결과의 variance가 높아질 수 있다.
- PSM은 propensity score의 유사함 또는 밸런싱에 대한 평가 뿐 아니라 covariates에 대한 유사함, 밸런싱에 대한 평가도 진행해야 한다.
Extensions of Standard Matching
- Standard matching
- Single treatment level 경우
- Static matching
- pre-treatment 기간의 covariates에 기반해 1번의 매칭.
- 매칭 결과를 분석 기간에서 유지함.
- Multiple levels of treatment
- 각 treatment level에 대한 여러 시점의 propensity score 들을 기반으로 matching
- Rolling entry matching
- 특정 시점 $t$의 treatment level에 대한 propensity score는 $t$ 시점 이전 covariates를 이용해 계산.
- Look-ahead matching
- Earlier treated units(; 분석 기간 내 treated)는 later-treated units(; 분석 기간 이후 treated)와 매칭 (contol unit과 매칭 대신에).
Limitations of Regression and Matching
- 두 방법 모두 ‘selection on observables’ 가정(; selection bias가 observed 변수들에 의해 설명될 수 있다)에 의존한다.
- ‘selection on observables’ 가정을 위해서는 control variables에 대한 design이 중요하다.
- Omitted variable bias에 대한 Sensitivity analysis가 유용할 수 있다.