[Review] 매칭
포스트
취소

[Review] 매칭

본 글은 Korea Summer Workshop on Causal Inference 2023의 내용을 주관적으로 정리한 글입니다. 추가적인 설명이 필요한 분들을 위해 원래 영상 링크를 같이 첨부합니다.

Week 3. Regression and Matching

3-4. Matching

Matching

  • Observed 변수를 이용해 treatment group과 가까운(or 비슷한) control group을 구성하는 전략(or 방법).
  • Regression과 비교
    • (공통점) Observed 변수를 통해 treatment group과 control group의 특성을 유사하게 만들어 줌.
    • (차이점) control 변수나 selection bias에 대한 함수적 가정(e.g. linear)을 하지 않음.
 RegressionMatching
Pros- 다양한 그룹 내 비교를 위해 공변량과 고정 효과를 쉽게 포함할 수 있음- 공변량에 따라 샘플을 매칭하여 함수적 가정을 하지 않고 명확한 연구 설계(RCT 등) 제공
 - 다양한 (실험)설정과 방법(RCT, DID, RD 등)으로 확장 가능- 처리군과 대조군 간 균형을 평가하기 쉬움
 - 모든 관측값을 유지 
Cons- 함수 형태에 민감함- (PSM) 성향 점수 추정(propensity score estimation)에 민감함
 - 조건부 독립 가정(conditional independence assumption)을 평가하기 어려움- (모든 매칭 방법에서 해당, 특히 CEM) 더 작은 샘플 크기(통계적으로 덜 효율적이며 더 높은 분산으로 이어질 수 있음)

Propensity Score Matching

  • PSM은 Observed 변수가 주어졌을 때, treatment를 받을 확률, likelihood에 기반한 matching 방법.
    • e.g. propensity score.
    • propensity score가 비슷한 샘플끼리 매칭 함.
  • Selection on observables
    • PSM의 가정.
    • (selection process에서) propensity score는 observed 변수를 통해 (모두) 설명할 수 있다.
  • 예시
graph LR

    A[Observed Variables] --Logit or Probit Model--> B

    B[Propensity Score 계산] --Mathcing--> C[Matched Samples]
  • PSM 옵션
    • With(or without) replacement: control unit을 반복해서(or 반복하지 않고) matching.
    • $k$ nearest-neighbor matching: 가까운 k개를 matching.
    • Caliper matching: 특정한 threshold $c$ 거리 내에 있는 샘플 중 가까운 $k$개 matching.
    • Radius matching: 특정한 threshold $c$ 거리 내에 있는 모든 샘플 matching.
    • Kernel matching: Radius matching 결과에 특정한 kernel 함수로 weighting.
    • Weighting on propensity score: Inverse probability weighting (IPW).

Inverse Probability Weighting

  • IPW는 매칭된 데이터만 활용하는 것이 아니라, propensity score의 inverse 만큼 전체 샘플에 가중치를 두는 방법.
    • Treatment를 받을 확률을 treatment group과 control group에서 같게 만들어 주게 됨.
  • PSM v.s. IPW
    • PSM은 매칭 방식(; option)에 따라 추정 결과가 달라질 수 있음(= high variance).
    • IPW는 (전체 샘플을 사용하기에) 추정 결과의 variance는 줄일 수 있지만, (propensity score의 추정이 잘못되는 등의 문제로) bias가 커질 수 있음.
      • IPW & Doubly robust methods → Propensity score 추정의 misspecification 가능성 완화 (; 나중에 설명 예정).
    • IPW는 generalized methods 중 하나.
      • IPW는 identification condition이 덜 까다로움.

Coarsened Exact Matching

  • CEM은 observed 변수들을 특정한 개수의 bin으로 나누고 동일한 bin에 있는 샘플들을 matching하는 방법.
  • PSM v.s. CEM
    • CEM은 PSM에 비해 (일반적으로) 더 적은 샘플들이 매칭이 되어서 추정 결과의 variance가 높아질 수 있다.
    • PSM은 propensity score의 유사함 또는 밸런싱에 대한 평가 뿐 아니라 covariates에 대한 유사함, 밸런싱에 대한 평가도 진행해야 한다.

Extensions of Standard Matching

  • Standard matching
    • Single treatment level 경우
    • Static matching
      • pre-treatment 기간의 covariates에 기반해 1번의 매칭.
      • 매칭 결과를 분석 기간에서 유지함.
  • Multiple levels of treatment
    • 각 treatment level에 대한 여러 시점의 propensity score 들을 기반으로 matching
    • Rolling entry matching
      • 특정 시점 $t$의 treatment level에 대한 propensity score는 $t$ 시점 이전 covariates를 이용해 계산.
  • Look-ahead matching
    • Earlier treated units(; 분석 기간 내 treated)는 later-treated units(; 분석 기간 이후 treated)와 매칭 (contol unit과 매칭 대신에).

Limitations of Regression and Matching

  • 두 방법 모두 ‘selection on observables’ 가정(; selection bias가 observed 변수들에 의해 설명될 수 있다)에 의존한다.
  • ‘selection on observables’ 가정을 위해서는 control variables에 대한 design이 중요하다.
    • Omitted variable bias에 대한 Sensitivity analysis가 유용할 수 있다.
이 기사는 저작권자의 CC BY 4.0 라이센스를 따릅니다.