본 글은 Korea Summer Workshop on Causal Inference 2023의 내용을 주관적으로 정리한 글입니다. 추가적인 설명이 필요한 분들을 위해 원래 영상 링크를 같이 첨부합니다.

Week 3. Regression and Matching

3-4. Matching

Observed 변수를 이용해 treatment group과 가까운(or 비슷한) control group을 구성하는 전략(or 방법).
Regression과 비교
- (공통점) Observed 변수를 통해 treatment group과 control group의 특성을 유사하게 만들어 줌.
- (차이점) control 변수나 selection bias에 대한 함수적 가정(e.g. linear)을 하지 않음.

	Regression	Matching
Pros	- 다양한 그룹 내 비교를 위해 공변량과 고정 효과를 쉽게 포함할 수 있음	- 공변량에 따라 샘플을 매칭하여 함수적 가정을 하지 않고 명확한 연구 설계(RCT 등) 제공
	- 다양한 (실험)설정과 방법(RCT, DID, RD 등)으로 확장 가능	- 처리군과 대조군 간 균형을 평가하기 쉬움
	- 모든 관측값을 유지
Cons	- 함수 형태에 민감함	- (PSM) 성향 점수 추정(propensity score estimation)에 민감함
	- 조건부 독립 가정(conditional independence assumption)을 평가하기 어려움	- (모든 매칭 방법에서 해당, 특히 CEM) 더 작은 샘플 크기(통계적으로 덜 효율적이며 더 높은 분산으로 이어질 수 있음)

PSM은 Observed 변수가 주어졌을 때, treatment를 받을 확률, likelihood에 기반한 matching 방법.
- e.g. propensity score.
- propensity score가 비슷한 샘플끼리 매칭 함.
Selection on observables
- PSM의 가정.
- (selection process에서) propensity score는 observed 변수를 통해 (모두) 설명할 수 있다.
예시

graph LR

    A[Observed Variables] --Logit or Probit Model--> B

    B[Propensity Score 계산] --Mathcing--> C[Matched Samples]

IPW는 매칭된 데이터만 활용하는 것이 아니라, propensity score의 inverse 만큼 전체 샘플에 가중치를 두는 방법.
- Treatment를 받을 확률을 treatment group과 control group에서 같게 만들어 주게 됨.
PSM v.s. IPW
- PSM은 매칭 방식(; option)에 따라 추정 결과가 달라질 수 있음(= high variance).
- IPW는 (전체 샘플을 사용하기에) 추정 결과의 variance는 줄일 수 있지만, (propensity score의 추정이 잘못되는 등의 문제로) bias가 커질 수 있음.
  - IPW & Doubly robust methods → Propensity score 추정의 misspecification 가능성 완화 (; 나중에 설명 예정).
- IPW는 generalized methods 중 하나.
  - IPW는 identification condition이 덜 까다로움.

CEM은 observed 변수들을 특정한 개수의 bin으로 나누고 동일한 bin에 있는 샘플들을 matching하는 방법.
PSM v.s. CEM
- CEM은 PSM에 비해 (일반적으로) 더 적은 샘플들이 매칭이 되어서 추정 결과의 variance가 높아질 수 있다.
- PSM은 propensity score의 유사함 또는 밸런싱에 대한 평가 뿐 아니라 covariates에 대한 유사함, 밸런싱에 대한 평가도 진행해야 한다.

Standard matching
- Single treatment level 경우
- Static matching
  - pre-treatment 기간의 covariates에 기반해 1번의 매칭.
  - 매칭 결과를 분석 기간에서 유지함.
Multiple levels of treatment
- 각 treatment level에 대한 여러 시점의 propensity score 들을 기반으로 matching
- Rolling entry matching
  - 특정 시점 $t$의 treatment level에 대한 propensity score는 $t$ 시점 이전 covariates를 이용해 계산.
Look-ahead matching
- Earlier treated units(; 분석 기간 내 treated)는 later-treated units(; 분석 기간 이후 treated)와 매칭 (contol unit과 매칭 대신에).

두 방법 모두 ‘selection on observables’ 가정(; selection bias가 observed 변수들에 의해 설명될 수 있다)에 의존한다.
‘selection on observables’ 가정을 위해서는 control variables에 대한 design이 중요하다.
- Omitted variable bias에 대한 Sensitivity analysis가 유용할 수 있다.