因果效应评估之配平法
- 通过加权或筛选样本,将两组数据进行调整对齐
- 配平法主要用于解决可观察数据内存在的数据偏差
- 配平法需要同时满足独立性假设和条件无混杂性
配平法的常见算法:回归调整、倾向得分匹配、熵平衡、双重稳健估计
虚拟回归
虚拟回归(Regression for Dummies)
- 将是否干预表示为 0-1 虚拟变量,其回归系数描述了组间均值差异
- 引入虚拟协变量和交互项,也有助于改善线性模型的因果效应评估性能
缺点:建模能力弱,只能捕捉到变量之间的线性关系
异方差性(heteroskedasticity)
- 特征值之间的方差不是恒定不变的,存在低方差区域和高方差区域
- 比如说,随着年龄的增加,老年人的工资方差是高于年轻人的
- 该问题常见于样本量偏小的情况,此时建议采用加权最小二乘法
- 对于线性模型,样本量更大、方差更小的数据点应该被赋予更高的权重
当使用 Python 的 statsmodels 包进行线性回归建模时,可以将
statsmodels.formula.api.ols函数替换为statsmodels.formula.api.wls;即可将普通最小二乘法替换为加权最小二乘法
倾向得分匹配法 PSM
倾向得分匹配法(Propensity Score Matching,PSM)使用倾向得分值作为依据,从控制组中寻找与实验组的样本最接近的配对样本;从而最大程度减少实验组与控制组个体存在的系统性差异,从而减少估计偏误
前置知识/基本概念:
- 干预效果(Treatment Effect,TT):干预下的结果减去未干预时的结果 $\tau=Y_i(1)-Y_i(0)$
- ATT(Average TT on the Treated):用户的整体平均干预效果 $\tau_{ATT}=E(\tau|D=1)$
- 倾向性得分(Propensity Score):用户受到(参与)干预的概率 $P(D=1|X)$
%3E 其中$X$表示协变量,$Y$表示结果,$D$表示是否受到干预
倾向得分匹配法的前置假设:
- 给定可观测的协变量$X$,潜在结果和干预分配是相互独立的(CIA)
- 控制组和实验组之间存在共支撑(Common Support),即不能给定$X$准确确定$D$
倾向得分匹配法的计算过程:
- 选择合理的协变量,并使用逻辑回归(或其他分类模型)预测倾向性得分;所以倾向得分值,可看作将多个协变量维度降为1个维度的结果
- 为每个被干预的样本匹配一个(或多个)的对照样本,常用匹配方法包括:最近邻匹配(有放回/无放回)、有边界限制的半径匹配(避免低质量匹配的风险)、分层区间匹配(先按照重要特征分组,再在组内使用其他匹配方法)
当实验变量为连续值时,需要进行离散化处理以方便分组匹配
协变量的选择:
- 要权衡,太多不容易找到匹配项,太少缺乏匹配结果的说服力
- 原则1:同时影响干预分配和结果的变量应该被包括(使CIA成立)
- 原则2:被干预项影响的变量应该排除(变量需要在干预项前计算)
- 实际应用时:先选取尽可能多的特征,再使用常规的特征筛选方法
PSM 算法的匹配质量检验:
- 标准化偏差:衡量$X$在实验组与对照组分布的差异,或差异减少量
- 双侧T检验:判断两组的变量均值$\overline{X}$是否有显著差异
- 建模预测验证或F检验:无法通过$X$预测用户是否受到干预
PSM 算法的局限性:
- 样本量尽可能大,否则可能导致算法在控制组找不到匹配度高的样本
- 控制组和实验组之间的倾向得分应该有较大共支撑部分,否则会丢失较多样本,失去代表性
- PSM 只能缓解由可观测变量带来的内生性问题,无法处理不可观测变量带来的内生性问题
在 King and Nielsen 2019提出的论文中;提议将倾向得分与逆概率加权 (IPW) 一起使用,即不再只考虑匹配后的样本对,而是将匹配概率(倾向得分)转化为样本权重来进行建模
熵平衡
熵平衡(Entropy Balancing)算法的目标和 PSM 很像,只是实现过程中存在些许区别:
- 熵平衡算法通过对样本加权,实现对照组与处理组的协变量(均值、方差和偏度)平衡
- 具体来说,熵平衡算法以最小化熵距离为目标,添加一组矩约束来计算熵权重 $w_i$
$$minH(w_i)=\Sigma_{i|D=0}w_ilog(w_i/q_i)$$
此处公式参考自基于熵平衡法的协变量平衡性检验
细节上感觉没说清楚,有空再看一下原始论文补一下基础
熵平衡 VS PSM:
- 在小样本时实现匹配(即平衡掉干扰协变量的影响)的效率更高
- 估计最终的因果效应时可用于非连续性的因变量,因而适用性强
熵平衡算法的局限性:
- 将所有变量同等对待,容易把过多变量考虑为混杂变量
双重稳健估计
双重稳健估计(Doubly Robust Estimation):将线性回归与倾向得分相结合
双重稳健:同时应用两种方法来消除因果估计中的偏见,两种方法起到双重保险的作用;换言之,如果倾向得分是正确的,即使建模结果是错误的,该方法也能够识别因果效应。另一方面,如果建模结果是正确的,即使倾向评分模型是错误的,该方法也能够识别因果效应