《因果推断:从概念到实践》总结

1 基本信息

1.1 书籍名称:《因果推断:从概念到实践》

1.2 撰写作者:Matheus Facure

1.3 出版日期:在线文章

1.4 品读时间:2025-12~2026-01

1.5 整体耗时:约 45h

1.6 摘要

对因果推断的常见算法进行总结与实战分析,整体行文重视思路的引导,配合丰富 Python 代码示例,非常适合新手入门和上手;文章后半部分的进阶内容包含作者对因果推断先进方法的看法与总结,虽然在数学理论上不够严密,但作者将个人的推演思路和实践经验进行了很好地展示

#书籍总结

1.7 特点

内容深入浅出,既适合入门,也值得深挖

全文配套代码,理论结合实践,实用性强

文章思路前后贯通,但知识体系有些凌乱

1.8 评分:⭐⭐⭐⭐⭐

2 大纲

2.1 因果关系入门

来上一杯顶着厚泡沫的冰镇啤酒,假设顶上的厚泡沫是数据科学,那啤酒则是统计学基础、科学好奇心和对复杂问题的热情,我们应该学习和关注更实质的存在,而需要忽视泡沫

因果推断基础潜在结果框架 POM

2.2 随机实验

1_study/CausalInference/随机实验#随机对照实验

2.3 统计学回顾

莫弗(Moivre)方程: $$SE=\frac{\sigma}{\sqrt{ n }}$$

  • 其中 $SE$ 表示均值的标准误差, $\sigma$ 表示标准差,$n$ 表示样本容量
  • $SE$ 可用于量化实验结果的不确定性,样本越少,结果的波动性越大
  • $SE$ 可用于构建置信区间 $95%CI=[MEAN+2 SE,MEAN-2 SE]$

差异性检验

2.4 图因果模型

因果图以变量的独立性和条件独立性假设为基础,描述变量间的因果关系

结构因果模型 SCM

2.5 好用的线性回归

线性回归1_study/CausalInference/随机实验#随机实验示例 1

2.6 分组和虚拟回归

虚拟回归

2.7 混淆变量之外的考虑

1_study/CausalInference/随机实验#随机实验示例 21_study/CausalInference/随机实验#随机实验示例 3

COP 效应 $$ \begin{align*} &E[Y|T=1] - E[Y|T=0] \\ &=E[Y|Y>0, T=1]P(Y>0|T=1) - E[Y|Y>0, T=0]P(Y>0|T=0) \\ &=\underbrace{{P(Y>0|T=1) - P(Y>0|T=0)}}_{Participation \ Effect} * E[Y|Y>0, T=1] \\ &+\underbrace{{E[Y|Y>0, T=1] - E[Y|Y>0, T=0]}}_{COP \ Effect} * P(Y>0|T=0) \end{align*} $$

  • 实验目的与符号定义:评估营销活动 $T$ 对消费 $Y$ 的影响
  • 由上式可知,两组结果的均值差异由两部分组成(1)参与效应(Participation Effect),其描述了原本不参与消费客户的消费概率增加(2)COP 效应,其描述了原本就可能参与消费客户的消费增加
  • 启示:注意考虑所有从未参与营销的客户,否则对照组和实验组就失去了可比性

控制选择偏差: (1)避免引入干预与结果路径之间的中介特征 (2)避免引入同时受到干预和结果影响的特征

2.8 工具变量

工具变量法 IV

2.9 非服从性与 LATE

非服从性:受试者可能不服从安排和干预,比如医疗实验中的部分倔小孩

内部效度:在特定场景下可识别到的有效因果,比如工具变量法给出的 ATE

外部效应:将当前样本中发现的效应推广到其他人群中,关注效应的预测能力

局部平均干预效应(LATE)

  • 假设有一个实验,其目的是针对商场的营销活动进行效果评估
  • 实际推广后发现,部分非智能手机的用户收不到营销活动的推送
  • 因此该情况下估计的效应值是局部,仅针对具备智能手机的用户群体

工具变量法的结果只是对具有服从行为对象的局部平均干预效应(LATE)

2.10 匹配

子分类估计器(Subclassification Estimator)

  • 根据特征 $X$ 将样本划分为 $K$ 个不同的分组 ${X_{1},X_{2},...,X_{k}}$
  • 假设第 $k$ 的样本数为 $N_{k}$,干预组结果均值为 $Y_{k_{1}}$,对照组结果均值为 $Y_{k_{0}}$
  • 对组内干预与对照的比较并计算 ATE,最后对多组结果加权求和,得到最终 ATE

$$ATE=\Sigma_{i=0}^K(Y_{k_{1}}-Y_{k_{0}}) \times N_{k}/N$$

由于维度诅咒的存在,子分类估计器在实践中应用较少

匹配估计器:为每个干预组样本找到最相似的样本,构建对照组

2.11 倾向得分

倾向得分匹配法 PSM

2.12 双重稳健估计

双重稳健估计

2.13 双重差分法

双重差分法 DID

2.14 面板数据和固定效应

因果推断的不同算法假设

面板数据模型

2.15 合成控制

合成控制法

2.16 断点回归设计

断点回归设计

2.17 预测模型入门

机器学习

  • 一种快速、自动且精准预测方法,其本质在于学习复杂映射函数
  • 根据自定义的输入,映射到部分未知、但定义明确且可观察的输出

机器学习相关概念:损失函数]]、[[交叉验证

将业务问题转化为预测问题,那么机器学习就可能会是合适的工具

2.18 异质效应和个性化

异质性干预效应

2.19 评估因果模型

因果效应评价

2.20 可插拔建模流程

非参数机器学习

2.21 元学习

因果效应评估_元学习

2.22 双重机器学习

双重机器学习 DML

2.23 异质效应的非线性

干预效应不仅与结果变量相关,还与干预水平相关

  • 当干预结果是二元的,干预水平和干预效应之间往往呈现 Sigmoid 函数分布,此时应优先考虑干预水平在 50%左右的群体,此时导数最大,干预效应更好
  • 以营销活动为例,假设平均客户转换率较高(比如 80%),“助推”策略应优先考虑历史转化率(50%~60%)较低的客户,此时干预效应更好
  • 以新冠疫苗接种为例,由于患者的平均死亡率远低于 50%,因此“接种”策略应优先考虑死亡风险较高的中老年基础病患者,此时干预效应更好

导致干预效应异质性的关键复杂因素是结果函数 $Y(0)$ 的非线性

2.24 双向固定效应

双向固定效应 TWFE

2.25 合成差分法

合成双重差分法 SDID:融合双重差分法 DID合成控制法的优势

3 教学资源

英文原本(全)《Causal Inference for The Brave and True》 中文译本(仅前 21 章,且更新不及时)《因果推断:从概念到实践》

4 关键字

#因果推断

往年同期文章