本文从以下六个方面来阐述
一、基本概念
因果关系Causality指的是Cause和Effect,在很多领域被广泛应用,例如数据分析, 哲学、心理学、经济学、教育和医学等。
Causation和Correlation的区别,因果关系的存在,必然会伴随着相关性。但是,从因到果还需时间上的先后顺序、以及合理的机制等。因此,相关性只是因果关系的必要不充分条件。相关性并不一定代表着有因果关系。
因果推断和因果发现,因果发现是是通过计算方法从大量数据中识别因果关系,因果推理是根据结果发生的条件对因果关系作出结论的过程。
Experimental Study和Observational Study,实验学习中样本是随机的,treatment group和control group都是随机分配的,但是Observational Study中Treatment的分配一定是有策略的,非随机的。
因果推断有两个经典框架,一个是基于Judea Pearl的结构因果模型Structure Causal Model,一个是基于Rubin提出的Potential Outcome Framework。不过二者在底层原理上也是相同的。下面重点介绍一些Rubin的POF框架中的相关概念。
1. ATE,Average Treatment Effect,人群级别的评估指标,计算方式如下
2. ITE,Individual Treatment Effect,个体级别的评估指标,计算方式如下
3. CATE,Conditional Average Treatment Effect,Subgroup级别的评估指标,计算方式如下
重要概念:Confounders
Confounder是指实验中的一种变量,同时影响了Treatment,又影响了outcome,当实验中农存在这种变量时,便可能出现辛普森悖论。
上述表格中Age便是一个Confounder,age同时影响了治疗方式Treatment,又影响治疗效果,所以分组数据Young和Older,结论都是Treatment B的治疗效果更好,但是总体数据却得出Treatment A的治疗效果更好,这就是辛普森悖论。
重要概念:Selection Bias
Selection Bias是指观测组的数据分布不具有代表性,直白点来说就是X和Treatment之间不是相互独立的,会存在偏差。Confounder变量的存在会影响Unit对于Treatment的选择,进而导致了selection bias,进而selection bias又会使得counterfactual outcome的预估变得更加困难。
结论:Confounder好Selection bias是Causal inference中的两个重大难题,很多方法都是在着力解决这两大问题。
1. Re-weighting methods,核心思想:为了解决数据中存在的selection bias,通过给观察数据集中的每个样本分配适当的权重,建立了一个伪总体,在这个伪总体上实验组和对照组的分布是相似的,权重的计算通过propensity-score methods来求解。
2. Mathching methods,核心思想:通过距离函数计算,将相似的数据分别分到实验组和对照组,该方法在估计反事实的同时,减少了由混杂因素带来的估计偏差。使用较多的matching方式时propensity score matching。
3. Tree-based methods,核心思想:是一种基于决策树的预测模型,如分类树和回归树。在CART中,一棵树被建立直到达到分裂容忍。这里只有一棵树,可以根据需要进行生长和修剪
4. Stratification methods,核心思想:也是为了解决数据中存在的selection bias,通过将整个组分成子组来调整选择偏倚,在每个子组中,处理组和对照组在某些测量下是相似的
5. Multitask Learning methods,实验组和对照组使用不同的模型,共享一些共同的特点
6. Meta-Learning methods,例如:S-learner,T-Learner,X-learner,R-learner等,是一个系列的解决方案。
核心思想:在original data space中执行matching是简单方便的,但是缺点是容易被不影响outcome的变量所误导,因此,可以映射到subspace进行matching来解决该问题。存在的方案有
这里给大家分享几篇经典论文
该方法将因果推断和深度学习相结合,分为以下三类
这里给大家推荐几篇经典论文
联系客服