本书的第二部分以经典随机试验为分析对象。书中介绍了四种随机试验:伯努利试验,完全随机试验,分块随机试验,以及分块随机试验的极端形式—配对随机试验。上一篇介绍了经典随机试验的分配机制所必需满足的条件:个体独立性,概率规范性,非混淆性,分配机制可控性。虽然每个个体都以严格大于0,小于1的概率进入试验组(控制组),但是在不同的随机试验下,同样的分配向量可能具有不同的实现概率。这四种分配机制的不同主要就体现在正概率分配向量集合的不同。
假设有N个个体,那么在伯努利试验中,一共有2的N次方个分配向量,而且每一个分配向量出现的概率都严格大于0。这也就可能导致所有个体都进入试验组或者所有个体都进入对照组这类对于因果推断不能提供任何信息的情况的出现,这样会对分析的可靠性造成损害。而其它三种随机试验通过对于正概率分配向量集合不断增加限制来提高因果推断的精准度。
四种随机试验的定义如下:
伯努利试验:每个个体是否得到处理独立于其它个体是否得到处理。
完全随机试验:从N个个体中随机抽取一定数量的个体组成试验组,余下的作为对照组。
分块随机试验:把全体对象按照对潜在结果具有预测能力的协变量进行分块,使属于同一块的个体在这些协变量上具有较大的相似性,比如按照性别分块,学历分块等等。然后在每一块内部,进行完全随机试验,不同块的完全随机试验互相独立。
配对随机试验:分块随机试验的一种极端形式—每块恰好只有两个个体,通过抛掷一枚均匀的硬币来决定每一对里究竟哪个个体进入试验组。
对于上面的定义简单做两点解释:
- 在伯努利试验的定义里提到的“独立”和对随机试验的个体独立性要求是不同的,上一篇讲过,个体独立性是指任意个体得到处理的概率独立于其它个体的协变量和潜在结果。我们最熟悉的伯努利试验就是抛硬币,对于每个个体,我们都抛一次硬币,规定正面朝上就处理,我们很容易就能够验证对每个个体抛硬币都不依赖于对其它个体抛硬币的结果,并且伯努利试验满足个体独立性要求。但是,后面提到的三种试验中,可能出现某个个体是否得到处理依赖于其它个体是否得到处理的情况,但是它们依然满足个体独立性。
2. 完全随机试验对应概率论里常见的不放回抽取。
从上面的定义可以看出,四种随机试验对正概率分配向量集合的限制在严格性上是递增的。这样做的理由在于排除那些“不太有用”的分配向量,“不太有用”是指它们不太可能有助于我们进行精确的因果推断。一个所有个体都进入试验组或者所有个体都进入对照组的分配向量能够为我们提供的信息少于一个更为平衡的分配向量(比如一半个体进入试验组,另一半个体进入对照组),这使得完全随机试验比伯努利试验更好。当分块的依据是对潜在结果具有预测力的协变量时,从完全随机试验转到分块随机试验和配对随机试验也具有类似的好处。然而, 如果分块的依据与潜在结果并没有关系,那么完全随机试验和分块随机试验(配对随机试验)在因果推断的精度方面并没有显著不同的作用。
本书接下来分别介绍了四种处理随机试验的方法:Fisher的P值方法,Neyman的重复抽样法,回归方法,以模型为基础的推断方法。由于篇幅限制,本篇先介绍前两种方法,回归方法(我们的老朋友)和模型推断法放到下一篇再详细介绍。经济学的实证工作中因种种限制而较少进行经典随机试验,经济学者更多时候手头上只有观测性数据。那么,作者在这里介绍各种处理随机试验的方法对我们有什么帮助呢?我们都知道完全竞争市场这一假设和由它推出的一系列非常漂亮的结论都跟实际情况出入很大,但是我们把它当作一个benchmark。这一逻辑同样适用于本书对经典随机试验的讨论。对随机试验的分析可以为观测性数据的研究提供一个模版,我们在做实证工作的时候绞尽脑汁地使用诸如DID, PSM,IV,RD之类的手段,不就说为了使因果分析的可信度接近于随机试验吗?况且,现在已经还有不少学者通过做RCT(Random Controlled Trials)来研究经济学的问题呢,本书在讲Neyman的重复抽样法时就就以Duflo, Hanna, and Ryan(2012)中的随机试验数据为例。这一随机试验是在印度农村展开的,以金钱激励对教师表现的作用为研究对象。
现在来介绍 Fisher的P值方法。给定来自于一个完全随机试验的数据,Fisher希望评估这样一个原假设:对于每一个个体,其两种潜在结果完全一样,处理没有任何效果。书中将这样的原假设称为sharp null hypothesis,我没有找到比较好的翻译方法,所以就姑且称之为Fisher原假设吧。Fisher建立了一套方法来计算P值,书中简写为 FEP( Fisher Exact P-values),当然我们现在对P值法的应用范围比 Fisher最初提出时要广。题外话,对统计学的发展历史,尤其是Fisher,Neyman这些统计大神感兴趣的读者,可以参考The Lady Tasting Tea,豆瓣评分9.0。
在介绍Fisher的P值方法之前,还需要引进一个概念—统计量。统计量是分配向量,潜在结果的实现值,以及协变量的函数。在Fisher原假设下,我们可以确定统计量的分布。统计量的随机性完全来自于分配向量的随机性,潜在结果被看作是固定的。有了统计量的分布,我们可以知道实际观察到的统计量的取值在分布中的位置。如果观察到的统计量在原假设下非常不可能出现,这会被当作不利于原假设的证据。这样的逻辑本质上就是数学中常用的反证法的一个“随机”版本。我们观察到的统计量要“多不可能出现”才会让我们推翻原假设,这需要预先设定一个临界值。具体来说,我们可以计算原假设下统计量的分布,我们从该分布中抽取一个数,这个数大于等于我们观察到的统计量的数值的概率就是P值(也就是统计量分布的密度函数在观察到的统计量右边所覆盖的面积),如果P值小于我们选取的临界值,我们就会拒绝原假设。
FEP包括如下两步:
1. 选取一个Fisher原假设,不一定只能是前面提到的每个个体的两种潜在结果完全相同的版本,只要可以使我们把所有没有实现的潜在结果(即缺失值)也推断出来即可。比如,每个个体的两种潜在结果之间相差一个常数,或者一个倍数都可以。
2. 选取一个统计量。选取的统计量应该对原假设和研究人员关心的备择假设之间的差别具有敏感性。用专业的术语来讲,统计量应该具有较强的统计检验功效,即在原假设错误的情况下拒绝原假设的概率。
FEP是非参数方法,因为它并不依赖于一个由一系列未知参数确定的模型。特别地,FEP不对潜在结果的分布建模,潜在结果在这里被当作固定但是事前未知的量。被观察到的潜在结果以及统计量的随机性完全来自于分配机制,一个个体最终实现哪个潜在结果是由分配机制随机决定的。
原假设的选择不再需要细讲,唯一需要注意的是,Fisher原假设中强调对于每一个个体,处理都是没有作用的,这和处理在平均意义上没有作用是完全不同的,而处理在平均意义上的作用是Neyman所关心的。
书中花了比较大的篇幅介绍各种不同的统计量。最流行的统计量自然是分别计算试验组和对照组实现结果的均值,然后将二者相减再取绝对值。如果我们不是用均值,而改为用分位数,那么我们就得到了分位数统计量。我们还可以将结果取对数再求均值。此外,还有常见的t统计量,次序统计量,Kolmogorov-Smirnov统计量,以模型为基础的统计量等。有如此多不同的统计量,统计量的选择就需要认真考虑了。原则上,统计量的选择需要同时考虑比较可信的备择假设是什么,以及潜在结果在原假设和备择假设下分别服从什么分布。
假设我们怀疑实验组的潜在结果是对照组的潜在结果的倍数,而原假设是处理对每个个体都没有作用,那么将结果取对数后再分别求不同组的均值并相减再取绝对值(有点绕,但是在不写一个数学公式的情况下,这算是比较自然的描述了。。。)得到的统计量就是自然之选。因为当我们的怀疑正确时,这样的统计量对备择假设(实验组的潜在结果是对照组的潜在结果的倍数)会比不取对数直接计算均值得到的统计量更为敏感,也就是说前者比后者具有更强的检验功效。
如果观察到的潜在结果的经验分布有离群值,原假设依然是处理对每个个体都没有作用,而备择假设是每个个体潜在结果之间相差一个固定的常数,那么计算不同组的均值相减再取绝对值得到的统计量就只具有很低的统计检验功效。在这种情况下,用对极端的离群值不太敏感的统计量就更好,比如中位数,次序统计量,或者切尾平均值等。
作者进行了一个模拟,以研究不同的统计量在对结果的分布进行的不同设定下分别具有多大的统计检验功效。总的来看,次序统计量在一系列不同的设定下都有很好的表现,而其它统计量的检验功效在不同的设定下起伏很大。比如当生成的数据满足每个个体潜在结果之间相差一个固定的常数时,均值统计量的表现很好,但是一旦引入极端的离群值,均值统计量的检验功效就大打折扣,而次序统计量的效果依然稳健。
花了大量篇幅介绍Fisher的方法,接下来我们简要介绍一下Neyman的方法。差不多在Fisher建立FEP的同一时期,Neyman开始关注平均处理效应的估计和推断问题。Neyman对于从总体中重复抽样和随机分配机制下的统计方法及其特征感兴趣。Neyman关心的基本问题是,如果所有的个体都被放入试验组,平均结果是多少?如果把所有个体都放入控制组,平均的结果又是多少?更为重要的是,这两个平均结果之差上多少?这就是前面提到的平均处理效应。平均处理效应是无法被观察到的,因为它的计算需要知道所有的潜在结果,而其中一半都是无法被观察到的。在Neyman的分析中,我们不能依据一个假设把所有缺失的潜在结果推断出来。然而,我们仍然能够对潜在结果的一些特征进行估计,比如一阶矩和二阶矩。Neyman希望得到平均处理效应的无偏估计量,并且构造置信区间。无偏估计量是指估计量的期望等于我们希望估计的对象,这里的求期望也是针对分配机制的随机性进行的,潜在结果仍然被认为是固定的。置信区间是一个随机区间,该区间以一定的概率包含我们想要估计的值,这里的概率是一种频率意义上的解释,指我们做一百次这样的随机试验,大概有一定比例(常见的99%,95%,90%)的试验中,置信区间包含真值。在频率学派的语境下,置信区间的解释离不开重复抽样。
一个很自然的统计量就是实验组和对照组平均结果的差值,这一统计量是平均处理效应的无偏估计。有了统计量,接下来可以讨论置信区间。置信区间的构建分为三步:
- 推导这一统计量的抽样方差,具体的数学推导这里不展开。
- 估计上一步推导出的抽样方差。
- 利用中心极限定理以及第二步估计出的抽样方差构建置信区间。
有了统计量和抽样方差,也可以构建t统计量进行假设检验。但是Neyman框架下的假设检验跟Fisher的FEP有两点不同。首先是原假设的不同,Fisher的原假设是对任何个体进行处理都是没有作用的,而Neyman的原假设是平均处理效应为零。其次,Neyman的假设检验要依赖于大样本下的正态性质,而Fisher的P值法不需要依赖于大样本。
关于Neyman的方法有一点需要强调,在Neyman的框架下,潜在结果仍然是固定的,通过引入分配机制的随机性,我们给统计量赋予了一定的随机性,这点在Fisher和Neyman中都是一样的,我们刚才提到的Neyman的分析方法也可以只依赖于这一随机性。不同的是,Neyman还引入了一个“总体”的概念,我们前面分析用到的个体只是从拥有无数个体的总体中随机抽取出来的,通过引入从总体中抽样的随机性,Neyman的分析框架下随机性有两个来源。通过迭代,我们可以证明前面提出的统计量(实验组和对照组平均结果的差值)也是总体下平均处理效应的期望值的无偏估计量。