数据并不是越多越好
统计本身是一门收集数据的科学,但是数据是不是越多越好呢?很难说。
历史上有一个非常有名的例子。大约500年之前,丹麦有一个天文学家叫第谷,他从当时的丹麦国王那里要了一笔钱,建了一个实验室。第谷天天去观察每颗行星的运动轨迹,并且每天记录下来。于是第谷观察了20年,记录了大量的数据。不过,这个数据太多了,第谷花了大量时间、精力来分析这个数据,但没有发现任何规律。
这时候,一个叫开普勒的人出现了。开普勒认为,第谷每天去观测,一年365天每一颗行星都会有365个数据,这样20年观测记录积累下来,要分析处理的数据就太多了,而且那个时候的数据分析只能依靠手工计算,这个处理工作量实在太大了。于是开普勒就说,能不能每年只给我一个数据,比如说你可以只告诉我每年的1月1日,地球在什么位置,土星在什么位置,太阳在什么位置,等等。这样20年的观测数据筛选之后,每一颗行星的数据就只有20个了。开普勒知道,地球每隔365天会回到同一个位置,然后他把地球的位置固定,再分析其他行星跟地球的相对位置。开普勒通过固定地球的位置,对其他行星位置20年的数据进行分析,就成功得到了其他行星的运行轨迹。此后开普勒就发现,如果地球位置不变的话,那么其他行星的20年运行轨迹画出来之后,这些行星都是围着太阳运转,运行轨迹都是椭圆形的。由此开普勒发现了行星运动的规律。
从这个天文学上的著名案例,我们可以看出来,数据太多可能会导致信息量变得巨大,反而增加寻找到规律的难度。从而需要通过科学的方法简化数据。
关于这方面的案例还有不少。比如说美国总统富兰克林·罗斯福。他是美国历史上唯一一位连任四届的总统。1932年的时候他第一次当总统,当时美国和许多国家正在遭受经济危机,罗斯福面临的压力也很大。因此到了1936年罗斯福想竞选自己的第二任总统的时候,美国许多人预测罗斯福很难连任。那一次,罗斯福的主要竞选对手是兰登。当时就有两个机构在预测总统选举结果,其中一个是《文学文摘》杂志,它在当时是一个非常有影响力的刊物,因为这个杂志此前几次对总统选举结果的预测都成功了。到了1936年美国总统选举的时候,文学文摘搞了一个大的调查统计,它调查了240万人。具体方式就是在杂志里面夹上关于总统选举的调查问卷,然后收集反馈。其实当时文学文摘调查的还不止240万人,还要更多,只不过最后收回来的有效问卷是240万份。正是根据这个调查结果,文学文摘宣布他们预测兰登将战胜罗斯福赢得大选。
而当时还有一个机构,准确地说是一个年轻人,叫盖洛普,他的预测结果跟文学文摘的预测正好相反。起初盖洛普做这类调查统计,是因为他的母亲要竞选众议员,他是给他母亲帮忙,于是就在经费不多的情况下做了对较小人群的相关调查,然后这个调查结果很成功,他母亲当上了众议员。接下来他就想调查一下,罗斯福和兰登谁会赢得1936年竞选。但是他比不了文学文摘的财大气粗,所以他只调查了5000个人,根据这5000人的调查结果,盖洛普预测罗斯福当选。
结果罗斯福果然成功连任总统,盖洛普的预测胜利了。
这个选举结果出来之后,对《文学文摘》杂志的声誉造成了巨大的冲击:毕竟文学文摘调查了240万人,最后却发布了一个错误的预测,而盖洛普只调查了5000人,发布的预测却是正确的。结果,文学文摘因为这个事情后来就关门倒闭了。而那个年轻人盖洛普,就此成立了一个民意调查公司,也就是现在的盖洛普咨询公司。
这是事情的结果。那么为什么调查了5000人的预测,要比调查240万人的结果更准确呢?我们先不说240万这种海量数据,它在规模变大以后会带来计算效率的下降,我们也不提这类海量收集数据会导致成本居高不下的问题。根本的原因,是当时文学文摘通过杂志夹带问卷进行调查的这种方式。因为当初问卷是夹在杂志中发放的,所以文学文摘收集来的240万份有效问卷,实际面对的都是订阅了这份期刊的用户。那么,当时什么样的家庭会订阅这样的杂志呢?一般来说都是家境比较好的家庭,所以,文学文摘虽然号称调查了240万人之多,但是它调查的主要群体,是当时美国国内相对而言有钱的那部分人。而穷人群体的意见,它这个调查实际并没有覆盖到。
数据的量多不一定就代表准确,收集来的数据质量好、有代表性,才有可能分析出准确的结果。
统计学是一门分析数据的艺术
前面举了一些例子,提醒我们需要非常小心地设计方案收集数据。数据收集上来之后,我们还要做数据分析。按照前面大不列颠百科全书的说法,统计学同样是一门分析数据的艺术。
讲到数据分析,在这里我只讲两个基本概念:相关与因果。为什么讲这两个概念呢?这是因为人们常常混淆这两个概念,常常会把相关关系误以为是因果关系。在许多科学研究和政策问题评价中,我们更关心因果关系。但是,当我们看到了某种形式的相关关系后,常常会误以为这就是我们追求的因果关系了。
比如说,在中世纪的欧洲,很多人相信,虱子对人的健康是有帮助的。这是因为当时人们发现,得病的人身上很少有虱子,而健康人的身上反而是有虱子的。这是长期的观察累积下来,形成的经验。在中世纪的欧洲,很长一段时间里人们都根据这个经验,得出这样一个因果推论:这个人身上有虱子,所以他身体健康,那个人身上没虱子,说明他身体不健康。
当时,人们确实观察到虱子的存在与否跟人是否健康构成了相关关系,但是,这是因果关系吗?有了温度计以后,人们就发现了,这不是真正意义上的因果关系:因为虱子对人的体温非常敏感,它只能在一个很小的温度区间范围生存下来。而人体一旦生病的话,很多时候会出现发烧症状。人体一发烧,温度变化,虱子就无法适应发烧时候的热度,于是跑掉了。如果我们只停留在观察到健康与否和虱子多寡之间存在关系,那实际只是相关关系,而不是因果关系。与之类似的例子还有很多,比如说,我们看到每年冰淇淋销量增加的同时,各地不幸溺亡的人数也在增加。那么这两件事情是不是构成因果关系呢?常识告诉我们,肯定不是。其实是因为每年气温升高之后,游泳的人可能就多了起来了,随之溺亡人数也就相应增加了。而同样是因为气温升高,冰淇淋的销量也会增加。
也就是说,如果我们观察到一个因素出现了一点点变化,另外一个因素也会随着跟它变化,它们之间可能就有相关关系,但是这种相关关系,并不意味着这两个因素构成因果关系。
如何判断因果关系呢,这就需要我们非常小心,而且要非常艺术地做数据分析了,我们最终还是要回到统计学上来。
这里,我们举一个历史上的疾病案例,这就是小儿麻痹症,也就是脊髓灰质炎。现在大家看到的小儿麻痹症病例比较少,因为现在有相应的疫苗。历史上,脊髓灰质炎曾经是一个让人非常害怕的疾病。
在20世纪50年代,当时美国一所大学的实验室,做出了一种针对这个疾病的疫苗,已经证明它在实验室条件下能够产生有效的抗体。但是他们不知道,如果应用到实际生活中的大规模实验,这个疫苗还会不会有效。所以当时美国政府部门就决定要做实验,这个时间大致在1954年。因为当时脊髓灰质炎的患者主要是孩子,所以当时的实验人群定为小学一二三年级的学生。怎么做实验才能够真正说明疫苗是否有效呢?为了确保统计结果最终反映真实的因果关系,当时提出了五套实验方案。
第一套方案是,因为1953年之前是没有这个疫苗的,所以就从1954年开始,给所有的一二三年级小学生接种疫苗,最后再来看一下,1954年的发病率,跟1953年相比,会不会有差别。这个方案是个办法,但是它有问题,因为之前每一年的脊髓灰质炎发病率的差别比较大。比如说1951年全美可能有3万名脊髓灰质炎患者,1952年则有6万名,而1953年又可能缩减到不足4万名。这个脊髓灰质炎每年发病率的波动都比较大,万一到时候实验结果是3万名到4万名之间,如何判断这个结果是随机变化的,还是疫苗发生了作用?
第二个方案则提出要按照地区来做。比如,在纽约地区,就给一二三年级小学生们全部接种疫苗,而在芝加哥地区的就全部不接种疫苗,然后来统计,纽约和芝加哥这两个地区的脊髓灰质炎发病情况。这个方案后来发现也不行。因为脊髓灰质炎本身就是传染病,一个地区可能流行这个疾病了,而另外一个地区就可能没流行,那么这两个地区的数据看起来就会有差异,但是这不是疫苗的效果,不具有可比性。
于是就有人提出了第三个方案。因为当时这个疫苗接种,谁也不知道有没有副作用,因此是有一定风险的。所以这个方案就提出,让接种疫苗的孩子们的父母来自行选择。有的家长选择给孩子接种疫苗,有的就不选择接种,这样同一批孩子就会出现不同的对照。但是这么做,也有问题。因为当时人们已经发现,脊髓灰质炎的患者一般来自于家境比较好的家庭。这是因为,那些家庭经济状况比较差的家庭,因为生活条件差,卫生条件不好,可能一个人很早就接触过脊髓灰质炎的病毒了,甚至很可能在刚刚出生的时候就接触了脊髓灰质炎的病毒,但是刚出生的婴儿是有母体的免疫力的,婴儿凭借母体的免疫力,接触这个病毒之后能够产生抗体,反而不会得病。当时的这类数据情况已经展现了这种现象。如果采用自愿接种的方式,那些经济状况比较好的家庭,往往愿意让自己的小孩去接种,而经济状况不好的家庭由于经费原因,同时也知道自己这个阶层染病率稍微低一些,他可能就不愿意接种了。这样就造成了对实验结果的干扰,你无法判断到底是疫苗有效还是经济原因导致的不同结果。
然后是第四个方案。有人提出,只让二年级的学生接种,而一年级和三年级学生不接种。之后再比较接种的跟不接种的学生之间的区别,看他们的发病率会不会有差别。这个方案是当时的一个脊髓灰质炎防治委员会提出的方案。这个方案同样行不通,第一,它同样无法避开接种孩子家庭贫富差距导致的患病概率差异。第二,脊髓灰质炎是一种传染疾病,人群的年龄是对这种传染有影响的,一、二、三年级的学生年龄层次有差别,可能就会导致各个年级学生得病概率的差异。此外这个方案还有第三个重大缺陷,那就是可能会对医生形成心理上的诱导。如果按照这个方案执行下去,医生们就是知道的,一、三年学生没有接种疫苗,而二年级同学中有部分同学接种了疫苗。当时脊髓灰质炎的诊断还不太容易,如果医生已经知道了这个疫苗接种方案,而且也提前知道这个疫苗在实验室阶段是管用的,那么医生在面对一年级学生时,一旦这个疾病还无法确诊,那么这个医生就很可能根据“一年级学生没有接种疫苗”“疫苗是有效的”这两个提前的认知,就直接诊断这名一年级学生得了脊髓灰质炎。而且这种区别对待的方案,接种的学生本身心理也会受到影响的。
当时还有第五个方案,也就是最终执行并被采纳了调查结果的方案。这个方案具体来说,就是在征得学生家长同意之后,仍旧会告诉家长:你即使同意接种疫苗,我给你家孩子接种的,也不一定是疫苗,而是一种看起来跟疫苗一模一样的安慰剂,没什么副作用也没有什么效果。因为这个安慰剂跟疫苗.长得一样,所以医生和学生都不知道到底接种的是疫苗还是普通的安慰剂,但是疫苗提供方是知道的,它对每一个药品都加了编号,因此疫苗提供方知道哪些是安慰剂,哪些是疫苗。通过这样的方式,实验室实现了随机的方式接种疫苗,而且无论家境好坏,这个接种疫苗都是随机的。同时医生们也不知道,到底是哪一些小孩接种了疫苗。这就规避了年龄、经济条件等各种扰动,有助于确定脊髓灰质炎与疫苗之间真正的因果关系。
1954年,这个实验大约有74万名小学生参与。最终的实验结果是,如果接种疫苗,孩子罹患脊髓灰质炎的概率大约是十万分之28,如果不接种疫苗,患病概率大约是十万分之77,二者相差一倍多。之后又经过各种努力,脊髓灰质炎疫苗在美国获得了通过。
许多科学结论、政策评价都依赖于因果分析而不是相关分析。统计学能够帮助我们证明那些我们所需要的因果关系。很多时候,真正的因果关系,不能简单地建立在相关关系的基础之上。还有很多科学问题,仍需要我们去发现真正的因果关系,这正是统计学可以提供数据收集以及分析方案的地方,也是统计学的魅力所在。