文档介绍:崔永元拍的转基因纪录片,靠谱吗
这部纪录片,从宣传上看是成功的,而从科学角度看则是失败的。一个好的调查,需要对采样和采访对象进行良好的设计,并对获得的数据进行科学分析
崔永元在美国进行数月走访调查而成的纪录片终于发布。在这部长达一个多小时的纪录片中,崔永元一行人通过人物访谈、实地调查等方式,以自己的立场为基础,记录了美国转基因食品的现状和人们对转基因食品的观点。
一千个人心中有一千个哈姆雷特,对于这部纪录片,持不同观点的人会看到不同的东西。对转基因支持者而言,这部纪录片算是粉碎了“美国人不吃转基因”的谎言,明确了转基因在美国并不需要强制标示,也体现了美国官方和主流学界对转基因的支持态度;而对于转基因的怀疑者和反对者,也能看到美国内部也存在强大的转基因反对声音、不少人排斥转基因食品并欢迎有机食品等。
然而,作为一部纪录片,它存在太多的漏洞和偏颇,使之无法完整客观的呈现美国农业和食品工业的真实面貌。事实上,片中存在的大量漏洞甚至谣言,已经被众多科学传播界同仁辟谣过多次。本文并不想引用太多专业论文来进行辟谣,毕竟,一来这是重复工作,二来结论性的文字是一个信者恒信,疑者恒疑的东西。本文的写作目的是与各位读者探讨应该如何进行一个科学的调查,以及如何对调查结果进行更为理性的思考。
统计和谬误
对统计学稍有了解的人都知道,抽样的样品越多、分散的越随机,越能反应总体的规律,反之则会陷入错误之中。纪录片中,“超市采购”案例就是典型的反面教材。我们可以注意到,采购者在一座超市中,只购买了一件玉米制品和五件大豆制品。那么,只在一家超市取样,随机性就不能保证——毕竟在美国甚至有只贩卖非转基因食品的专门超市。此外,购买的产品种类太少,且不能保证是否经受了非随机的挑选——因为即使是转基因和非转基因食品都进行贩卖的市场,非转基因食品有着明显的标识,这对于商品选择有着显著的影响。事实上,在存在影响因素的情况下,就必须采用盲法进行采样,来保证取样不受影响。例如,告诉第三方人群购买产品,而不告诉购买产品的标准,这样的调查也许会更具有说服力。
对消费者群体的采访也存在取样偏差。与大范围的问卷调查相比,采访调查虽然互动直观,但是由于样品量太少,无法客观的显现总体消费者的态度。从片中可见采访群体大多是家庭主妇人群(尤其是那个“家庭妈妈组织”,从穿着已经能看出是一个明显的转基因反对组织),而统计上对转基因持支持态度比例较高的如大学生等知识分子群体,却很少出现。
有了大样品量、取样随机的调查,其结论是否就一定可靠呢?非也。在很多统计中会出现具有相关性的数据。而如何从相关性推断两组数据间存在的因果关系,这是影响结论的重要因素。在片子一开始,就请出一位名叫南茜
·斯万森的大学教授,展示了所谓“草甘膦使用量和疾病高相关性”的关系图。在图中,南茜·斯万森声称草甘膦使用量和一些疾病呈现显著的正相关,。片中以此暗示了草甘膦是导致这些疾病的元凶。
那么,实事真的如此么?这里,斯万森说过的一句话其实已经点出了问题所在:“有相关关系,不代表两者一定就是因果关系。”事实上,混淆相关性和因果性的关系是在统计中经常犯到的谬误。它会造成诸如“冰淇淋销售量增加导致溺水人数增加”、“索马里海盗数量下降导致全球气温上升”等令人啼笑皆非的结论。
读一读斯万森发表在一个类似于博客性质的网站上的报告原文,我们可以发现根据她的计算,。在科学上,如果一个变量能引起几乎所有其他变量的改变,那么人们首先怀疑的是二者间的相关性计算是否存在问题。事实上,斯万森的报告的确存在的这样的问题。她使用的相关系数计算方式是经典的皮尔逊相关系数(Pearson's Coefficients),而该算法体现的是两组数据的变化幅度(如上升和下降),对趋势本身并不敏感(例如一同升高的斜率)。换句话说,如果两组数据都以接近的比率增长,那么二者计算出的相关系数都是非常高的。例如,笔者计算了2004年到2011年有机食品销售额和糖尿病发病率之间的关系,——这是否足以说明有机食物的销售增加了糖尿病发病率呢?
事实上,对于高相关性数据,我们更需要做的是发掘其背后可能存在的联系。例如疾病发病率的增加,直接原因可能包括检测技术的进步、人口老龄化、环境中有害物质的增加等等。然后通过实验,确认另一变量(如本例中提到到的草甘膦使用量)是否能直接导致该现象的发生。如此才能确定相关变量间是否真正存在因果性。总之,相关性不代表因果性,高相关系数也不能说明因果性更强。
科学事实的判定
对样品进行正确的统计和分析是得出正确调查结论的重要因素,另一方面,实验得到的结果则是形成科学事实的重要部分。那么,这里就牵涉到