2018年4月10日,星期二

5%的统计显著性公约应该大幅降低吗?

对于外行人来说,“统计显著性”的概念似乎比沙漠中的沙子更干燥。但是,社会科学和医学的研究是如何决定哪些发现值得关注的,是可信的还是不可信的。正因为如此,这一点很重要。在这里,我将为初学者简要概述什么是统计显著性,以及为什么统计学家和研究人员对什么研究结果应该被视为有意义或新的存在争议。

为了获得一些直觉,考虑一个实验来决定硬币是否同样平衡,或者是否被加权朝向即将到来“。你扔了一次硬币,它出现了头。这结果是否以统计意义上证明,硬币是不公平的?很明显不是。毕竟,即使是公平的硬币也会出现一半的时间。

你再抛一次硬币,还是正面朝上。连续两次正面朝上能证明硬币是不均匀的吗?不是真的。毕竟,如果你连续两次抛硬币,有四种可能性:HH, HT, TH, TT。因此,对于一枚均匀硬币,有2次正面朝上的概率是1 / 4,这是偶然的。

那连续三次正面朝上呢?四个,五个,六个,或者更多?你永远无法完全排除一串正面,甚至是一长串正面,完全是偶然发生的可能性。但是,当你连续得到越来越多的正面时,一个发现全是正面,或者大部分是正面,就变得越来越不可能。在某种程度上,这变得非常不可能。

因此,研究人员必须做出决定。在什么时候,结果不太可能发生在偶然的情况下,这样我们就可以宣布结果有意义?传统答案是,如果观察结果有5%的概率或偶然发生的概率,那么它被判断为“统计学意义”。当然,现实世界的问题是学校某种干预的问题将提高考试成绩,或者某种药物是否有助于治疗医疗状况,分析比硬币翻转更复杂。因此,实际的研究人员花了很多时间试图弄清楚给定的结果是否是“统计上重要的”。

这里出现了几个问题。

1)为什么5% ?为什么不是10% ?还是1% ?简短的回答是“传统”。几年前,美国统计协会组织了一个小组重新考虑5%的标准。的

Ronald L. Wasserstein和Nicole A. Lazar写了一篇简短的文章:“ASA关于P值的陈述:上下文,过程和目的,”美国统计学家(p值是一种引用统计显著性标准的代数方法。)他们从这个轶事开始:
2014年2月,曼荷莲学院(Mount Holyoke College)数学与统计学荣誉退休教授乔治·科布(George Cobb)在ASA论坛上提出了以下问题:
问:为什么这么多的大学和毕业生教导P = 0.05?
答:因为那仍然是科学界和期刊编辑使用的方法。
问:为什么这么多人仍然使用p = 0.05?
答:因为这是他们在大学或研究生院学到的。
科布的担忧是科学社会学中一种长期以来令人担忧的循环现象,这种循环基于像p<0.05这样的明线的使用:“我们教它是因为这是我们要做的;我们这么做是因为
我们教。”

但也就是说,5%的门槛并没有什么神奇的。学术论文用10%或1%的阈值来报告具有统计学意义的结果是相当常见的。对统计结果的信心不是二元的,是或否的情况,而是连续的。

2)结果的统计可信度与研究中效应的大小之间存在差异。举个假设的例子,假设有一项研究说,如果数学老师使用某种课程,学习数学的人数将增长40%。然而,这项研究只包括20名学生。

在严格的统计意义上,结果可能不会有统计学意义,从中有着相当少的学生,以及看着可能影响结果的其他因素的复杂性,它可能发生在偶然的情况下。(这是类似的问题,如果你只翻硬币只有两到三次,你没有足够的信息与统计信心有足够的统计信心,无论是公平的硬币。)但是忽略了结果似乎是奇观的显示出很大的效果。更自然的反应可能是为更多学生设计更大的学习,并看看大量效果是否持有并在更大的研究中具有统计学意义。

相反,你可以想象一个假设的研究,使用10万名学生的结果,发现如果数学老师使用某种课程,学习数学的人数将增长4%。假设研究人员可以证明,在5%的水平上,这种效应在统计学上是显著的——也就是说,这种数学成绩的提高是偶然发生的可能性不到5%。上升幅度仍然很小,这是事实。

换句话说,它有时会更鼓励发现你没有完全统计信心的大结果,而是发现你确实有统计信心的小结果。

3)当研究人员知道5%是一个有意义或没有意义的结果之间的分界线时,他们就会很容易去摆弄计算(无论是明确的还是隐含的),直到你得到一个具有统计学意义的结果。

例如,想象一项研究考虑早期儿童教育是否对以后的生活产生积极影响。任何研究人员进行这样的研究都会面临许多选择。并非所有的早期儿童教育项目都是一样的,所以可能需要根据师生比例、学生接受的培训、每个学生的花费、项目是否包括用餐、家访和其他因素进行调整。并不是所有的孩子都一样,所以你可以考虑家庭结构、健康、性别、兄弟姐妹、邻居和其他因素。并不是所有以后的生活结果都是一样的,所以你可能想看看考试分数、成绩、高中毕业率、大学出勤率、犯罪行为、青少年怀孕、以及以后的就业和工资。

但这里出现了一个问题。如果一项研究搜索了所有可能的因素,以及所有可能因素的所有可能组合,那么就会有几十个或数百个可能的联系。只是由于偶然的原因,其中一些联系似乎具有统计学意义。这类似于你做1000次10次的投掷硬币的情况。在这1000次重复中,至少有几次10次中有8到9次出现正面。但这不能证明硬币是不公平的!这只能证明你一次又一次的尝试直到你得到一个明确的结果。

现代研究人员非常清楚这样的危险,即当你在许多可能性中寻找时,仅仅是偶然地,结果的随机分散就会显得具有统计学意义。尽管如此,有一些迹象表明,这种寻找有统计意义结果的研究策略可能太普遍了。例如,当其他研究人员试图使用不同的数据或统计方法复制结果,但没有成功时,就会出现一个警告信号。如果一个结果一开始只是随机出现在统计学上的显著性,那么它很可能在后续研究中根本不会出现。

另一个警告标志是,当您在某个领域看一束公布的研究时(如如何提高考试成绩,最低工资如何影响就业,或者药物是否有助于某种医疗条件),您继续看到这一点在统计上显着,几乎完全是5%的水平,或者少一点。在一大群无偏见的研究中,人们希望看到结果分散到的结果的统计显着性:约1%,2-3%,5-6%,7-8%和更高的水平。当所有公布的结果均为左右5%时,它使研究人员在某种程度上将拇指放在尺度上,以获得常规5%阈值的结果。

出现的问题是,研究结果被报道为有意义的,因为它们偶然发生的概率只有5%或更低,而在现实中,研究人员却在逃避这个标准。这个问题严重和普遍,72年的一个研究小组最近写道:“重新定义统计学意义:我们建议改变默认的假定值阈值从0.05到0.005统计学意义的新发现,“出现在自然界中人类行为(Daniel j .本杰明et al ., 2018年1月,页6 - 10)。其中一个签署人,John P.A. Ioannidis在“观点:将P值阈值降低到0.005的建议”中提供了一种可读的观点(美国医学协会杂志(2018年3月22日,pp. E1-E2)。埃尼迪斯写道:
P值和相应的统计显著性检验方法正在给生物医学科学和其他学科带来挑战。绝大多数(96%)在摘要、全文或两者中报告P值的文章中包含一些0.05或更低的值。然而,这些报告强调的许多说法很可能是错误的。美国统计协会(ASA)认识到统计学意义的重大重要性,于2016年发布了一份关于P值的声明。人们普遍认为现状存在问题,但如何解决这个问题则更具争议. ...另一个由72名方法论学家组成的大联盟最近提出了一个具体而简单的举措:对于新发现,将声称具有统计学意义的常规P值阈值从0.05降低到0.005。这项建议在一些圈子得到强烈赞同,在另一些圈子受到关注。P值被误解、过度信任和滥用. ...将P值阈值从0.05移至0.005将使过去生物医学文献中大约三分之一的具有统计学意义的结果变成仅仅“暗示”的类别。
本文在医学期刊上发表,因此重点是生物医学研究。主题是,5%重要性的结果可以被视为“暗示,”,但对于要接受的新想法,统计显着性的阈值水平应该是0.5% - 这是随机机会发生的结果的可能性应为0.5%或更少。“

这项提议的希望是,研究人员将更仔细地设计他们的研究,并使用更大的样本量。Ioannidis写道:“采用较低的P值阈值可能有助于推动改革研究议程,使研究数量更少、规模更大、构思和设计更仔细,并有足够的力量通过这些更高要求的阈值。”约阿尼迪斯很快承认,这个提议并不完美,但他认为它是实用的、直截了当的——而且比许多替代方案都要好。

官方的“统计意义和对统计意义和p价值的陈述”,其中展出了Wassersein和Lazar文章,包括一些值得考虑的原则。以下是其中三个:
科学的结论和业务或政策决策不应仅基于P值是否通过特定的阈值。......
P值或统计显着性,不测量结果的效果或重要性。......
p值本身并不能很好地衡量模型或假设的证据。
无论你是在自己做统计,还是仅仅是一个消费者的统计研究产生的其他人,这是值得高度了解什么是“统计意义”,并不是什么意思。

对于那些想要深入挖掘的人,一些有用的起点可能是六篇论坛《经济学的骗局》2010年春季刊中国经济观光杂志,或者是2017年春季“经济学中最近思想”的六篇论坛问题。