2019年3月25日星期一

是时候废除“统计学意义”的时间?

“统计学意义”的想法是几十年来介绍统计课程的基本概念。如果您花了任何时间看定量研究,您将经常在结果表中看到某些数字标有星号或其他一些符号,以表明它们是“统计上的重要”。

对于外行人来说,“统计显著性”是一种总结某一统计结果是否可能是偶然发生的方法。例如,如果我投掷一枚硬币10次,得到6次正面,4次反面,即使是均匀均衡的硬币,这也很容易发生。但如果我抛硬币10次,得到10次正面,这是极不可能发生的。或者如果我抛一枚硬币10000次,结果是6000次正面,4000次反面(实际上,重复10次硬币实验1000次),我可以很确定这枚硬币不是公平的。一个普遍的经验法则是,如果一个结果偶然发生的概率小于或等于5%——用术语来说,就是p值小于或等于5%——那么这个结果就具有统计学意义。然而,也很常见的研究报告的其他p值范围,如1%或10%。

鉴于“统计显著性”在教育学和研究文献中无处不存在,去年美国统计协会发表了一份官方声明“ASA关于统计显著性和p值的声明”(讨论),这很有趣在这里)包括评论:“科学结论和业务或政策决策不应仅基于P值,以便是否通过特定阈值。......一个p值或统计显着性,不测量效果的大小或结果的重要性。......本身,p值并没有提供关于模型或假设的良好证据的衡量标准。“

助理检察官已经跟进了一个杂志的特别补充美国统计学家论“21世纪统计推断:超越P <0.05”(2019年1月)。这个问题有一个有用的概览论文,“迁移到一个超越”P <0.05。“作者:Ronald L.Wasserstein,Allen L. Schirm和Nicole A. Lazar。他们写道:
我们的结论是,根据我们对这一特殊问题和更广泛的文献的审查,是时候完全停止使用“统计学意义”一词。也不应该变种,如“显着不同”,“P <0.05”和“不可思议的”生存,无论是用桌子中的星号表达的单词,还是以其他方式表达。无论它是否有用,宣布“统计显着性”今天已经变得毫无意义。......总和,“统计上的重要意义” - 不要说它,不要使用它。
这期特刊随后塞满了来自各个领域的专家的43篇文章,主题是“如果我们消除了具有统计意义的语言,接下来会发生什么?”

要了解这里的论点,它可能是对一些主要原因进行简短和部分审查,为什么重点“统计意义”可以如此误导:即,它可以导致一个人解雇有用和真正的联系;它可以引导一个人吸取虚假影响;它可能导致研究人员与他们的结果一起游戏。这些上的几句话。

结果是“统计学意义”的问题与样本的大小有关。如上所述,10个头中的6个可以很容易地发生,但是通过机会的10,000个脑袋中的6,000个非常不可能发生。所以说你做了一个发现效果的研究,其尺寸相当大,但是在样本尺寸不足以通过标准测试统计学意义。实际上,忽略这种大结果似乎是愚蠢的;相反,您应该大概开始尝试使用更大的样本大小查找运行测试的方法。但是在学术术语中,您刚刚采取的小型样本规模的研究可能是不可发布的:毕竟,很多期刊将倾向于决定出版的研究,没有发现统计上显着影响 - 因为它感觉好像这样的研究不是指出任何新的联系或洞察力。

知道期刊正在寻求发布“统计上重大”的结果,研究人员将被诱惑寻找跳起结果的方法。例如,经济学研究不是关于翻转硬币这样的简单概率示例。相反,人们可能正在看待可以在大约纪念的家庭上查看人口普查数据:不仅仅是年龄,收入,财富,教育,健康,职业,种族,地理,城市/农村等基本类别,在经济衰退期间或者不是其他人,也是各种各样的各种相互作用,这些因素一次看两三个或更多。然后,研究人员做出关于是否假设这些变量之间的连接应该被认为是线性关系,弯曲关系(向上或向下弯曲),关系是U形或倒立 - U等。现在在可以考虑的所有不同时间段和事件和场所以及在立法之前添加。对于这个相当基本的数据,一个是快速看数千个或数万种可能的连接关系。

请记住,统计显着性的想法涉及某些东西是否有5%的概率或更少的偶然发生。为了让另一种方式,这是一个只有20个偶然发生的事情。因此,如果研究人员采用相同的基本数据并查看数千个可能的方程,则将有几十个等式看起来与其有5%的概率。当有成千上万的研究人员以这种方式行事时,每个月都会有一个稳定的数百个结果,似乎是“统计学上的重要”,但只是一种局面的结果,如果你看一个非常大的数量一万一的公式,其中一些似乎意味着什么。它有点像一个10,000次翻转硬币,但只关注几个伸展的延伸,在纽约硬币连续五次上升,并根据整体结果的一小部分绘制结论。

关于这个问题的一个经典论述出现在爱德华·利默(Edward Leamer) 1983年的文章《从计量经济学中取出骗局》(Taking the Con out of Econometrics) (美国经济评论1983年3月,第31-43页)。利默尔写道:
在计算机终端上实践的计量经济学艺术涉及到拟合许多,甚至数千个统计模型。一个或几个研究人员认为令人满意的被选择为报告的目的。这种对模型的搜索通常是出于良好的意图,但是毫无疑问,这种规范搜索会使传统的推理理论失效. ...事实上,当应用研究人员从计算机输出的荆棘中提取出他最喜欢的模型的一根刺时,所有传统理论的概念就完全失去了意义,他选择把它描绘成一朵玫瑰。消费大众很难被这种欺骗所愚弄。这位计量经济学家的拙劣艺术被幽默而轻蔑地称为“数据挖掘”、“钓鱼”、“挖矿”、“数字运算”。一个笑话让人想起宗教裁判所:“如果你折磨数据足够长时间,自然会坦白的”……这是我们发现自己所处的一种可悲且显然不科学的状态。几乎没有人认真对待数据分析。或者更准确地说,几乎没有人会认真对待别人的数据分析。”
经济学家和其他社会科学家在几十年内变得更加了解这些问题,但是legel仍在2010年(“厌倦厌恶之路的Tantalus”,J经济观点, 24: 2,页31-46):
自从我在经济理论和经济学理论和实验设计中撰写了“经济学中的”经济学“挑战,以来,在经济学理论和经济学理论中取得了很大进展,但在经济学中的敏感性分析的这种主题上有很少的进步。Most authors still support their conclusions with the results implied by several models, and they leave the rest of us wondering how hard they had to work to find their favorite outcomes ... It’s like a court of law in which we hear only the experts on the plaintiff’s side, but are wise enough to know that there are abundant for the defense.
在一起,这些问题表明社会科学研究中的许多发现不应相信太多的坚定。结果可能是真的。他们可能是一名研究人员拉出的结果“从计算机的拳击牌输出一个模特的一个刺最好的刺,他选择被描绘成玫瑰。”鉴于现实世界研究的现实,似乎粗略地说,结果,只有4.8%的可能性发生了4.8%的可能性是“重要的”,而如果结果有5.2%的概率,它是偶然发生的5.2%是“不重要”。不确定性是一个连续性,而不是黑白差异。

因此,让我们接受“统计显著性”标签存在一些严重的问题,正如Wasserstein、Schirm和Lazar所写的那样:
[A]统计意义的标签并不意味着或暗示一个关联或影响是非常可能的,真实的,真实的或重要的。一个统计上不显著的标签也不会导致关联或效应不可能、不存在、错误或不重要。然而,“重要”和“不重要”的二分法被认为是对这些特征的权威认可。另一方面,在一个没有明线的世界里,从估计的无关紧要的差异断言解释的巨大差异是站不住脚的。正如Gelman和Stern(2006)的著名观察,“显著”和“不显著”之间的差异本身在统计上并不显著。
但正如他们所认识到的,批评是容易的部分。那么应该做些什么呢?在这里,论证是支离破碎的。我有没有说过,在这个问题上有43种不同的反应美国统计学家

有些建议与其说是具体的统计检验,不如说是性情上的问题。正如Wasserstein, Schirm和Lazar强调的那样,许多作者提出的建议可以概括为七个字:“接受不确定性。”要有思想、开放和谦虚。”这是很好的建议!但如果一个努力想要发表论文的研究人员觉得论文缺乏特异性,这也情有可原。

其他建议重点关注学术期刊使用的编辑过程,该过程在这里建立了一些激励措施。一个有趣的建议是,当研究期刊决定是否发布论文时,审阅者应该只看到研究人员所做的事情 - 而不看到实际的实证发现。毕竟,如果研究值得这样,那么它值得发表,对吧?这样的方法意味着作者没有动力调整结果。一些期刊已经使用的方法是“发表前注册”,即研究人员在发表的论文中预先列出将要做的事情。然后,之后,没有人可以指导调整方法以获得特定结果的研究人员。

其他作者同意转向“统计意义”,但有利于他们自己的优先工具进行分析:贝叶斯方法,“第二代P值”,“假冒阳性风险”
“统计决策理论”,“信心指数”等等。随着这些行的许多替代例子,研究人员试图弄清楚如何再次偏离欲望更加明确的指导。

Wasserstein,Schirm和Lazar还询问了一些作者是否可能有一个p值阈值的具体情况。他们写:
作者列举了四个常见的例子。有些人认为,虽然p值阈值不应该用于推理,但它们对于工业质量控制等应用程序仍然有用,在这些应用程序中,需要高度自动化的决策规则,并且在指定阈值时可以仔细权衡错误决策的成本。其他作者认为这种p值二分法的使用在模型拟合和变量选择策略中是可以接受的,同样作为自动化工具,这一次是为了对大量的潜在模型或变量进行分类。还有一些人指出,具有极低阈值的p值被用于物理学、基因组学和成像等领域,作为大量测试的过滤器。第四个例子可以描述为“验证性设置,即在数据收集之前指定研究设计和统计分析计划,然后在收集期间和之后遵守”……Wellek(2017)说,目前在这些环境中,这是必不可少的。“在医学和相关领域,决策是不可或缺的,”他说。“只要没有确凿证据可供选择,对统计推理经典原则的彻底否定……实际上是没有帮助的。”
更深层次的问题是,在这种情况下,研究人员、政策制定者或经济学家需要做出是或否的决定。做质量控制时,是否符合标准?当食品和药物管理局评估一种新药时,它是否批准这种药物?当遗传学研究人员在处理一个有数千个基因的数据库时,需要关注这些基因的一个子集,这意味着要决定是否要对哪些基因进行分析。

是的,科学精神应该“接受不确定性”。要有思想、开放和谦虚。”但现实生活不是一场哲学竞赛。有时候,需要做出决定。如果你没有统计规则,那么另一种决策规则就变成了人类的判断——它本身就有大量的认知、群体和政治偏见。

我自己的感觉是,“统计意义”将是一个非常糟糕的主人,但这并不意味着它是一个无用的仆人。是的,过分重视“统计意义”是愚蠢的,而且可能会适得其反。但是,当人们认识到惯例和规则的局限性时,它们的清晰性仍然是有用的。我被史蒂文·n·古德曼(Steven N. Goodman)的一篇文章中的评论打动了:
p值是一种基于规则的结构的一部分,它可以作为一种壁垒,防止不受实证支持的专门知识的主张。这是可以改变的,但我们必须尊重统计程序最初存在的原因……那么,我们真正想要的是什么?ASA的声明是这么说的;我们需要良好的科学实践。我们不仅要恰当地测量信号,还要测量它的不确定性,这是统计学的两个目标。我们想要做出与证据相符的知识声明。我们可以通过消去P−得到它吗?消除P−值会改善实验设计吗?它会改善测量吗? Would it help align the scientific question with those analyses? Will it eliminate bright line thinking? If we were able to get rid of P-values, are we sure that unintended consequences wouldn’t make things worse? In my idealized world, the answer is yes, and many statisticians believe that. But in the real world, I am less sure.