2021年1月21日星期四

经济数据的再现性挑战

经济学研究的一个基本标准无疑是,其他人应该能够复制你所做的事情。他们不必同意你的所作所为。他们可能认为您的数据很糟糕,您的方法更糟。但是作为最低标准,他们应该能够重现你的结果,这样后续的研究就可以考虑哪些方法可以做得更好。这个标准似乎是显而易见的,但在过去30年左右的时间里,可重现性的方法已经发生了转变。

Lars Vilhuber描述了“经济学中的再现性和可复制性”的转变哈佛数据科学评论(2020年12月21日发布的“秋季2020年”)。Vilhuber是由美国经济协会发布的期刊的数据编辑(包括经济展望杂志我在那里担任主编)。因此,他领导了一个小组,负责监督在AEA期刊上发布新的实证结果的数据和代码——包括确保一个局外人可以使用数据和代码来重现论文中报告的实际结果。

要跳到底线,维尔鲁伯写道:“仍然在30年后,再现性研究的结果一直显示出大约三分之一的复制尝试的问题,并且经济研究中的限制性访问数据的增加需要新的工具,程序以及使得能够更高可见性对这些研究的再现性的方法。“

值得注意的是,再现性已经取得了很大的进步。早在20世纪80年代和更早的时候,研究人员已经完成了一篇发表的实证研究论文。然后转移到其他话题,往往不把数据或代码,或者如果他们并让他们,特殊格式的数据和代码通常是完整和标签对原始研究,效果不错(或者原始的研究助理研究员做了很多基础工作),但可能无法被潜在的外部复制者穿透。相比之下,相当一部分现代经济学研究可以公布实际数据、计算机代码、已完成研究的文档等等。在这种情况下,你可能不同意研究人员选择如何进行,但你至少可以很容易地复制他们的结果。

然而,在这里我想强调的是,重复性带来的很多困难,因为找到经济研究中使用的实际数据并不像人们想象的那么容易。非经济学家通常认为经济数据是公开的数据系列,如GDP、通货膨胀或失业率,任何人都可以在互联网上查找。但经济研究往往远远超出这些极其知名的数据来源。一个大的转变是使用“管理”数据,这是一个包罗万象的术语,用来描述不是为了研究目的而收集的数据,而是出于管理原因而开发的数据。这些例子包括来自美国国税局(Internal Revenue Service)的税收数据、来自社会保障局(Social Security Administration)的收入数据、来自联邦医疗保险(Medicare)和联邦医疗补助(Medicaid)的医疗支出细节数据,以及学区收集的关于教师和学生的教育数据。还有私人部门的管理数据,从金融市场到手机数据,信用卡数据,以及当你买杂货时收银机产生的“扫描仪”数据。

Vilhuber写道:“在1960年,76%的实证AER[美国经济评论-文章使用公共使用数据。到2010年,60%的人使用行政数据,大概没有一个是公共数据……”

你不能只是写信给,比如说,美国国税局,要求查看所有纳税申报单的详细数据。你也不能直接从社会保障、医疗保险、学区或美国人口普查中获得详细数据。这里有明显的隐私问题。

因此,近年来的一个变化就是所谓的“受限访问数据环境”,即经过认证的研究人员可以访问详细数据,但以保护个人隐私的方式。例如,现在有全国30个联邦统计数据研究中心,大多位于大型大学附近。Vilhuber写道(引文省略):

值得指出的是,在过去20年里,由国家统计局和资助机构赞助或资助的正式的受限访问数据环境(RADEs)有所增加。美国(FSRDC)、法国和许多其他国家已经建立了RADE网络,该网络具有正式的、非歧视性的,尽管存取协议往往很长。通常,这些网络是由经济学家发起的,但广泛使用的是其他社会科学家,在某些情况下是卫生研究人员。RADE在私营部门数据中不太常见,尽管若干倡议已取得进展,并经常被研究人员使用:创新和科学研究所、医疗保健成本研究所、私人资本研究所。当这种非歧视协议得到大规模执行时,大量的研究人员可以在严格的安全协议下获得这些数据。截至2018年,FSRDC共接待了300多个项目的750多名研究人员,其中140个项目是在过去12个月内启动的。IAB FDZ(德国就业数据的一个来源)列出了截至2019年9月超过500个活跃的项目,其中大多数都有多位作者。在这些和其他网络中,许多研究人员共享访问相同的数据集,并可能进行可重复性研究。通常,访问是通过一个安全的房间网络(FSRDC,加拿大,德国),但在某些情况下,通过“瘦客户端”(法国)或虚拟桌面基础设施(一些斯堪的纳维亚国家,数据来自美国农业部经济研究局[USDA]通过NORC)的远程访问是允许的。

一种常见的情况是,这类数据往往不能放入公共领域;相反,您需要应用并获得对“受限访问数据环境”的访问权,并以这种方式访问数据。

另一个问题是,在一些这些数据来源中,研究人员没有访问所有数据;相反,为了保护隐私,它们被给予了整体数据的提取物。因此,转到数据中心的两位研究人员并使相同的数据请求产生相同的数据。如果使用随机样本,则数据中的整体模式应该非常接近,但它们不会是相同的。Vilhuber写道:

任何研究人员都可以访问一些广泛使用的数据集,但他们受到的许可证可防止其重新分配,从而将其作为数据存款的一部分包含。这包括来自Michigan大学的健康和退休研究(HRS)和收入动态(PSID)小组研究的非可信地数据集,并在明尼苏达人口中心提供的IPUMS提供的数据。所有这些数据都可以自由下载,但符合许可证。IPUMS列出了2015年的963个出版物,仅使用其中一个数据来源。典型用户将通过数据查询系统创建PSID和IPUMS数据库的自定义提取物,而不是下载特定的数据集。因此,每个提取物基本上是独一无二的。然而,同样的提取物不能被重新分配,或者在期刊或任何其他档案中存放。不明确的2018年,PSID与ICPSR合作,通过PSID资源库解决了这个问题,该资源库允许研究人员在完全符合PSID使用条件的情况下存放他们的自定义提取。

来自商业来源的数据出现了另一个问题,这通常需要收取费用:

商业(“专有的”)数据通常受到许可证的约束,许可证也禁止再分配。大公司可能会把提供数据作为其服务的一部分,但向学术研究人员提供数据只是整个业务的一小部分。Dun和Bradstreet的Compustat, Bureau van Dijk的Orbis,通过芝加哥布斯基尔茨中心(Kilts Center, n.d.)的Nielsen Scanner的数据,或者Twitter的数据都被经济学家和其他社会科学家经常使用。但是,为客户提供5年或更长时间使用的健壮且经过整理的数据档案,通常不是他们服务的一部分。

使用社交媒体数据的研究可能会给那些想用相同数据重现研究的人带来特殊问题:

当数据发生变化,或者是大型静态或动态数据库中可能定义不明确的子集时,引用数据的困难就会加剧。“大数据”总是带来挑战——见上世纪50年代至60年代对政府数据库的需求的早期讨论。从本质上讲,它们通常属于“专有”和“商业”类别,并伴随着可重复性的问题。然而,除了(可解决的)为复制者提供授权访问和足够的计算资源来复制原始研究之外,甚至定义或获取原始数据输入都可能是困难的。从本质上讲,大数据可能是短暂的,太大而不能长期保存(有时称为“速度”),在时间上或截面上不一致(变量规格变化,有时称为“多样性”)。这可能会使计算再现性变得不可能. ...例如,一项研究使用数据从一个短命的社交媒体平台,文章最后不超过24小时(速度)和数据模式可能随时间变异(不同的)可能不是计算可再生的,因为帖子将被删除(使用条款可能禁止任何刮的再分配数据)。但是相同的数据收集(抓取或数据提取)可以重复,尽管在重新编程以解决多样性问题时有些复杂,从而导致复制研究。

最后,存在“清洁”数据的问题。“RAW”数据始终存在错误。有时数据没有填写。其他时候它可能表现出一种荒谬的发现,就像一年中有负收入水平的人,或者当时偶然地添加了几个零的条目。因此,在它使用之前需要“清除”数据。对于众所周知的数据,有记录文件的档案,了解如何清除数据,以及为什么。但是对于大量数据,如何清除它的文档不可用。Vilhuber写道:

虽然在理论上,研究人员能够在在典型的大数据的第三方控制系统上运行时,研究人员能够至少非正式地描述数据提取和清洁过程,实际上不会发生这种情况。对各种Twitter相关的经济学制品的非正式分析表明,对数据提取和清洁过程的描述很少或没有描述。然而,问题是大数据文章的独特 - 大多数文章都提供了很少的任何输入数据清洁代码,大部分是因为仅建议提供操纵输入数据的代码,但最多不是必需的数据存款政策。

作为最终的想法,我将指出,学术研究人员在数据方面有混合激励。他们总是希望访问新数据,因为新数据通常是发布的录影的可靠途径,可以构建声誉和薪水。他们经常希望获得竞争对手研究人员使用的数据,了解和批评其结果。但是可以访问自己的数据的详细信息并不一定帮助它们。

例如,假设您写了一篇杰出的学术论文,所有的数据都是广泛可用的。很有可能在未来几年里,你的论文将成为经济学专业学生和更年轻的教员的目标实践,他们会批评你,并为你在研究中做出的所有选择辩护。然而,你可能有一个合理的理由不喜欢花大量的时间在你的职业生涯,一次又一次地重复同样的事情。

从这个角度来看,也许并不奇怪,虽然许多顶尖的经济学期刊现在确实要求作者发表他们的计算机代码和尽可能多的他们的数据,但由于发表他们的数据而获得“例外”的论文数量正在上升。此外,要求作者提供数据和计算机代码并不是提交论文或决定是否发表论文所要求的内容的一部分(尽管其他审阅论文的教授如果愿意,可以提出查看数据和代码的要求)。

也许不是一个惊喜,一个著名的研究期刊看着论文从2009年到2013年,发现的论文数据没有公布在网上,只有大约三分之一的论文数据,这是相当简单的为他人来获得数据。

而且它也可能是一个惊喜,越来越多的论文通过数据通过限制访问数据中心提供官方研究人员,这些文件将一些障碍与在研究界中没有良好连接的人。

与前互联网时代相比,经济研究背后的数据和计算机代码的获取已经改善,而且改善了很多。但在很多情况下,这仍然很不容易。