2020年7月15日,星期三

梅利莎·戴尔访谈:跨越历史的坚持

泰勒·考恩采访了梅丽莎·戴尔,克拉克奖章的最新得主(该奖项每年颁发一次。对40岁以下的美国经济学家,被认为对经济思想和知识做出了最重要的贡献)。一小时的谈话录音和文字记录均可获得。概述:
梅丽莎·泰勒加入讨论越南经济表现的背后是什么,为什么坚持不预测,国家能力的优缺点,不同的经济遗产强迫劳动在印度尼西亚和秘鲁,像她这样的人是否应该仍然被称为罗兹学者,如果sat考试是有用的,长跑的乐趣,为什么较高的温度不利于经济增长,她的祖母如何培养她的好奇心,她的下一个项目寻求解锁巨大的历史数据集,等等。
在这里,我只提几个引起我注意的要点。戴尔专门研究某一时期的情况——比如,一个地区在一段时间内拥有强大的集中收税政府——如何对几十年甚至几个世纪后的经济结果产生持久影响。对于那些对这种效应持怀疑态度的人来说,戴尔认为,解释两个领域之间巨大差异的10%对于社会科学来说是一项有意义的成就。她说:
我向一群历史学家展示了我的研究成果。我认为历史学家和经济学家有着非常不同的研究方法。他们倾向于关注一个非常狭窄的背景。他们可能会看一个特定的村庄,他们想要百分之百地解释那个村庄在那段时间里发生了什么。而在这篇论文里,我看的是墨西哥革命的影响,这是经济发展中的历史矛盾。这位历史学家,他研究了很多,知道很多,他说,我有点明白你的意思了,在这个例子中也是如此,但是这个例外呢?那个例外呢?”

我的回答是,偏r²,也就是这个回归解释的变异的百分比,是0。1,也就是说它解释了数据中10%的变异。我认为,你知道,这很好,因为世界是一个复杂的地方,所以能解释10%变异的东西可能是相当大的事情。

但这意味着仍有90%的变异可以用其他因素来解释。很明显,如果你深入到个体层面,数据中有更多的差异需要解释。所以我认为,在这些情况下,我们看到甚至10%的变化是由历史变量解释的,这实际上是很强的持久性。但很多事情都有很大的发展空间。

我在给本科生讲授历史上的经济增长课时也会这么说。我们讨论了各种各样的解释:地理,不同类型的机构,文化因素。撒哈拉以南非洲有些地方比美国穷40倍。当你有这样的收入差距时,有大量的差异需要解释。

Nathan Nunn关于奴隶制的研究和扮演的角色在解释非洲的长期落后,他变得非常大系数,但他们仍然留下大量的差异来解释其它的东西,因为世界上贫穷的地方如此巨大的收入差异和丰富的地方。我认为如果毅力能解释10%的原因,那就是我们看到了很强的毅力,当然,还有其他我们看不到的情况。所以每个人偏爱的经济发展理论都有足够的空间变得重要仅仅因为差异如此之大。
戴尔还讨论了一个组织历史数据的项目,就像旧报纸一样,将它们用于实证分析。她说:
我有几个广泛的项目,本质上,都是关于大规模地解锁数据来回答我们以前没能看到的问题。如果你取历史数据,不管是表格,传记或报纸的概要,你把它们放到Amazon Textract或谷歌Cloud Vision,它会输出完全的垃圾。它是专门针对特定的东西的,比如单列书,只是在大规模数字化历史数据方面做得不好。所以我们一直在研究计算机视觉和自然语言处理的方法来处理输出,这样我们就可以大规模地获取数据,历史数据。这些数据集太大了,无法用手工进行数字化。我们可以把它们转换成可以用来分析和回答很多问题的格式。

历史报纸就是一个例子。我们扫描了大约2500万页报纸的头版和社论,这些报纸覆盖了美国成千上万的社区。报纸的结构往往比较复杂。他们可能有七个专栏,然后有标题,有图片,有广告和标题。如果你只是把这些放到谷歌Cloud Vision中,它读起来就像一本单列书,给你的是完全的垃圾。这意味着所有的大型文献都使用历史报纸,除非它使用像纽约时报或华尔街日报这样的报纸,这些报纸已经被一个坐在那里的人仔细地数字化并在内容周围手工绘制框,你所拥有的只有关键词。

你可以看到页面上出现的单词,但你不能把这些单词组合成句子或段落。也就是说我们无法提取情感。我们不明白在这些社区里人们是怎么谈论事情的。我们知道他们在说什么,用什么词,但不知道他们是怎么说的。

因此,通过设计自动提取数据的方法,它给了我们一个潜在的情绪分析,理解,在不同的社区在美国,人们谈论的是非常具体的事件,无论是关于越南战争,无论是对医学科学的兴起,阴谋论随便说个名字,比如当地报纸上的人是怎么谈论这个的?他们在讨论这件事吗?

我们可以处理图像。什么样的标志性形象正在出现?他们出现吗?所以我认为它可以解开大量关于新闻的信息。

我们也将这些技术应用于很多公司和个人层面的数据日本从历史上看,这是为了更多地了解他们的经济发展。我们有4万家日本公司的年度数据和他们的经济产出。这是表格,和报纸很不一样,但这是一个类似的问题,从数据中提取结构,研究方法把所有这些都提取出来,研究各种关于日本长期发展的问题以及他们是如何取得如此成功的。