2011年11月25日,星期五

遗传数据和经济学:绘制推断的问题

一些具有经济和人口统计信息的数据集也开始具有有关参与者的遗传信息:在美国,一些例子包括对威斯康星州纵向研究的青少年健康国家纵向研究,以及健康和退休调查。换句话说,它正在成为一个人的基因与他们的教育,收入和其他经济结果之间的联系。在2011年秋季,我自己的经济观众杂志,Jonathan Beauchamp,David Cesarini,以及一系列共同作者解决了“分子遗传学和经济学”中从该数据提出推论的问题。

这些研究中的根本问题是人类有很多基因。更具体地说,每个人都有大约30亿“基对”的DNA材料,“基因”是这些碱基对的组合。然而,人类基因组包括仅仅是基因和DNA;还有RNA和各种各样的东西。图错了DNA,RNA,各种蛋白质和其他成分之间的相互作用是令人兴奋的尖端和尖端的工作。

对于社会科学家来说,使用这种数据很棘手。目前的技术在基因中的基础对级别的大约500,000个可能的个体差异创造数据;在长期以来,它将是一百万多。对于那些在一些统计数据中腌制的人来说,这个问题可以是这种方式的:如果你在最小二乘回归中有50,000个独立变量,那么很多人都会逐渐在传统水平上“重要”。对于那些陈述没有特别意义的人来说,这就是这样想:

当社会科学家看数据时,他们总是试图区分一个真实的模式和一个可能偶然发生的模式。要理解其中的区别,想象一下看一个人抛硬币10次,每次都是“正面”。一枚均匀硬币连续10次正面朝上的概率是0.5的10次方,也就是。0009766——大约是千分之一。如果你看到一个一千次中只有一次偶然发生的模式,你就会强烈怀疑有什么事情发生了。也许是双头硬币?假设一开始有50万人每人抛硬币。在他们抛硬币10次后,平均488人将得到10次正面。在这种情况下,观察10个笔直的头只是在一定时间内发生的事情,因为随机的机会,当你从非常多的人开始。

结论:当你在一个相当小的群体中观察一个特定的事件时,你可以对它是否偶然发生有一定的信心(绝不是完全确定的!)。但如果你看到同样的事件发生在大群体中的一小部分人身上,那么它肯定是偶然发生的。当你有50万条基因数据时,它就像一个大群体,你看到的任何联系都可能是偶然发生的。

该怎么办?Beauchamp, Cesarini和他们的合著者提出了三个步骤。

首先,研究50万个变量的研究人员需要一个极端得多的事件才能得出这种联系是真实的。如果一开始有50万人抛硬币,我希望看到有人连续抛头像100次,然后我才能得出结论,这不是随机概率。有一些统计方法可以进行这种修正,但仍在进行中。研究发现,有180种不同的碱基对似乎与身高有关,但也许我们还需要考虑更多的碱基对,而且可能是一次性考虑的,而不是一次考虑一个。

其次,用多个不同的数据集执行相同的计算变得非常重要,以查看结果是否已复制。在他们的JEP文章中,他们看看两个不同的数据集中的教育遗传决定因素 - 并且未能复制结果。

第三,如果你要有大量的变量,在你的数据中有大量的总体是有用的,但在这个领域的大多数数据集中这不是真的。

在同一期杂志中,Charles Manski还对“基因,眼镜和社会政策”进行了评论。Manski为这项研究提供了一些有用的见解。例如:

首先,基因导致某种影响的发现与决定适当的社会政策完全不同。例如,基因似乎与视力差密切相关,但这种基因状况可以通过矫正镜片轻松而廉价地补救。社会政策应该考虑成本和收益,而不是考虑某些事情是否由基因“引起”。

其次,对基因、环境和结果的相互作用保持谨慎是重要的。例如,如果观察基因模式和使用筷子吃饭的倾向,可能会发现一种统计相关性。但最明显的原因是,许多拥有共同基因模式的人也生活在共同的社会中,是社会而不是基因导致了筷子的关联。此外,某些特征(比如身高)绝对是高度可遗传的,但它们仍可能随着时间的推移而随着环境的改变而发生显著变化——就像上个世纪人类的平均身高增加一样。

第三,曼斯基对使用数十万可能解释变量的蛮力统计计算能否得出关于因果关系的可靠推断表示怀疑。相反,他认为,随着时间的推移,生物学家、医学研究人员和社会科学家将对基因和人类基因组中所有其他活动如何影响各种特征有更好的理解。这样一来,理解因果关系就会稍微容易一些——尽管这从来都不是真正容易的事情。