显示标签的帖子遗传学显示所有帖子
显示标签的帖子遗传学显示所有帖子

2011年11月25日星期五

遗传数据和经济学:绘制推断的问题

一些具有经济和人口统计信息的数据集也开始具有有关参与者的遗传信息:在美国,一些例子包括对威斯康星州纵向研究的青少年健康国家纵向研究,以及健康和退休调查。换句话说,它正在成为一个人的基因与他们的教育,收入和其他经济结果之间的联系。在2011年秋季,我自己的经济观众杂志,Jonathan Beauchamp,David Cesarini,以及一系列共同作者解决了“分子遗传学和经济学”中从该数据提出推论的问题。

这些研究中的根本问题是人类有很多基因。更具体地说,每个人都有大约30亿“基对”的DNA材料,“基因”是这些碱基对的组合。然而,人类基因组包括仅仅是基因和DNA;还有RNA和各种各样的东西。图错了DNA,RNA,各种蛋白质和其他成分之间的相互作用是令人兴奋的尖端和尖端的工作。

对于社会科学家来说,使用这种数据很棘手。目前的技术在基因中的基础对级别的大约500,000个可能的个体差异创造数据;在长期以来,它将是一百万多。对于那些在一些统计数据中腌制的人来说,这个问题可以是这种方式的:如果你在最小二乘回归中有50,000个独立变量,那么很多人都会逐渐在传统水平上“重要”。对于那些陈述没有特别意义的人来说,这就是这样想:

当社会科学家看待数据时,他们总是试图区分真实模式,从可能发生的模式中区分真实的模式。要了解差异,想象一下,观看一个人翻转10次,每次都会得到“头”。将“头部”的几率连续10次,公平硬币是.5升至10,或.0009766的力量 - 这大约是一千个。如果你看到一个只有一次发生的模式,那么在一千人中只有一次,你会强烈怀疑事情正在发生。也许这是一个双头硬币?但现在想象一下,你从500,000人开始翻转硬币。在他们全部翻转一次硬币10次后,平均488个将有10个直线。在这种情况下,观察10个直接头就是由于当你从非常大量的人开始时发生了一定的时间。

底线:当您在一个相当小的群体中观察特定事件时,您可以有一些信心(从不完全肯定!)至它是否发生。但如果你看到同样的事件发生了一小部分真正大群的一小部分,那么它肯定可能发生在机会。当您有500,000件遗传数据时,它就像一个大群,你看到的任何连接都可以偶然发生。

要做什么?Beauchamp,Cesarini,他们的共同作者建议了三步。

首先,在得出结论之前,需要使用50,000个变量的研究人员需要更加极端的事件,即连接是真实的。如果我从50万人翻转硬币开始,我希望在我得出结论之前,在何时发生随机机会之外的某些东西之前,我希望有人翻转头部可能连续100次。有统计方法制作这种更正,但他们仍然是在进行中的工作。研究发现了180个不同的碱基对,似乎与高度相关,但也许还需要考虑更多,也许一次也不考虑一次,而不是一次。

其次,用多个不同的数据集执行相同的计算变得非常重要,以查看结果是否已复制。在他们的JEP文章中,他们看看两个不同的数据集中的教育遗传决定因素 - 并且未能复制结果。

第三,如果您将拥有大量变量,那么在您的数据中拥有真正的大型群体是有用的,这对该区域中的大多数数据集没有真实。

在同一问题中,Charles Manski还对“基因,眼镜和社会政策”进行了评论。Manski对这项研究提供了几种有用的见解。例如:

首先,发现基因导致效果的发现与决定适当的社会政策完全不同。例如,似乎基因与视力不良,但是,遗传条件很容易且廉价地纠正矫正镜片。社会政策应该是成本和福利,而不是关于什么是“造成”的基因。

其次,重要的是要对基因,环境和结果的相互作用是谨慎的。例如,如果看遗传模式和用筷子吃的倾向,则可能会发现统计相关性。但明显的原因是许多具有常见遗传模式的人也生活在一个共同的社会中,它是社会而不是导致筷子相关的基因。此外,像高度一样的某些特征绝对是高度可遗传的,但它们仍然可以随着环境改变的方式大幅转移 - 就像在上个世纪平均人类高度增加的方式一样。

第三,Manski表示一些怀疑,蛮力统计计算具有数十万可能的解释变量的统计计算将产生关于因果关系的固态推论。相反,他建议随着时间的推移,生物学家,医学研究人员和社会科学家能够更好地了解人类基因组中的基因和所有其他活动如何影响各种特征。如果从未实际上容易 - 理解原因和效果,那么它会有所更容易。