2014年4月3日,星期四

什么是基尼系数?

当你查阅有关不平等的经济统计数据时,你经常会看到它是用基尼系数来衡量的。但是基尼系数从何而来,它是如何计算的,直觉上它意味着什么?以下是一些想法。

考虑基尼系数最直接的方法是用一种不同但相关的工具来衡量不平等,一种叫做洛伦兹曲线的图形。洛伦兹曲线是由美国统计学家兼经济学家马克斯·洛伦兹在威斯康辛大学读研究生时提出的。他那篇关于这个题目的文章《衡量财富集中度的方法》出现在美国统计协会出版物,第9卷,第70期(1905年6月),第209-219页。国会预算办公室提出了一个不错的紧缩在2011年的一份报告中描述了洛伦兹曲线:
收入的累积百分比可以与人口的累积百分比相对应,形成所谓的洛伦兹曲线(见图)。收入分配越均匀,洛伦兹曲线就越接近45度线。在一个极端情况下,如果每个收入群体的收入相同,那么累计收入份额将等于累计人口份额,洛伦兹曲线将沿着45度线,即所谓的平等线。在另一个极端,如果收入最高的群体获得了所有的收入,洛伦兹曲线在收入范围的绝大部分将是平坦的,沿着图的底部边缘,然后跳到图的最顶端的右边边缘。
实际收入分配的洛伦兹曲线落在这两个假设的极端之间。通常,它们只在对角线的第一个点和最后一个点相交。在这些点之间,45度线以下的曲线呈弓形。市场收入的洛伦兹曲线落在税后收入曲线的右侧和下方,反映了其更大的不平等。两条曲线都落在平等线的右侧和下方,反映了市场收入和税后收入的不平等。”


基尼系数是用洛伦兹曲线的面积来计算的。基尼系数是由意大利统计学家(著名法西斯思想家)科拉多·基尼(Corrado Gini)在1912年用意大利语写的一篇论文中提出的(据我所知,这篇论文无法在网上免费获得)。直觉很直观(尽管数学公式看起来有点混乱)。在洛伦兹曲线上,更大的相等意味着基于实际数据的直线更接近45度曲线,这条曲线显示了完全相等的分布。更大的不平等意味着基于实际数据的直线将更“弯曲”远离45度线。基尼系数是根据45度线和实际数据线之间的面积计算的。国会预算办公室在2011年的报告中写道:

“基尼系数等于45度线和洛伦兹曲线之间的面积的两倍。同样,完全相等和完全不相等的极端情况束缚了测度。在一个极端情况下,如果收入是均匀分布的,洛伦兹曲线沿着45度线,曲线和这条线之间将没有面积,因此基尼指数将为零。在另一个极端,如果所有的收入都属于收入最高的群体,那么这条线和曲线之间的面积将等于这条线下的整个面积,基尼指数将等于1。美国的基尼指数2007年的税后收入为0.489美元——大约介于这两个极端之间。”
换句话说,洛伦兹曲线描绘了收入分配的全部数据范围。基尼系数将所有范围的数据归结为一个数字,这就是它用于比较的原因。但是,由于基尼系数将整体收入分配归结为一个数字,它也丢失了一些细节。例如,如果基尼系数上升,是因为流向最富有的20%的人的份额上升了,还是最富有的10%、1%或0.1%?你可以在洛伦兹曲线上看到这些差异,如果你知道你在寻找什么,但基尼系数本身并不能告诉你哪个是正确的。

这就是基尼系数的图形意义。但是直观的意义是什么呢?我上个帖子说了一个有趣的《经济不平等记录簿》 作者是托尼·阿特金森和塞尔瓦托·莫瑞里在他们为什么使用这些统计数据的概述中,他们写道:

“(收入)分配汇总在一个单一的汇总统计数据中,通常是基尼系数(Gini coefficient)。这不是我们喜欢的统计数据,但却是统计机构最常发布的数据。”大多数机构给出的系数的解释采用几何的形式,但我们更喜欢用平均差来描述它。G %的基尼系数意味着,如果我们从人群中随机抽取任意两家,预期差值是平均值的2G %。因此,基尼系数从30%上升到40%,意味着预期差异已从均值的60%上升到80%。”
阿特金森和莫瑞里补充了另一种解释基尼系数的方法:
阿马蒂亚•森(Amartya Sen)提出的另一种有用的思考方式是“经过分配调整的”国民收入,即按基尼系数计算,国民收入占国民收入的比例为(100克)。因此,基尼系数从30%上升到40%,相当于国民收入减少14%(1/7)。”
注:这篇文章部分重复了一些关于基尼系数的解释之前出现在本博客几年前,但把所有的讨论放在一个地方似乎是有用的。