2013年2月20日星期三

大数据和开发应用

“大数据”已成为一个流行语。它传达了我们互联的世界正在生成大量数据的概念 - 并询问数据如何用于分析,社会问题解决和私人利润。但是,我尚未知道联合国有一个叫做组织全局脉搏,这侧重于从发展角度来看大数据的问题。全球天文台是国际和平研究所的出版,去年11月接受了采访联合国全球脉冲总监Robert Kirkpatrick。在这里,我将引用与Kirkpatrick的采访,也将从全局脉冲中提到2012年5月白皮书“发展大数据:挑战和机遇。“

作为一个起点,这里的kirkpatrick定义了大数据:“[Bbig数据是一个术语,只在过去几年中只进入时尚,它是指巨大的爆炸们的数量和速度和各种数字数据的巨大爆炸在世界各地制作。统计数据有点令人惊讶:2011年有更多的数据,而不是在剩下的人类历史中恢复到字母表中的所有人。“

2012年5月报告提供了此评论(省略对数字的脚注和参考:“世界正在经历数据革命,或”数据删除“。而在以前的一代中,产生了相对较少的模拟数据,并通过有限number of channels, today a massive amount of data is regularly being generated and flowing from various sources, through different channels, every minute in today’s Digital Age. It is the speed and frequency with which data is emitted and transmitted on the one hand, and the rise in the number and variety of sources from which it emanates on the other hand, that jointly constitute the data deluge. The amount of available digital data at the global level grew from 150 exabytes in 2005 to 1200 exabytes in 2010. It is projected to increase by 40% annually in the next few years .. This rate of growth means that the stock of digital data is expected to increase 44 times between 2007 and 2020, doubling every 20 months."

与开发问题相关的数据泛滥,包括四类,根据全局脉冲:1)由人们的交易与数字服务创建的“数据排气”,包括网络搜索,购买和移动电话使用;2)新闻媒体和社交媒体中提供的“在线信息”,以及招聘帖子和电子商务网站;3)查看景观,交通模式,天气,地震,光排放等的物理传感器;4)公民报告,当公民通过调查,热线,地图更新等信息提交信息时。

当然,在处理大数据方面存在巨大挑战,包括隐私问题,数据集的纯粹大小,它们的扩展速度有多迅速,以及如何挖掘和解释它。但是理解发生了更快的可能性正在变得明显。As Kirkpatrick says: "[W]e now live in this hyper-connected world where information moves at the speed of light, and a crisis can be all around the world very, very quickly, but we’re still using two- to three-year-old statistics to make most policy decisions. The irony is, we’re swimming in this ocean of digital data, which is being produced for free all around us."

谷歌这样的私营部门公司已经使用了大数据。一些公共部门和研究研究包括:
  • 可以根据夜间的灯光排放,以卫星感知,可以估计一个国家的GDP。
  • 通过查看网络搜索,可以更快地识别流感或霍乱或登革热的爆发。另一项研究用来了地震的推特提到了一种越来越快的地震响应的方法。
  • 一项研究能够预测人们在任何时候人们在任何时间都比提供过去运动的手机记录的准确性大于90%。在发展中国家的另一名研究可以根据您在手机上的空气时间播放时频率预测90%的准确性。Kirkpatrick说:“即使您正在寻找有关使用手机的纯粹匿名数据,运营商也可以在某些情况下预测您的年龄,在某些情况下,或减少一年以上的准确度超过70%。他们可以预测70之间的性别80%的准确性。“
  • 印度尼西亚的一项研究能够通过查看社交媒体的评论来估计基本食物的消费者价格指数。(显然,雅加达比世界上任何其他城市产生更多的推文。)其他研究通过观察社交媒体寻求有关粮食短缺或食品价格波动的证据。

我承认我内心的社会科学家在这里找到了令人着迷的研究可能性。Kirkpatrick说:“现在思考这一点,这很令人惊讶:能够在受益者实时看到的能力可以让我们准确地了解人口是我们需要达到的地方,如果你结合那么有关于大小的信息空运时间购买,您可以告诉这些人有多少钱。您开始能够从此信息中提取基本的人口信息,人口移动和行为数据,同时在过程中完全保护隐私。

我们专注于现在的内容正在与世界各地的移动运营商合作,包括在印度尼西亚,可以访问归属呼叫记录和购买记录的档案,因为我们所做的基本上与官方统计数据相关联。您可以查看移动模式,移动服务消费模式,您可以从人们互动和比较食品价格,燃料价格,失业率,疾病爆发,地震,地震,以及看一下人口的社会网络模式受到影响。或者,您将其与程序在现场启动或策略计划下车时进行比较:它实际上是否有效?这里监测和评估的可能性是非常显着的。“

此外,Kirkpatrick通过全局脉冲来阐述了担心隐私和访问数据的顾虑的中间立场:“现在,大数据周围的对话是非常偏振的。您可能会称之为”德国VS. Mark Zuckerberg“。您have the very conservative prohibition against reuse without explicit permission that has become pervasive in the European Union; it’s a very guarded approach. At the opposite end of the spectrum, you have companies that live on big data, which are saying privacy is dead, profit is king. We’re trying to insert a third pole into this debate, which is to say, big data is a raw public good. But to do that we have to create a kind of R & D sandbox where we can experiment with it and learn how to use it safely."

至少对我来说,许多现有的使用大数据的努力似乎有趣 - 但马铃薯相对较小。随着现有数据在未来几年内增加40倍,随着摘要和分析数据,挑战和可能性的技术和能力,可能会出现我甚至无法想象的。2012年5月报告报告了社会技术Guru Andreas Weigend的评论,他说:“[D] ATA是新的石油;如油,它必须在它使用之前精制。”