人口普查是大数据鼻祖
“大数据其实早就出现了!”在中国科协近日举办的“科学家与媒体面对面”活动上,工业和信息化部电信研究院互联网中心主任何宝宏介绍起了大数据的前世,几乎每个朝代都要做的人口普查就是一个海量的数据,如何处理这些数据一直是考验统治者智慧的问题。
国外也面临同样的情况,美国宪法规定,美国的人口普查要求十年做一次,1880年人口普查的数据用了8年才处理完,1890年马上就来了,预计这次的数据处理大概需要13年的时间。那下一次人口普查根本没法进行了,这时有人发明了穿孔卡片制表机,使得这次人口普查只用了一年时间,因此可以说,正是人口普查带来的大数据催生了现代信息产业的诞生。
看完“前世”再看“今生”,何宝宏表示,当今WEB2.0、微博、微信时代随时随地都可能产生海量数据,甚至人的关系都可以用数据来表示,即使是对普通百姓,数据的重要性也日益凸显,以前若丢了电脑、手机会非常心疼,现在更关心的是里面的数据,硬盘、通讯录丢失了才是更大的损失,数据的重要性已超过了技术和产品。
家庭一年数据=半个国家图书馆
大数据时代下,每个人都是数据的贡献者,中国联通网络技术研究院首席专家唐雄燕表示,利用互联网搜索信息,用微信、QQ维护社交关系,上购物网站买商品,这些行为都产生大量数据,一个普通家庭产生的数据量也非常惊人,预计2020年一个中国的普通家庭一年产生的数据相当于半个国家图书馆的信息储量。从全球瞩目的美国斯诺登事件中,人们知道美国国防安全机关每天搜集到的手机位置信息就有近50亿条。
目前的中国谁掌握着大数据资源?唐雄燕表示,一个人的通话记录、上网记录会留在三个电信运营商那里;一个人的身份、家庭房产信息会通过刷信用卡而被银行知晓;人们去了哪里,现在哪里又会通过手机定位系统而泄露,因此互联网企业掌握有大数据,美国的三大大数据公司:谷歌、Facebook、亚马逊,中国的三大互联网企业:百度、腾讯、阿里,他们是目前大数据的主导拥有者和使用者,此外电信运营商也拥有大量的数据,而金融机构、政府也有相应的数据。
通过这些数据都勾勒出一个人的基本面貌。“20年前我们刚做互联网时有一句话,在互联网上没有人知道你是一条狗,但今天你是不是一条狗,网络比你更清楚。”
电信运营商掌握大数据
身为中国联通的网络专家,唐雄燕透露,目前联通的移动用户不到3亿人,每个人每个月贡献几千条的上网记录,每月就超过2万亿条,为什么会有这么多,一个人每次浏览的网页会产生几十条甚至上百条记录,过去没能利用这些数据,但现在建立了一个系统,能对上网记录进行相应存储,“你如果是联通用户,你的手机可以自动查询上网的记录详单,过去是无法提供的,而现在可以查询你到底上了哪些网站,我们都有记录,你也自己可以查询,这就是一个非常典型的大数据应用实例。”
不过在唐雄燕看来,大数据的利用目前还处于非常初步的阶段。以电信运营商掌握的大数据资源来看,一个城市到底多少人,有可能政府搞不清楚,但是可能通过运营商来看有多少手机在使用,就可以大致算出这个城市的人口,再详细分析这些人口的地理位置、出行规律等内容,就可以在提供有针对性的商业化服务、更科学地规划城市交通等方面有所作为,而目前这些还远远做不到。
全人类信息量 百度掌握近1%
毕业于清华大学计算机科学与技术学院的率鹏虽然很年轻,但已是百度公司发展研究中心负责人,他非常认可“大数据时代已经到来”这一判断,“在过去两年中,全球产生的信息占到人类整体掌握信息总量的90%,现在每天全球产生的数据相当于国家图书馆整个馆藏总量的1500倍,这也是为什么一夜之间大数据的概念兴起的原因。”
作为中国最著名的互联网企业之一,百度现在拥有什么样的大数据资源?率鹏透露,百度的大数据体量在EB级别,EB下面是PB,1个EB是1000个PB,PB下面是TB,也就是1个PB是1000个TB,“如果你家里的电脑里面安装有一个TB的硬盘,那么百度现在掌握的数据大概是这块硬盘装满后容量的10倍。我换另外一个说法,整个人类社会现在掌握的整体的信息量大概在100个EB到1000个EB之间,就是百度现在掌握的信息量大约是全人类掌握信息量的不足百分之一,但高于千分之一的水平。”
率鹏介绍,百度公司吸纳了世界上最顶尖的学者做数据智能研究,研究成果已应用于多款产品,如百度上线了一款能翻译24种语言的翻译工具,这24种语言中有12种是整个百度翻译团队中没有人懂得的,但大数据技术使开发团队在完全不了解、不懂得、不能够理解这种语言的情况下,仅仅靠技术本身就开发出一款非常好的翻译工具,这在以往的时代是难以想象的。
大数据还能实现对社会热点的实时监控与预警,率鹏介绍,比如可以提前预测到华山会成为十一黄金周的旅游热点,一些公共和群体聚集性事件,在百度上可以第一时间发现,百度还利用大数据技术对国内的艾滋病流行趋势进行预测,预测结果是比较准确的。