超级计算机“天河一号”已在位于天津市滨海新区的国家超级计算天津中心投入使用。目前,“天河一号”已启动为生产科研和智慧城市建设开展大数据研究,通过技术和平台建设支持产业和科技创新。
“大家还没搞清PC时代的时候,移动互联网来了,还没搞清移动互联网的时候,大数据时代来了。”这是马云在淘宝十周年晚会上说过的话。面对“大数据时代”的来临,近日,滨海新区科委发布《滨海新区大数据行动方案(2013-2015)》,滨海新区将发展成为具有全球竞争力的大数据产业基地和数据资源聚集服务区。
挖掘数据背后熠熠发光的价值
大数据的“学名”也叫巨量资料(big data),或称海量资料。有人估计,将1TB数据全部打印出来,需要5千万个四门书柜进行储藏,而从人类文明开始到2003年,共创造了5TB的信息,这个数字现在仅需两天就能达到,乃至更快。2011年,全球数据总量已经达到1.8ZB(1ZB=1万亿GB),并以每两年翻一番的速度增长。预计到2020年数据量将达40ZB。
如此庞大的数据,究竟能给我们带来什么?著名的《大数据时代》一书中提到:“大数据是未来,是新的油田、金矿。”书中认为,大数据及其分析,将会在未来10年改变几乎每一个行业的业务功能。任何一个组织,如果早一点着手大数据工作,都可以获得明显的竞争优势。
坐落于滨海高新区的天津海量信息技术有限公司负责人张作职告诉记者:“随着智能终端普及,每个市民都成了发布者,微博、照片、评论、视频……每天随时随地都产生着大量的非结构化数据。”大数据熠熠闪光的价值就蕴含在这些看似分散、没有关联的照片、视频、文字背后。我们要挖掘出的,就是这些数据背后的重要信息,涵盖了使用者所有生活轨迹,以及大量使用者真实意图、喜好等。“有了这些就可以有的放矢进行营销、生产、政策制定等。”
2012年起美国、英国、日本等相继发布相关战略计划,发展大数据研究,2012年起,我国也将大数据作为新兴产业予以重点推进。近日,滨海新区科委发布《滨海新区大数据行动方案(2013-2015)》,滨海新区将发展成为具有全球竞争力的大数据产业基地和数据资源聚集服务区。一是形成国家级基础数据聚集区,成为各类行业数据、企业数据、政务数据的存储、备份与处理中心;二是成为国家级数据快速处理区,不断涌现新兴数据挖掘与分析处理技术,拥有一批知名数据处理企业和研发机构;三是形成国家级数据应用示范区。
“大数据的价值现在已被业界认可,大数据的分析、挖掘和利用已经不仅仅是一种商业行为,早已经上升到了国家战略高度,成为一种战略资源。”市科委相关负责人介绍,中关村——滨海新区大数据产业技术创新战略联盟于2013年9月正式启动,由中关村、滨海新区两地区大数据领域的知名企业、高校、科研机构组成,将开展核心技术攻关,建立大数据公共技术创新平台;建立人才联合培养机制;促进科技成果转化。
到2015年,滨海新区将培育聚集大数据应用和服务企业200家,引进国家部委、金融机构、电信运营商、市直机关的信息中心、数据中心、电子政务中心等项目10个,实施典型应用示范项目10项,在大数据核心关键技术领域形成杀手锏技术产品10项,在数据的挖掘、存储、分析等技术领域树立领先优势。同时建成一批以国家超算中心、北大(滨海)新一代信息技术研究院等为代表的高端研发机构,大数据技术对其他相关行业的带动作用逐步显现。
滨海多领域数据量位居全国前列
滨海新区科委陈良文介绍,滨海新区大数据资源主要来自三个方面,即政务、行业和企业。目前滨海新区在港口、海洋、物流、商检、金融等领域的数据量位居全国前列;如58同城、百合网等聚集本市的互联网龙头企业也拥有大批文本与视频数据;信息化进程中积累的行业数据和政府积累了一定的人口、知识产权、科技企业等数据也都具有重大的挖掘价值。
作为1999年就开始朝大数据产业方向发展的企业,天津海量信息技术有限公司目前为客户提供的服务,就是将客户所需要的相关数据进行加工,提供给企业进行决策参考。“一些食品、餐饮企业,以及家电类企业,都很重视客户评价,会通过问卷调查获取信息,消耗大量人力、财力进行数据采集和分析。而现在可以根据客户指定的信息源,从网络上直接挖出相关内容,并自动进行标记和处理。”张作职介绍,比如给一家连锁影院机构进行的调查中,公司就直接从影评网站、微博、论坛中抓取信息并以二维表格、图形图像等方式,很直观地将调查结果展示出来。
像天津海量信息技术有限公司这样掌握自主知识产权,从事数据挖掘与分析的企业,在滨海新区还有搜狐视频、58同城、百合网、科大讯飞、腾讯、天融信等。同时,在大数据产业的全产业链上,滨海新区都聚集了不少优秀企业,如数据存储领域拥有中科蓝鲸、超算中心、曙光计算机、书生电子等机构;数据库研发应用领域拥有南大通用、神舟通用等龙头企业;数据安全等领域拥有国家计算机病毒应急处理中心等多家机构。
最近,坐落于滨海新区的国家超级计算天津中心刚刚通过国家发改委审批,将建设“面向新兴产业的大数据处理技术研发与应用”国家地方联合工程实验室,并命名为国家地方联合工程实验室。这是目前国家发改委在大数据领域批准的第一家工程实验室。依托“天河一号”超级计算机的超级头脑和强大计算、存储能力,将针对与天津及周边区域重点支柱及新兴产业密切相关的油气勘探、生物信息、环境(气候变化、空气污染)、新能源等领域,构建产业应用服务平台,进一步助推滨海新区大数据产业发展。
大数据改变我们的生活
大数据也将改变我们的生活。
从事大数据挖掘和分析技术研发和应用的云睿数字有限公司负责人赵建国详细介绍了云睿数字目前正在开发的“交通经济指数”项目,“目前城市各卡口都有高清摄像头以拍摄各种信息,按常规交管部门可以分析违章、拥堵、流量等,而利用数据挖掘技术,则可以上升到另一个层面。”赵建国说,如果客户是政府,通过分析出的物流、旅游等各类信息,可以反映出地方“经济活跃度”,计算出目前当地的经济状况与政府制定的战略定位是否相符。
对市民而言,该项目最大的实际价值在于路况预测。“通过手机或其他智能终端安装客户端,市民可以在出行前准确考察和选择驾驶路线。比如明天我想走天津大道,客户端就可根据数据自动预测明天是否会出现拥堵,并提供几条推荐线路。”赵建国说,这套系统已处于实验室阶段,春节前后就可以选择试验区域进行应用。预测误差不会超过3个百分点。
“目前使用的数据包是以天津市所有车辆为样本,但实际上路面行驶的并非都是天津本地车辆,如果和周边省市联动,如加入河北、山东等地数据,那么预测的精确度也将越来越高。”赵建国说。