国家统计局的“大数据梦”肯定不是说说而已,而在这场圆梦之旅中,作为中国互联网翘楚的BAT(百度、阿里、腾讯)三家都不会缺席。
在19日上午召开的第五届中国统计开放日上,国家统计局首次对外展示了其正在研究的基于百度搜索数据来预测房地产价格的新工具,并演示了这项工具对北京房价的惊人预测力。在开放日上,国家统计局也展示了新研发的网购数据统计,而其数据来源之一就是刚赴纽约上市的阿里巴巴。
腾讯也没有缺席这场建立大数据统计的国家战役。一开年,国家统计局局长马建堂就马不停蹄地走访了中国最具代表性的互联网企业。马建堂的身影出现在京东商城和阿里巴巴,以及1号店、CBI易贸集团、百度等企业。今年6月末,马建堂来到了腾讯,并从马化腾手中接过了一个企鹅公仔。
百度如何统计房价
更为精确的房地产价格统计一直是政府希图攻克的难题。因为个人隐私、阴阳合同等问题存在可能影响源头数据的真实性,而现有房地产领域“数出多门”的情况也增加了“数据打架”的概率。
相对而言,海量的搜索数据不经意透露了真实的房地产走势信息。
利用基于百度搜索数据,国家统计局筛选出同房地产价格有关的一系列关键词,然后通过这些关键词出现的时间频次同以往实际发布的新房数据和二手房数据价格的走势实施拟合并建立模型,最后根据所建模型预测未来房地产价格的走势。这就是国家统计局新工具的基本原理。除了国家统计局之外,美国的谷歌也是在用这种原理来预测流行病的暴发趋势。
利用这一工具,国家统计局在开放日现场演示了一把对北京房价的模拟和预测。
记者注意到,通过百度数据所得出的价格曲线预测值同实际价格曲线之间的拟合程度较高,其中百度搜索数据对二手房价格拟合效果比新房更好。这或许是因为刚需人群在寻找二手房交易时更能提供准确而真实的信息。
如果这项工具投入应用,官方内部有望提前多天就了解到下月房价的大致走势。统计部门也希望,在房价实际数据出来后能使用这一工具检验官方数据的有效性,从而提升统计数据的有效性。
国家统计局同阿里巴巴的合作则由来已久。在向社会“找数据”的进程中,淘宝网是统计部门最先关注的大数据来源。因为淘宝网上的交易数据既是实时成交数,又真实有效,这正是统计部门以往驱动庞大的调查队伍所希望寻找的绝佳数据。
早在2012年,国家统计局上海调查总队就开始了网络采价试点。上海调查总队发现,淘宝网上有大量销量较大但不在CPI统计内的产品,比如进口糖果、进口巧克力、进口饼干、进口奶粉、进口美容用品和鲜花快递等,通过一定的方式这些产品都可以被整合进CPI。另外,原有CPI规格品中有的数据比统计部门抽样调查得到的数据更为及时,比如书籍销售价格就可以从亚马逊、当当网、京东网上选取。上海的试点发现,2012年含网络采价的CPI和不含网络采价的CPI衔接性非常好。
统计局的互联网思维
通过直接利用淘宝和天猫等电商交易平台的数据,国家统计局就能统计出通过传统调查无法拿到的网络交易数据。今年初,国家统计局开始对外公布这一成果。数据显示,上半年,全国网上零售额11375亿元,同比增长48.3%。其中,限额以上单位网上零售额1819亿元,增长56.3%,而同期的社会消费品零售总额只有12.1%。如果没有网上销售数据,市场也许会过低估计中国经济增速放缓表象下的新经济动力。
马建堂在对腾讯调研时再次提出,要进一步打造现代化服务型统计。积极利用互联网和无线移动等现代信息技术手段以及新兴媒体等平台不断拓展统计服务渠道、提升服务品质。
他表示,要特别加强与大型综合性互联网公司的合作,利用他们已有的各类网络平台提供统计服务,不断推动常规统计和各类普查数据和产品展示的空间化、可视化,为社会公众提供更加优质、友好的统计服务。
为了给公众提供贴身服务,就在这次统计开放日上,国家统计局推出了更新版的国家数据库手机软件,向海外推出了具有可视化功能的英文版的国家数据库,还展示了未来将要推出的应用第三次经济普查数据的地理信息系统。
利用这个地理信息系统,普通用户能找到其自主划定任意区域内的经济单位数量、分布和单位基本信息,同时还可以图形化显示一个地区内行业和企业数量的分布。这就相当于一个商业的GPS导航,无论是规划写字楼、建设百货大楼、选定物流中心还是找到合作伙伴,都可以用这一GPS在商业的“地图”上自由驰骋。
用马建堂自己的话说,大数据时代正在来临,“这一滚滚浪潮浩浩荡荡、不可阻挡”。
而在这场革新之潮中,马建堂领导的国家统计局也在构筑一个“统计梦”。在统计开放日上,马建堂用一个人的头脑四肢比喻他的统计梦想。
这个统计梦有正确的头脑,“真实可信、科学严谨、创新进取、服务奉献”的统计核心价值观入脑入心,统领一切统计工作。有健壮的两臂,一边插上现代信息技术的翅膀,实现统计生产全流程、全方位的信息化、网络化、电子化,实现统计调查和大数据共同成为统计基础数据两大来源;一边是统计法制建设更加健全,依法统计、独立调查蔚然成风。有魁伟的躯干,统计生产流程再造,统计人员通过电子手段直接采集数据,调查对象利用互联网直接上报数据,同一平台加工处理所有统计数据。有坚实的双腿,就是统计基层工作得到进一步加强,数据源头更加透明;统计业务基础更加巩固,统计标准更加统一健全,统计制度更加规范完备,统计方法更加科学先进。