还记得百度斥巨资建立的致力于人工智能技术开发的深度学习研究院么?接下来,它将不再只为百度自己所用了。而且,百度的其它大数据技术也将会与它一起走出象牙塔。
昨天,百度正式开放了其名为“大数据引擎”的技术体系。简单来说,“大数据引擎”指的是对大规模的数据进行收集、存储、计算、挖掘和管理的一套系统。通过百度的深度学习技术和数据建模技术,能够让数据分析变得更实时和精准。此前,百度已经将这些技术用在了自己的一些产品中,而这次对外开放的,主要包括数据中心的硬件、数据分析技术和深度学习技术。
百度把这个“大数据引擎”分为三个层次:开放云、数据工厂和百度大脑。
开放云指的是这套引擎的基础架构——分布式的低能耗数据中心,也就是前文提到的硬件部分。其中包括数据中心的服务器设计、数据中心规划和设计、分布式系统、超大规模集群自动化运维、大规模GPU并行化平台等。其次是数据工厂,它可以支持超大规模的异构数据查询和大数据分析,也就是调用硬件,来完成数据的挖掘和分析。而百度大脑,其实是对单集群规模数据能力的扩展——基于深度学习技术,让机器模拟人类大脑多层神经元的思维模式做出预测模型。
所以,我们可以一句话概括“大数据引擎”是如何运转的:百度对自己以及各行各业的数据进行挖掘,利用“数据工厂”和“百度大脑”分析它们,输出数据分析结果,为自己和合作伙伴提供解决方案。
先来看看百度是如何在自己的产品上使用大数据引擎的。
最常见的是一些百度产品功能上的应用。比如,百度图片搜索的“以图搜图”功能。当用户上传一张图片到图片搜索之后,系统将会自动将这张图片与百度服务器上数亿计的图片比对,并查找出相似的图片,然后实时展示出来。而百度输入法中中文语音转换成中文文字的功能也是利用了相似的原理——将语音数据进行收集、分析、比对,然后找出准确的文字进行对应。
还有数据模型的建立。比如,百度会对人们在网上对某个旅游景点进行搜索的行为和实际旅游人数的数据进行比对分析,依此绘制出某个景点在两个星期内的“热力图”,以显示这个景点的拥挤程度。现在,百度的旅游预测模型已经可以精准到两个星期。你或许记得今年春节时百度发布的“百度迁徙”——一张全国范围内的春运热力图,就是基于相似的模型实现的。这些数据分析技术同样地被应用在了百度的广告系统中。
那么,在百度的这一套“大数据引擎”开放之后,它会首先被应用在哪些场景上?在昨天的发布会上,百度深度学习研究院常务副院长余凯称,医疗将会是首个被大数据技术改变的行业。
如今,随着可穿戴计算设备的兴起,人们可以记录下大量的生活方式,比如每天的运动量和运动时间、睡眠量、久坐时间、身高、血压等,这些被量化的数据涵盖了我们身体状况的方方面面,将会成为病情分析的重要依据。而对于医院来说,这些数据无时无刻不在产生、零散分布在各个平台上,已经超出了医院IT系统的数据存储和分析能力。所以,余凯认为“大数据引擎”将可以帮医院解决这样的问题。
另一个例子是交通拥堵的治理。基于百度地图,百度已经可以实时地收集整个城市的交通状况,通过分析之后得出结果,可以帮助政府进行决策。例如对城市中某些区域的红绿灯的时间进行微调,用不同的策略实现整个城市交通状况的提升。