最近,有一条关于苹果同IBM合作的新闻,“把IBM的大数据和分析能力带给iPhone和iPad平板电脑”,从而“创造一种新类别的商务应用”。“大数据”这一词语在另一个新的角度又一次的引起了人们的注意。“大数据”一词最早可以追溯到apache org的开源项目Nutch。当时,大数据仅用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集。随着技术的发展如今的“大数据”有了更多的含义,并不仅仅局限于网络中的信息,也涵盖到日常生活的方方面面。
不过,每一次概念或工具的履新,尤其是商业层面,其有确定意义或意义的确定的前提,都是为企业客户降低了成本,也使普遍的消费者获得了更好的服务。
尽管“大数据”在最近几年才引起人们的关注,但许多互联网公司走在了时代的前面,他们作为大数据时代的先行者,为如今的“大数据”的兴起奠定了基础,并在历史的经历中卓有成效,有时也成为追逆或效仿的对象。以下,希望从IBM、SAP、Oracle、Facebook、亚马逊、百度、阿里巴巴、腾讯、京东这十家大数据的先行践行者们,看看他们都在各自的领域创造了哪些有关大数据的基础与标准,以便让更多的B和C再进一步了解一下“大数据”应用的逻辑。
IBM、SAP、Oracle:我们只是大数据的搬运工
前段时间IBM卖掉了自己的芯片业务,这表明了IBM对自己的未来有着一些清晰的规划——减少硬件业务,将精力投入云计算、分析以及智慧地球的项目之上。IBM全球副总裁Eric Sall说,“IBM不能装作这世界一成不变,这世界当然在随时变化”。IBM此举也恰巧说明了一个行业的趋势,即数据在未来的发展至关重要,而分析数据的能力则显得尤为突出。从信息时代到数据时代,是一种抽象的简化。
作为一个以大数据为基础为各行业提供解决方案的企业来说,硬件业务的多少与好坏似乎已并不能衡量自身的实力,自身的软件服务才更可能决定一些根本性的东西。在今年,IBM宣布以10亿元组建新部门,目的是发展公司最新的电脑系统Watson,它将据客户过往的历史记录,帮助企业更好地认识客户,随时随地以客户选择的方式进行接洽,并在需要行动时提供强大支持。因此它将大大节省企业/客户的人工成本,以便更好地做出决策,更快的实现业务成效,而在去年,这一系统已经开始应用于医疗以及零售领域,帮助行业实现转型。
尽管如此,IBM仍然是到了一个艰难的时刻,尽管投入了较大资金发展全球数据中心,比如以20亿美元收购云计算基础架构服务提供商SoftLayer,但其在云计算领域取得的收入应属是杯水车薪,面对来势汹汹的后起之秀,IBM这个蓝色巨人可能需要放下过去的慢热,虽然大象和蚂蚁转身需要的能级不同。
说到IBM就不得不提SAP,这个由前IBM员工成立的软件公司如今已经发展为全球最大的企业应用软件供应商。然而,SAP所涉及的领域不仅于此,他已经将自己的触角伸及到了体育界。相信大家对2014巴西世界杯德国队的夺冠记忆犹新,在这背后或有“大数据”的力量,可谓是德国队的“第十二人”。早在此次世界杯之前,德国足协便与SAP公司合作,定制名为“Match In-sights”的足球解决方案,用以迅速收集、处理分析球员和球队的技术数据,基于“数字和事实”优化球队配置,从而提升球队作战能力,并通过分析对手技术数据。通过此种方式,德国队在战术制定上的时间成本大大缩短,这可以算所是“大数据”的一种胜利,同时也是未来体育发展的一种趋势,即引入当今世界最发达的技术,提高自身比赛水平,借助大数据强有力的分析处理能力制定合理的训练计划与比赛战术,而非像以前那样单纯的依靠球队的不断操练来实现。我们可以相信,在未来,不只是体育届,任何范畴内的决策都会要借助“大数据”的分析结果来完成,因为它可以既便捷又准确。
这就是“大数据”的力量。百度李明远有一句话:“大数据的特点就是发现人们原来看不到的数据,将这些数据应用于商业,改变认知的核心工具。”由此才产生了诸多在接入“大数据”业务后,发展迅猛的公司,Oracle就是其中之一。
Oracle最初的业务仅是数据库,这也是他存在的基础,直到1987他才成立了一个仅有7人的软件开发部门,管理也十分成松散,而这个部门成立的理由只是因为Oracle公司需要一个财务管理系统。就在这种偶然下Oracle开始了“大数据”业务的发展,至1996年,Oracle赢得了华为的合作,稍后又拿到了美的、中兴的订单,直到1998年,他们已经拥有了1300位客户。仅用了6年时间,Oracle就超越了诸多前辈一跃成为应用软件业的第二,虽然同SAP仍有很大差距,但已经是一个不小的成绩。
Oracle应用软件的创始人杰夫·沃克说过:“尽管SAP有R/3,但在应用软件市场上,他们并没有达到高不可及的程度,他们并没有真正做到象Oracle那样成功。”到目前为止Orcale已经成为了应用软件业仅次于SAP的公司,为戴尔公司、苏格兰皇家银行等业界巨头提供服务。其中,波士顿医学中心在使用了Orcale的应用服务以优化其临床及数据存储环境之后,不仅消减了存储成本并且使其性能也提高了74%。
不论是IBM、SAP还是Oracle,都是依靠应用软件服务来创造盈利,他们在“大数据”的数据服务上已经取得了成功,其占据的市场份额是后起之秀们难以企及的。其实他们所做的并不复杂,可他们发现了前任未曾发现的信息。国内外的企业中,做应用软件的不少,意图涉足大数据领域更多,可是却仍在低端市场中苦苦挣扎,这并非管理水平偏低的原因,而是因为太过看重自身的利益而忽略了“大数据”业务发展的必然条件,成本的降低与服务的提高,只有针对这些不变的点,才能真正走上“大数据”的发展道路,成为下一代领导者。
百度、google:不要再把我们看做搜索引擎,我们正在做些别的事情
“新一代的数据收集不仅是数据工具,数据本身会有很大的发展。”李彦宏如是说。
同样是2014巴西世界杯期间,百度“世界杯预测”上线,尽管足球是一件不确定性级高的事情,可在比赛结束后发现,百度这次的预测无一错误。想想世界杯时无数走上天台的小伙伴们,若是知道百度有此神器,应该是有些感想的吧。
在其赛事预测的产品说明中写到“百度大数据部收集了2010-2013年全世界范围内所有国家队及俱乐部的赛事数据,构建了现在的赛事预测模型”,这是其利用“大数据”在传统领域的又一次尝试,并且他们希望在建立起成熟的模型之后,在球队训练、体彩等方面发挥商业价值。可以推断,百度应该在“大数据”上有着极大的野心。
球赛预测的结果是可喜的,不过百度在另一项事情的预测上则栽了跟头。在《黄金时代》上映之前,百度发布会上宣布电影《黄金时代》的票房预期可达2.0—2.3亿,当时的媒体都认为这个数字估计的太过于保守,然而截止到10月16日,《黄金时代》的累计票房为4698万,如此成绩对于片方、媒体和公众而言都是出乎意料,2.0亿的票房估计竟然已经算是十分乐观。这并不是百度第一次做票房预测了,早在7月14日爱奇艺就透露在内部,百度票房的预测已经有了百分之八十的准确率。百度也因为此次的预测失败而推迟了票房预测产品的上线,我们可以看到在百度预测中,电影票房预测那一项仍是灰色,标注着“即将上线,敬请期待”的字样。对此,可能的原因是类似《黄金时代》的文艺类影片样本较少,不确定性大。
同百度这次失败同样的,他的竞争对手Google也有马失前蹄的时候。在2008年Google推出了他的Google Flu Trends流感预测服务,在这之后的几年时间中,预测的结果都是准确的。这也帮助各国对即将到来的流感进行了有效的预防,避免了更大的损失。直到2013年2月,Nature上出现文章,表示GFT预测的全国范围的流感样疾病(占全国人口的比例)近乎是实际值的2倍,这是由于Google所抓取的数据是直接从搜索引擎中来,这就使得真正的流感患者同跟风搜索流感的人混淆在一起,最终夸大了流感人口的比例。
可见,“大数据”中最重要的不是分析数据而恰恰是数据本身,如果数据本身存在着问题,那么不论算法如何正确出来的结果也是失之千里。
当然这仅仅是两个微小的错误,并不能就此否定这两家公司在“大数据”上做出的努力,毕竟以搜索引擎起家的他们天生就具有“大数据”应用研究与实践的优势。如今百度已经有了一套看起来更完整的“大数据”引擎系统,共三个部分:开放云,百度的大规模分布式计算和超大规模存储云,对应到Google则是他举世闻名的数据中心以及基于Colossus的云;数据工厂,百度将海量数据组织起来的软件能力,对应到Google,其近年来为迎接大数据时代不断改造核心技术,包括比MapReduce批处理索引系统搜索更快的Caffeine,专为BigTable设计的分布式存储Colossus,Dremel和PowerDrill管理和分析大数据,以及Instant和Pregel。百度大脑,能够应用这些数据的算法,对应到Google,Google提供的大数据分析智能应用包括多个方面,技术有Big Query、趋势图等。如果说百度大数据引擎是一个程序,那么它的数据结构就是数据工厂+开放云,而算法则对应到百度大脑。可以说二者在如和发展“大数据”上思路及其一致。在百度预测的界面我们可以看到已经能够看到一个预测开放平台,为每一个用户提供平台化的预测服务。借助这种服务,应该能够更准确地预见未来的趋势,趋利避害。譬如通过“疾病预测”,可以知道同类疾病全国哪家医院最好,同城医院中,哪家医院现在排队人数较少,或者当前天气需要预防那种流行病;通过“景点预测”,我们能够有效地规划出游行程,只能看人不能看景的情况,而景区也能够据此作出正确的判断而非依靠以往模糊的经验。对于企业来说,能够有效地规避风险,调整战略,进而减低成本,缩减开支,最终达到效率与收益的提高。
在如今搜索引擎市场已经不能为他们带来更多盈利的情况下,百度与Google将目光同时转向了“大数据”开发与研究。曾经有一个这样的问题,问百度能够依靠大数据做些什么,答可以分析网上卖假药的情况。这固然是针对百度搜索中侧边经常显示的广告的调侃,但也反映了百度所面临的尴尬,搜索业务所能提供的利润已经接近饱和,盈利模式的更新已经迫不及待,而通过“大数据”变现,在目前是一条最有希望的道路。有消息称,Google每年通过“大数据”可获得约80亿美元的收入,这一数字远远超过了百度。若百度能通过“百度预测”这一系列产品获得成功,那么他所能获得的不仅仅是更加海量的数据,更是源源不断的现金流。
亚马逊、京东、阿里巴巴:当你们在浏览商品时。。。
眼下随着日子的临近,一年一度的双十一又要来了,在那些网页弹出的广告中,不难注意到那些推荐的产品,正是曾经搜索过或者浏览过的,这正是基于“大数据”的结果。而这种智能推荐的服务是“大数据”应用商业化中较为成功的例子。
说道电商中“大数据”方面做得最成功的无疑是亚马逊了,亚马逊是云计算的奠基者,他在用户偏好、商业领域等方面的“大数据”能力可以说甚至超过了Google。他从每一位客户上捕捉大量数据,如购买记录、浏览记录、浏览时间等,从这些杂乱的数据中找到产品的关联性,从而产生最适合推荐给用户的产品。亚马逊不对人进行分类,而是对用户的需求分类,从而产生了亚马逊的推荐系统,而此举它带去30%的销售收入。反映在网页上,我们可以看到亚马逊会将智能推荐的过程贯穿购物的始终。此外,亚马逊也会向用户发送邮件,推荐少量的商品,甚至是你未来可能会用到的商品。更为重要的是这一系列过程并不会令人产生反感,用户体验也随之提高。