大数据时代已经到来,但不是每个人都在接受它的洗礼。更准确的说,现如今我们所谓的“大数据”,其实就是硅谷的互联网大佬们若干年前所做的事,之所以现如今被人们所重新认识,觉得它是新鲜有趣的,那是因为现在推动大数据的技术,已经完全开源,并且普及到了大部分的企业和公司。
在与欧洲很多传统企业的对话中,我们可以越发清楚的察觉到大数据除了能够让开发应用项目在非硅谷的地方迅速成熟起来之外,无甚新奇之处。之所以提及欧洲,那是因为在IT技术发展上,它落后于美国。无论是云计算或者大数据计算,欧洲都落后美国一到两年的时间。所以当我们看到欧洲的公司都在郑重其事的谈论大数据项目,那么就意味着大数据的概念确实开始深入人心。
Gartner报道称:42%的IT企业领导已经深入大数据项目的开发中。换句话说,它还有长足发展的空间。但我怀疑这个数字被低估了,这涉及到了如何定义"大数据"这样一个概念。比如,当我问一个IT企业的专家是否会开发一个大数据项目时,一般得到的回答都是"NO"。但当我进一步阐明我的意思,你所要从事的项目并不是那种涉及兆兆字节甚至更大规模的数据量,相反,是一种可以从分散的端口来拉取数据的软件,进而能够进行实时分析的项目产品。当换成这样一个问法的时候,往往她的答案就是“YES"! 这样的项目当然也是在"大数据"的范畴内。但是"大数据"这样的字眼,让人们往往更加关注的是”大“,而非数据,所以人们就走进了误区。
这个结论在NewVantage的调查中,变得更加清楚明朗,其中只有15%的受访者是在处理超大规模的数据。而从剩下的85%的受访者那里,我们可以看到企业最关心的目标,是要有能力不断的管理日益多样化,并且不断膨胀的数据资源,而非简单的处理超大规模数据。所以,当我们看到连Hadoop公司,这家以存储及加工超大规模数据闻名的公司,更加频繁的介入到ETL过程中,也就不足为奇了。(ETL:即构建数据仓库的重要一环,数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去)
在大数据的概念里,规模真的并不重要。
Google公司和Facebook公司早已经发明出MapReduce以及NoSql这样的数据库,来应付应用软件(这类软件主要由数据来驱动)对实时数据分析处理的需要。现在这样的技术已经开源,随处都可以得到并使用,以至于现在的互联网大佬们已经将目光投向“更大规模数据”的技术开发和利用,而其他人,将在若干年后享受这些技术带来的便利。也许,读写网的布莱恩·普罗斯特对Hadoop网站价值的揭示更加能够说明问题。他说:“Hadoo也仅仅是让本该变得昂贵的数据存储变得便宜而已。”而GigaOm的德里克·哈里斯(Derrick Harris)也对NoSql这么评论道:“它并没有在管理复杂交易上,把其他数据库的角色取而代之。相反,NoSql催生出来一系列的应用软件,能够在处理半结构化数据方面反映更加迅速。”所以这在我看来,定义大数据最好的的方式,应该站在你处理数据的角度,而跟所要处理的数据规模没有任何关系。
最近我遇到了一位欧洲的IT企业老板,他说现在已经把他的工作团队从”瀑布式”的开发方式转换为更为灵巧机敏的开发方式。该团队面向市场上实时的客户反馈,从3000个服务器中读取信息,每天要生成500G的信息量,同时从开发到配置仅仅需要24分钟的时间。该公司毫无疑问,是在向由数据驱动的模式转型。这意味着他们要有能力一扫旧有僵化的数据基础系统,同时在转变过程中会遭遇很多阻力和挫折,但最终我相信能够达到他们的目标。
不过最值得人们期待的是:是否更多的主流企业都将发展自身的大数据技术,来满足那些互联网巨头不曾有过的一些需求,或者革新将“回流”至硅谷呢!
时间会告诉我们一切。