大数据可以帮助商业运营者找到大致方向,但真正落地到商业操作,反而不如小数据更有用、更有效。事实上,大数据的应用既不便宜,也存在一定的缺陷,更尚未充分提升商业的价值,更需要企业家、产品经理等管理精英们的创造性思维,使大数据能正确地产生商业效应。
现状:盲目收集与浅应用
目前,大数据应用中有个怪现象,就是有什么数据就收集什么数据,至于将来有什么用,一概不知。或者抱着“先收集再说,将来总有用”的态度。我建议,应从问题、愿景导向来收集数据。一方面,数据的收集、存储备份等成本都不低;另一方面,数据的价值也可能衰减。
以用户为核心的KPI体系能实现与客户行为的点对点连通,是未来发展的大趋势。传统的用户价值是以利润贡献为核心衡量指标,而在大数据时代,客户关系的管理不同了。例如,我要知道一个客户一个月内到淘宝多少次,不管他是否购买,要看他与淘宝的关系到底怎么样。
就现状而言,大数据技术更多地用于推荐和营销,不是因为它更容易,而是因为它容错的空间更大。比如,推荐系统给出了顾客不喜欢的推荐,大不了重新推荐;然而一旦上升到直接解决问题的层面,容错空间就大大缩小了。例如,利用大数据技术来观测空气质量,错了也不会有太大影响,但如果把这个指数和某个商业运营挂钩,就不是小事了。尤其是对数据的精确性要求较高时,数据的持续跟踪与多源比对就显得非常重要。然而正是在这些方面,大数据的应用还停留在比较肤浅的层次,甚至压根就飘在空中。
因此,公司要建立数据收集系统,更重要的是建立跟踪数据质量的监控,对一些关键数据要寻找多个源头,一方面确保“鸡蛋不在一个篮子”,另一方面要相互比对、印证。对于实际运营的企业来说,数据必须有连贯性,当然真实性更是基本前提。
大数据还是小数据?
我几乎每周都要拜会或面试很多数据科学家、数据分析师。我经常问他们,“在你心里什么是大数据”。回答显示,原来业内的认知分歧丝毫不比外行少——至少有一半受访者或应聘者对“大数据”这个概念根本就不以为然,而是更关注有价值的数据、数据能产生什么价值。换言之,在部分人看来,“大数据”本身就是一个伪概念。我常问的第二个问题是,到目前为止,你做得最好的大数据案例是什么?他们的回答各有不同,但有个共同点:用大数据来处理数据的稀缺性。比如,北京的空气质量监测站是有限的,其数据对于监测站附近范围的质量呈现是比较准确的,但其余地区的质量数据是非常稀缺的,但我们要据此判断出北京市空气的整体质量。换言之,大数据能帮我们增加对未知部分的准确度、精确度的把握。
现在,有很多人讨论大数据与小数据的关系。其实,这个问题与大数据如何落地密切相关。在我看来,大数据可以帮助商业运营者找到大致方向,但真正落地到商业操作,反而不如小数据更有用、更有效。比如,很多运营者宣称自己的注册用户是多少量级的,但1亿个注册用户的基础数据,不如一千万个活跃用户完整的行为数据更具有价值。初创企业进行客户探索、发现和验证时,几百个甚至几十个顾客、用户的完整数据比千万级数据更有价值。也许正是因为数据量虽大,但每个数据单元都出现了断裂或遗漏,导致大数据的价值难以被挖掘出来。
因此,应用大数据的能力之一就是把数据变小的本领。在构建数据模型时,你需要的样本其实不是千万,甚至不是面面俱到的数据,而是比较敏感的数据指标。这对数据收集和分析人员是巨大的挑战。实际上,大数据的应用和落地也要以数据的细分为基础。例如,某电商顾客的真实性别不一定与购物的性别偏向一致;再比如,关键词搜索量要看北京、南京等地各为多少,而不是笼统地说增长了多少。当我们用放大镜细查大数据时,会发现有不少的“断链”和欠完整。从某种意义上说,并没有真正的“全面数据”,差别只在于放大镜的倍数。所以,即使基于大数据进行决策,也仍然有猜测和赌博的成分,大数据和小数据应该可以互为作用,而非比较两者谁更强。
传统企业怎么办?
我们在谈论大数据的时候,在根本上忽略了一点,很多企业本身是有其架构的,不会因为大数据就立即变得不一样。很多公司连信息(information)都未打通,是堵塞、零散的,更不要说大数据的应用了。大数据作为一种新的运营理念和方法体系,要想嵌入到公司里,必然要经历一个新事物在旧公司的所有困难。
从有效的策略来说,先把既有的数据用好,比盲目推进大数据要明智得多。更进一步,要重新定义数据框架来解决存在的问题。比如,很多企业都开启了公司微博,其测定效果是转发多少、评论多少。但实际上要细分这些数据,进一步厘清谁、什么样的转发和评论才是有价值的,还要和相似的公司微博进行对比。
传统企业究竟是建立起独立的收集系统,还是使用别人提供的数据?我认为要兼有,既要有侧重地独自搜集,也要多源化地获取数据,尽力排除各种数据在搜集过程中形成的偏差,这既是一个技术问题,需要数据人员付出艰辛的努力,也是一个战略问题,需要回到前文所述的小数据问题。