小时代还是大时代

  人们还没搞清楚PC时代,移动互联就来了,人们还没搞清楚移动互联,大数据时代就到了。 ——马云
  

  
  从题目就可以看出,今天我要接着之前写的那篇《神奇的小时代》,继续来讲讲我们现在所身处的时代。从开头引用的马云的那句话,你们应该猜到我要讲讲所谓的“大数据”时代了吧?大数据是一个新兴的概念,同时我个人也觉得这是一个很大的话题,因此也不敢说能够多深入地来探讨,本文只是打算以《大数据时代》这本书的逻辑框架作为基点,来谈谈我的一些个人理解。《大数据时代》这本书的作者是维克多·迈尔-舍恩伯格,他被认为是大数据时代的提出者,而这本书也的确从商业,生活,哲学等全方位地讨论了大数据时代所带来的冲击,是正确认识大数据时代的必读书籍。

  好了,所谓开宗明义,什么是大数据呢?我们先姑且理解为极其大量的数据,至于量大到了什么程度呢?就是大到了能引起质变的程度。也许大家会和我有同样的疑问,信息化时代和互联网时代已经不是这几年才有的事情了,自从传感器的高度发展和各种电子设备的普及,我们现在每天能够产生的数据量已经大到你无法想象的地步了,据说现在大概十几分钟产生的数据就能等于2003年前人类所产生的所有数据的总和了。既然大数据不是这几年才有的新东西,那么是什么促使了大数据时代的诞生呢?是一个叫云计算的神奇的东西。据说“云”是种很神奇的东西,不管是云计算还是云储藏,其成本都非常的低。为什么我说“据说”呢?因为我对这东西没有深入地去了解,我们姑且就接受它,因为从事实来看,它的确是很便宜,而且越来越普遍。以前我们虽然有大量数据,但是处理如此大量数据的成本太高了,因此大数据的价值没有被发现,而云计算出现之后,大数据正慢慢释放着一种惊人的能量和价值,以至于维克多·迈尔-舍恩伯格把大数据成为“新黄金”。

  在继续讲可能会有点枯燥的理论之前,我们先来看看我们身边的生活中正在发生一些什么样的变化:

  我们的人人还有微博,在右边的边栏上面都会有你“可能认识的人”或者你“可能感兴趣的人”,因为这些网站都拥有了我们详细的社交网络数据,微博和人人加起来绝对能整理出几乎覆盖全中国大部分人口的完整社会关系网;每天一早起来打开邮箱,里面都有各种各样的网站发过来的含有商品推荐信息的邮件,亚马逊推荐我各种物理书,还有各种电子产品,ebay和Bestbuy也是,因为这些网站都拥有我们大量的购买数据,知道我们对哪些商品感兴趣;我们在浏览视频网站的时候很容易会看到类似什么“猜你喜欢”或者叫“为我推荐”的一栏,里面的视频都是些和你以往看过的视频相关度极高的视频;如果你在Youtube上面看视频,视频下面都会弹出小广告,这些广告全部都是跟你相关的,你可能会感兴趣的,例如“留学生活很寂寞?请到XXXX”,更夸张的是我某天突然对中国护照能到哪些国家可以免签感兴趣,然后就用百度搜了一下马尔代夫的旅游信息,结果等我搜完,回到百度音乐的页面时,右边的广告栏居然马上就弹出了马尔代夫的旅游广告!没错,前面讲的这一切一切都是大数据的力量。

  那么究竟大数据时代是什么呢?又会给我们带来些什么冲击呢?

  在大数据出现之前,姑且就称之为“小数据”时代吧,由于数据采集和分析的高成本,人们了解世界通常会采用统计方法,也就是采样。由于采样是采集总体样本里面的一个部分,于是会有起码两个要求,第一就是数据的高精确性;第二就是采样的随机性。高精确性主要是因为采集的样本有限,本来可用数据就少,于是就必须保证用于分析的数据都具有十分高的精度,这样才能保证结果的准确性。至于样品的随机性,就是统计学给出的定理,只有采样符合随机性,样品分析结果才能代表总体。我们先不谈保证数据高精确性所带来的成本问题,我们先谈谈采样有没有可能绝对随机。统计学家们证明:采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大。要知道在计算机领域里一直还没得到解决的一个问题是如何产生严格的随机数?我们现在所拥有的所有的随机数产生器都只能产生所谓的“伪随机数”,就是说这些数只能无限地接近随机,但不能真正做到随机。那么我们再来想,人们在采样的时候,真的有可能做到绝对随机吗?我想基本上是无法保证的,如果在采样过程中一旦加入了哪怕一点点的偏好,这个采样的准确性就会受到某种程度的降低。小数据时代的采样分析方法的另一个局限性就在于数据只有单一用途。举个简单例子,如果我想要调查全国女性对某种商品的需求程度,那么我就要尽量随机地在全国范围内搜集女性用户的意见,但是如果我突然又想知道怀孕妇女对该商品的需求呢?又或者是患有贫血的女性对该商品的需求呢?那么之前的样本可能不能用,因为可能之前采集的样本中怀孕妇女的数据和贫血女性的数据根本不够多,这就是小数据时代的另外一个尴尬。

  但是大数据时代来了,在这里我们先给出《大数据时代》这本书里对大数据的定义,也是我个人十分赞同的一个定义,大数据就是指全部的数据,而不是个别样本。大数据时代,当人们已经可以以一种低成本的方法得到想要的全部数据,或者接近全部的数据,我们就不必再考虑随机性的问题了,因为我们不是在采样,而是在收集全部可用数据。另外小数据的局限性也得到了解决,以往我们都是只针对某个特定问题去搜集某种符合需要的样本,而这些样本只能解决这个特定的问题,但是大数据时代我们能收集所有的数据,变化就在于,只要我们拥有了所有数据,那么我们只要想解决什么问题,就能解决什么问题,不用再重新采样。举个例子,谷歌作为全球最大的搜索引擎,每天接收超过30亿条的搜索,于是他们利用所有的这些搜索记录,做了一件事,就是通过搜索记录去预测美国流感爆发的时间与地区。他们事先甚至根本不需要假定流感爆发有可能和哪些搜索词的搜索量有关,因为他们拥有全部数据,他们要做的就是将所有的搜索词条的搜索量和美国的流感爆发作相关性分析,最后据说得出40几个相关性很高的词条,然后通过对这些词条搜索量的预测来预测美国流感的爆发,据说准确性达到97%以上。讲到这里,不得不提一下拥有全部数据所带来的质变,那就是相关性被发现的概率被大大地提高。当你拥有全部数据的时候,人们认识世界不再需要通过“提问”,而是可以直接通过分析,不带任何目的和问题的分析。举个例子,美国著名超市连锁商塔基特(Target,个人觉得这中文译得。。。不敢直视)在分析用户的购买数据时就发现了男士在购买尿布的时候往往会顺带购买几瓶啤酒,于是在这个分析的基础上塔基特就推出了尿布和啤酒打包出售的策略,进而获得了很好的利润,这个案例甚至已经被视为大数据时代的典型代表了。我相信大数据时代出现以前,人们肯定也想过要了解人们购买某种商品和某另外一种商品之间的相关性,好用来指导商场里面商品的摆放位置等等,但是有谁能想到把尿布和啤酒联系在一起呢?如果连这个问题都没有,那么在小数据时代是根本不可能发现这个联系的。但是大数据时代不一样,既然你有全部数据,那么你就可以随便分析,根本不需要任何假定前提,这样做就能让人们发现更多以前不能发现的知识。顺便说一句,后来人们调查发现,原来是那些爸爸们买完尿布之后是为了犒赏自己一下,所以通常会买几瓶啤酒作为自我奖励。

  (友情提示一下,此处约为本文1/3处,请读者慎重考虑是否要继续阅读)

  为了控制文章篇幅,赶紧进入下一个议题,就是小数据时代对数据的高精确性要求在大数据时代还存在吗?在小数据时代我们很容易理解,因为样本总量少嘛,所以每个个体的误差对整体误差存在较大的影响,因此我们追求数据的精确性。但是大数据不一样,因为大数据相对于小数据第一个特征就是数据容量大嘛,数据量大自然对每个数据的容错率高,这是个简单的数学问题。第二点就是大数据分析只能给出相关性,而且基本以概率的形式出现,也就是说大数据从来就不是用来找精确关系的,所以容错率就更高了,像前面提到的谷歌流感预测系统,最终也只能给出在某段时间内可能爆发流感的概率,而不可能得到类似“哪一天在哪里一定会爆发流感”这样的结论。再者,其实混乱度(或者说不精确性)是数据本身固有的性质,因为这世界上本来就不是所有的东西都可以精确地“数据化”的,注意,是数据化,不是“数字化”。举个好玩的例子,“男性”和“女性”本来是结构化数据,因为不是男,就是女嘛,但是事实却是,有的人他就真的是“不男不女”,或者说“时男时女”。为什么呢?以淘宝为例,可能一个男性用户注册了淘宝账号,性别填的是男,但是他谈恋爱以后他女友经常用他的淘宝账户买东西,或者他老妈也经常用他的账户买东西,于是他的购买行为就会时男时女了,那么你说这个用户TA是男还是女呢?所以大数据时代我们要懂得拥抱大数据的混乱度,这样我们才可以充分利用大数据分析的另外一个好处——实时性。举个例子,近几年很流行“智能城市”,就是用数据分析去指导我们的城市建设,公共设施管理等等,其中典型的用途就是用来舒缓大城市的交通压力。像北京,很多地方都会有显示市内哪些地方是所谓的“绿色通道”,就是车流比较少的地方,那么车主们就可以改行那些道路,但是事实却是大家看到指示之后都涌向绿色通道,当你去到那些所谓的“绿色通道”的时候,已经“红”了。问题就在于那些交通指示更新得太慢了,很多时候显示的都是20分钟以前的道路状况,因为他们可能在浪费很多时间在提高数据精确性上,却不知道很多时候数据的实时性比精确性来得重要,你说100%准确的交通信息和20分钟的延时,跟90%准确但却实时的交通信息那个更有价值?明显是后者。

  最后也是我觉得最有意思的一个点,就是大数据时代对人们世界观的冲击。其实前文已经提到过一个词语很多次,叫做“相关性”。大数据时代的出现大大提高了“相关性”的地位。为什么呢?我认为这是典型的商业思维所推动的,因为商人从来只重视效率。举个例子,亚马逊有一套很完整的图书推荐系统,这套系统就是通过对你平时购书的数据的分析来预测你下一本将要买的书是什么,从而把那本书推荐给你。也许它的分析结果会表明大部分买过蔡康永的书的消费者都会买韩寒的书,那么拿到这个分析结果的亚马逊第一件要做的事是什么呢?就是对买过蔡康永的书的消费者推荐韩寒的书,而他们根本不会关心为什么买蔡康永的书的人会买韩寒的书,因为他们只是商家,不是科研机构。《大数据时代》里面作者就提到了在未来的大数据时代里,人们会从热衷于追求“因果关系”转向只关心“相关关系”。他提出了几个有意思的论点,一是相关关系的重要意义在于捕捉现在,预测未来,而人们对预测未来从来都是十分关心的;第二就是建立在理论和假设前提下寻找相关关系,也就是试图寻找因果关系有两个弊端:1,过程缓慢;2,容易受个人偏见和团队偏见的影响;第三点就是寻找精确的因果关系成本太高。前面两点很容易理解,我要特别提一下第三点,因为我觉得这完全打破了我的科研价值观。如果我们真的想得到A和B之间的严格的因果关系或者说数量关系,那么我们必须确保在实验过程中我们能做到“只改变A”,然后再测量B。问题是有可能做到“只改变A”吗??其实我们在研究因果关系的时候都在某种程度上简化了我们研究的系统,首先我们假定系统只受某些我们认为重要的因素的影响,而忽略其他环境因素;然后我们假定我们可以只改变系统中的单一变量,但事实是,我们清楚知道世间万物都存在联系,我们根本就不可能或者非常难只改变某个单一变量,于是追求精确的因果关系实际上是一件成本异常高的事情,因为两件事情之间的联系因素有可能太多,以至于我们不可能追溯其中的因果关系。总的来说,大数据时代,就像前文提到的,大大地增加了各种相关关系被发现的机会,然后社会追求效率的趋向又会把这种效应放大,所以维克多·迈尔-舍恩伯格认为人们会放弃因果关系,而投向相关关系。不过对于这点我就不是很同意,主要有两点原因。第一就是相关关系和因果关系根本不是两个平行概念,而是包含与被包含的关系。我认为,世界上所有的相关关系都是因果关系,什么叫相关?就是所谓的“A则B”嘛,然后我们习惯地称时间上先出现的为“因”,时间上后出现的为“果”。那么什么是因果关系呢?因果关系就是那些可以被推理的,可以被验证的或者说可以被证明的相关关系。由于大数据时代得出的相关关系很多时候是表面上根本看不出因果关系的,因为我们拥有全部数据,我们引入考量的因素太多,有些因素可能我们首先会认为根本不可能起作用的,但是最后分析结果却说起作用了,于是我们找到一个新的相关关系,但是有可能这个相关关系中间的因果链的复杂程度超乎我们的想象,于是很多人放弃探索因果关系。尽管效率偏向于相关关系,但是人类有可能会放弃对因果关系的探求吗?我认为不可能,因为随着经济发展,人们的闲暇时间将会越来越多,而且会思考从来就是人类的一大缺点,你说会不会有人还是坚持执着地要找出事物的内在联系,所谓的因果关系?答案是肯定的。

  以上所说的,一,大数据时代不再是“采样”,而是用全部数据;二,大数据时代不再热衷于追求精确度;三,大数据时代不再热衷于寻找因果关系,这三点就是《大数据时代》这本书的三个主要观点,当然这本书还有讲了很多内容,例如大数据的核心价值,新商业模式还有大数据带来的隐忧等等,各位有兴趣请自行阅读,这本书的确是一本好书。

  说完书中的观点,我再来讲讲一些我认为好玩的东西,虽然文章篇幅已经很长了,但是我觉得感兴趣的读者自然会想看下去的,不感兴趣的也读不到这里。

  第一件想说说的事是大数据与创新,前一阵子美国Netflix公司通过大数据分析,得到了最有可能获得最高收视率的演员阵容和导演编剧等等的其他人员的一个名单,包括电视剧内容元素等,最后推出了一部叫《纸牌屋》的电视剧,结果一推出之后的确是得到了超高的收视率,这当然一方面证明了大数据的力量,但是另外一方面却提出了一个问题,就是大数据会扼杀创新。因为大数据分析嘛,肯定是基于以前历史上的所有数据,然后通过对数据分析来预测人类行为,你说这样的基于历史数据的预测有可能有创新吗?是不可能的,因为它本质上是用以前的相关关系来预测未来,而什么是创新?创新就是创造新的相关关系。其实据说现在很多好莱坞的导演都受到各方面来自大数据的压力,因为有很多大数据分析公司就会对以往电影进行分析,从而得到有可能大受欢迎的下一部电影的相关信息,然后电影投资方肯定是相信分析要多于相信导演、编剧的个人能力吧,因为这涉及到成本与收入的问题啊,所以一旦大数据统治人类社会的话,创造性很可能会被泯灭。所以维克多·迈尔-舍恩伯格自己也在书中提到,未来社会最理想的方式是大数据结合人性。

  第二个我想讲的有趣的点就是大数据时代究竟是我们在决定自己的行为还是别人在决定我们的行为?现在各种推荐系统随处可见,甚至统治了我们很大一部分的“网络视野”。举个例子,现在有一个还比较火的手机软件叫“今日头条”,在iOS和Android上都有,这个软件其实就做一件事情,就是给你推送各种新闻,然后从你的浏览历史上去分析你对哪些新闻感兴趣,然后慢慢自动客制化成只向你推送那些你感兴趣的消息,最后你的世界就变成了可能只有运动,或者只有旅游。你可能就会发现一个问题了,究竟是我自己选择了我只看体育新闻,还是这个软件导致了我只看体育新闻?现在的推荐系统都是根据用户浏览历史从而得出用户喜好然后进行推荐,这样做的后果就是慢慢的我们就只能看见我们“感兴趣”的东西了,问题是我们对别的东西就真的不感兴趣了吗?或者说这些网络是不是剥夺了我们对其他东西感兴趣的权利?因为我们连别的东西都看不到,如何对别的东西突然产生兴趣呢?

  第三我要引用乔布斯说的一句话:“用户永远不知道自己想要什么”。大数据时代的商业决策,市场调查等等会受到重大的变革。先举个例子,谷歌前一阵子想要更换搜索页面的顶栏的颜色,于是谷歌内部的首席设计师给出了一种偏淡蓝的颜色,当然根据的是自己多年的设计经验和个人直觉啦。然而通过大数据分析却给出了另外一种蓝色,而实验结果表明,大数据分析给出的那个颜色使谷歌带来了几千万的额外收入,为什么?不为什么,就是纯粹因为人们喜欢点击那个特定的蓝色而已,也许是因为大脑深层的某种作用,反正我们无所得知。其实现代的很多企业已经出现首席数据官这种职位,就是专门分析大数据的,大数据时代对商业决策带来的重大变革就是人们不再根据个人经验去做出决策,而是根据数据,或者说“事实”,用事实说话。其实自从商业出现以来,消费者心理一直都是商家所十分迫切想要知道的,所以有市场调查这个部门。以往的市场调查嘛,主要是问卷,说个罗胖讲过的例子。以前电视台统计收视率的时候都是发卡片,然后每个人自己“诚实地”填上自己每天晚上都看些什么节目。但是人嘛,总是有虚荣心,结果大家一律都是填的类似新闻联播这种“主流”节目,于是根据当时的统计,这种主流节目的收视率就非常高。但是到后面,出现了类似信号传输器的东西之后,电视台自己就可以收集人们的电视收看数据了,当时这种新技术出来以后,各大主流节目的收视率突然下降了很多,就因为之前大家收集到的都不是真实的数据。所以你说去做调查究竟靠不靠谱?有一句话是这样说的,要想知道一个人真正喜欢什么,不要看他的口,要看他的腿(手)。意思就是不要听他说什么,你看他真正在做什么就知道了。也就是说用户“告诉”我们的不一定是真实的。但是大数据时代不一样啊,人们的行为都真实地反应在了互联网上面,根本不是靠你“说”,而是直接看你“做”了什么,所以得到的数据就非常真实。市场调查不靠谱的第二点就是,我一开头所引用的“用户根本不知道自己想要什么”。当然啦,乔布斯讲这句话的意思其实是说从用户那里你得不到创新的灵感,因为iPhone出来之前没人会知道自己会这么喜欢触摸屏,就像你叫福特去问当时人们想要如何改善交通工具,人们只会说“一匹更好的马”,而不是“一辆车”。但是我这里讲的“用户根本不知道自己想要什么”的意思是指就算用户是100%诚实的,他们也不可能了解自己的深层心理,或者说潜意识喜欢什么。还是谷歌改颜色那个例子,你说谷歌做个调查去问问网民们喜欢什么颜色,会得到那个大数据分析的结果吗?肯定不会,我们可能都以为我们喜欢红色,但是浏览网页的时候就是会不自主地点了一下那个蓝色,至于为什么?我们自己都不知道。所以大数据时代,收集人们实际上“做了什么”是个很重要的质变。

  最后来讲一下大数据时代下的“隐性偏见”。很多人都会认为数据是纯理性的冷冰冰的东西,所以得出来的结论也应该是纯理性,不带偏见的,其实这种观点有时候不成立。举个简单的例子,波士顿政府为了整治城市内下水道井盖问题而开发了一个手机软件,让人们一旦在城市内看到水井盖问题就通过这个软件向政府汇报,进而改善这个问题。这项措施听起来很好,很完美,但是仔细一想,在结合一下别的数据,例如波士顿穷人区富人区分布,例如波士顿人均拥有智能手机数的分布,再例如不同年龄层拥有智能手机的人数分布。我们就能得出这样的一个结论,这项通过智能手机软件改进水井盖的措施只会偏向于改善富人区中年轻人常出没的地方的水井盖问题,至于穷人区,本来就没几个人有智能手机,怎么汇报数据,怎么得到政府关注?这就是大数据的一个隐性偏见。重点就在于任何数据都是基于某个背景或者条件下收集上来的,所以本身就可能带有偏见,我们在处理数据时一定要注意这一点。

  终于说完了我对于大数据时代想说的东西了,不容易啊,7000多字,连我自己都不忍再看一遍了……

  最后推荐:

  书:

  维克多·迈尔-舍恩伯格——《大数据时代》

  (美)BillFranks——《驾驭大数据》

  涂子沛——《大数据:正在到来的数据革命》

  视频:

  头脑风暴2013:大数据时代来了?

  http://v.youku.com/v_show/id_XNTc3NDE5OTAw.html

  头脑风暴2013:商业巨头如何玩转大数据?

  http://v.youku.com/v_show/id_XNTgwMjExMDg0.html

  头脑风暴2013:创业者如何掘金大数据?

  http://v.youku.com/v_show/id_XNTgyOTg0OTUy.html

  大数据的隐性偏见

  http://v.youku.com/v_show/id_XNTM5OTEyMjMy.html