《大数据时代：生活、工作与思维的大变革》读书笔记1

　　在北航读大数据也已经有一年多了，但是我感觉到自己始终没能够从宏观的方面想清楚大数据为什么是趋势、效率如何评估、怎么用才最好。这可能是因为自己还没有学习到位、思考的少；也可能是因为诸如机器学习、云计算、数据挖掘以及R语言工程实践这样的课程涉及的都是具体的技术，从技术谈起最好，而专门花费一门课去谈概论在这个阶段略显多余；还有可能是因为大数据这个领域太新太繁杂，很多东西渗透在技术其间而不好单独剥离而出，所以避而不谈让你自行品味悟道......这就激发了我去读关于大数据概论的书籍。这本《大数据时代：生活、工作与思维的大变革》很符合我的需求，因为要的就是站在一个全新的思维层面去思考自己到底在学些什么，以后会做些什么，事实上这本书也就是这样写的。

　　本书在引言部分开门见山的点明作者观点，即大数据开启了一次重大的时代转型；在正文部分从三个主要的方面探讨了大数据时代的特性、规则和优势，即大数据时代所带来的思维变革、商业变革和管理变革；在结语章节预测了一下大数据的未来。全书结构清晰、文字通俗易懂，本书的两位作者，英国牛津大学网络学院的教授维克托迈尔－舍恩伯格、《经济学人》数据编辑肯尼恩－库克耶，举了很多的例子，在每个例子里都着重对比了大数据时代前后的不同，让人读后高下立判。

1、引言——一场生活、工作与思维的大变革

　　大数据，变革公共卫生：在甲型H1N1禽流感大爆发的时候，美国也是要求医生在发现新型流感病例的时候告知疾病控制与预防中心。但是问题在于，这种统计疫情的方式会有一定的延迟。比如说，人们可能患病多日受不了了才去医院、医生把情况确认并传给疾控中心需要时间、疾控中心每周才进行一次数据汇总等等，延迟的时间往往在一到两周。对于甲流这种飞速传播的致命疾病来说，信息滞后两周是致命的，因为这种滞后会导致公共卫生机构在疫情爆发的关键时期无所适从。面对这个问题，谷歌的工程师们发表了一篇引人注目的论文，论文不仅解决了这个信息迟滞的问题，而且在疫情爆发的初期就能够发现源头，定位传播辐射轨迹，精确程度可以到特定的地区和州。怎么办的呢？就是通过观察人们在网上的搜索记录结合所建立的数学模型来完成预测。谷歌每天在30亿条搜索指令中关注特定的一些检索词条，如“治疗咳嗽和发热的药物”、“流感吃什么好”等等，且并不关注词条的本身，重点在于关注特定的检索词条使用频率与流感在时间和空间上的传播之间的联系。谷歌为了测试这些检索词条，总共处理了4.5亿个不同的数学模型，再将得出的预测与07、08年美国疾控中心记录的实际流感病例对比之后，发现了结论：当把其中的45条检索词条组合用于一个特定的数学模型之后，他们的预测与官方数据的相关性高达97%！那么这样，他们就可以在以后的流感疫情中进行有效、快速、实时的预测。这就是一种大数据独有的新型能力，以一种前所未有的方式，通过分析海量数据，获得巨大的价值和服务，或深刻的洞见。

　　大数据，变革商业：航空公司的飞机票价格是在不断变动的，原因只有航空公司知道，但是顾客总倾向于能在最合适的时候买到最便宜的票。2003年，华盛顿大学的埃齐奥尼创造了一个系统，用来推测当前网页上的机票价格是否合理。他这个系统并不需要去解开飞机票价格差异的奥秘，要做的就是预测当前机票价格在未来的一段时间内是上升还是下降。如果是下降趋势，系统就会建议用户稍后购票；反之则提醒立即购买。他当初设计这个系统的时候，这个价格预测系统是建立在41天之内的12000个价格样本的基础之上的，这些数据都是他从一个旅游网站爬取的。这个系统对于价格为什么会变的这个“因”一无所知，它所知道的就是利用其他航班的数据与要买票的这个航班的“关系”去预测未来机票的走势。为了保障自身的透明度，它还会有一个票价走势的可信度预测。后来埃齐奥尼找到了一个行业机票预订数据库，而系统的预测结果是根据每一条航线每一个座位一年内的综合票价记录得出的，准确性大大提升。如今，这个名叫farecast的预测系统已经有了2000亿条飞行纪录，预测准确度达到75%，平均每张机票节省50美元，为消费者节省了一大笔钱。后来，微软花1.1亿美金收购了farecast，这个系统被并入了bing搜索引擎。

　　大数据，变革思维：大数据时代有哪些思维方式是在发生变革的呢？1、数据成为了商业资本，以前数据用完了就没用了，比如一张飞机票，飞机降落了，没用了，但是现在却发现成为了构建预测模型、降低政府和企业成本，进一步缩小世界进一步逼近真相的重要资源，是人们获得新的认知、创造新的价值的源泉；2、就像上一个例子所说的，社会需要放弃它对因果关系的渴求，而仅需关注相关关系。也就是说只需要知道是什么，而不需要知道为什么，这是一种极大的思维颠覆；3、大幅提升工作效率使得人们对一些问题的认知不再停滞，很多知识的边界被极大的扩展，比如人类基因测序，03年破译人体基因密码，辛苦工作了10年才完成了对30亿碱基对的排序，现在利用世界范围内的基因仪，只需要15分钟，再比如人类的知识总量，据估计，到13年是1.2ZB，而可能以后每过几年就能翻一番。

　　大数据，大挑战：大数据的精髓在于三大转变，第一，在大数据时代，可以分析更多的数据，有时候甚至可以处理和某个特别现象相关的所有数据，而不再依赖于随机采样。第二，研究数据如此之多，以至于我们不再热衷于追求精确度。以前数据少的时候，统计学家们着重于采样的随机性和统计结果的精确性，但是当大数据时代来临时，可能样本＝全部，那么绝对的精确不一定就是追求的主要目标，而在宏观层面则会有更大的洞察力。第三，我们不再热衷于寻找因果关系，而是更多的寻找相关关系。这一点其实很实用，因为相关关系也许不能准确地告知我们某件事情为何会发生，但是它会提醒我们，这件事情正在发生。也许多数情况下，这样的帮助就已足够。“大数据时代开启了一场寻宝游戏，而人们对于数据的看法以及对于由因果关系转为相关关系时释放出的潜在价值的态度，都是主宰这场游戏的关键。还有就是，人类面对的信息方面的危险可能不在于隐私的泄露，而是被预知的可能性。

2、第一部分01——更多：不是随机样本，而是全体数据

　　第一部分名叫“大数据时代的思维变革”，包括01、02、03三章，主要探讨的就是在引言里作者提出的三个重要的思维转变。第一部分01要介绍的就是第一个转变：利用所有的数据而不是仅仅依靠一小部分数据。

　　让数据“发声”

　　小数据时代的随机采样，是用最少的数据来获得最多的信息。在过去，统计学的发展是非常源远流长的，因为完全统计所需要耗费的成本太多，就比如说人口的普查、土地的丈量、财富的统计，这些关乎国计民生的大事，不可能不知道，但是要准确的知道又代价太大。一直以来统计学家们的任务，就是要通过采样分析来以尽量少的数据量得出尽量多且准确的知识。为了取得样本的随机性，统计学家们作出了大量的艰苦卓绝的努力，一直以来随机采样也是社会的主心骨。但是问题是，这种随机采样只是一条捷径，是在不可收集和分析全部数量的情况下进行的选择，本身存在着很多固有的缺陷。对于统计人口这样的简单抽样问题，可以采用经典随机抽样；但是毕竟存在着最优抽样的判断标准和最优方法。最近，祝建华教授在一次讨论中指出，如果抽样的对象更加的复杂，例如是一个网络，那么根本找不到一个最优抽样的标准，更不可能奢求抽样得到的小网络能反映总体的结构性特征。另外，随机采样也不适合考察子类别的情况，想了解更深层次细分领域的情况也不可取，成本也不低，需要有严密的安排与执行。而现在，由于我们的计算机存储能力、计算能力以及互联网、云计算、物联网等技术的充分发展，使得我们可以进入大数据时代里的“全数据模式”。

　　在“全数据模式”里，样本＝总体。采样的目的在于用最少的数据得到最多的信息，但是当我们可以获得海量数据的时候，它就没有什么意义了。我们应该让数据自己去发声，而不是靠我们的预测。数据处理技术已经发生了翻天覆地的改变，而我们的思维却还没有能够跟得上这样的改变。之前我们也曾提醒过，数据现在是一种资源，那么用过的数据难道就不要了吗？错了，就如同最一开始举的谷歌的例子还有飞机票的例子一样，你掌握的历史数据资源越多，你的预测结果就越准确，而且这样海量的数据，完全可以克服随机抽样只能“聚焦所提出的调查问题”的限制，而是可以深度分析出许多新的东西。这就好比是说，数据想要告诉你的，比你想要知道的更多。

　　比如说，经济学家斯蒂夫－列维特在《美国经济评论》上发表了一篇研究论文，在论文中，他研究了关于日本相扑比赛中有人操纵比赛的问题。他和助手使用了11年中超过64000场相扑比赛记录，来寻找异常性。他们获得了重要的发现，那就是非法操纵相扑比赛结果的情况确实时有发生，但是不会发生在大家很关注的比赛上，冠军赛也有可能被操纵，但是数据显示消极比赛主要还是出现在不太被关注的联赛后几场中。后来他们还发现一个问题，那就是在相扑界有“帮对手一把”的习俗。当两个人比赛，比赛的结果对于其中一个人很重要而对于另一个人不重要的时候，需要赢的那个人很可能就会赢。看起来就好像是对手送了他一个礼物，因为在联系紧密的相扑界，帮别人一把就等于给自己留了一条后路，下一次他也会帮你。那么有没有可能是因为那个需要赢的人求胜的决心帮助他去赢呢？有可能，但是数据显示，这样的情况也只能把胜率提高25％。拥有了海量的数据，就可以让数据自己说话，告诉我们一些掩藏在数据下更多的信息，但是如果是随机抽样，就做不到继续深入发掘。

3、第一部分02——更杂：不是精确性，而是混杂性

　　这一章讨论的是第二个思维的转变：不再过分强调精确，而是允许海量数据下的混杂，从而从更佳宏观的角度去深化认知。

　　在这一章的提要里有这样一段话，我觉得很能说明作者的态度：“执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是结构化且能适用于传统数据库的。如果不接受混乱，剩下的95%的非结构化数据都无法被利用。只有接受了不精确性，我们才能打开一扇从未涉足世界的窗户。”我个人觉得，不精确绝对不是一种错，而是接受现实的表现；反之，如果一定要假设这个世界是规则的，能够把所有的数据都整理成为精确的，现实条件不允许，现实工作和生活中会受到这种思想的桎梏。

　　允许不精确

　　过去，我们生活在“小数据”时代，为了了解大世界，我们必须要依靠统计。所以，对于“小数据”而言，最基本、最重要的要求就是减少错误，保证质量。但是，在不断涌现的新情况里，允许不精确的出现已经成为了一个新的亮点，而非缺点。因为放松了容错的标准，人们掌握的数据也多了起来，还可以利用这些数据做更多新的事情。这样就不是大量数据优于少量数据那么简单了，而是大量数据创造了更好的结果。

　　这里的混乱都包括哪些混乱呢？1、错误的数据；2、格式不一致的数据；3、容易混淆的数据，比如说全世界简称为IBM的组织可能有成千上万等等。

　　为什么说数据多了，就可以允许不精确的情况发生呢？或者说为什么大数据就不会害怕混杂错误的数据呢？书里面举了一个小例子：假设你要测量一个葡萄园里面的温度，但是整个园里面只有一个温度测量仪，那么你就必须确保这个测量仪能够一直工作，反过来，如果每100棵葡萄树就有一个测量仪，有些测试的数据可能是错误的，可能会更加的混乱，但是众多的读数合起来就能提供一个更加准确的结果，因为这里面包含了更多的数据，而它不仅能抵消掉错误所产生的影响，还能提供更多的额外价值。况且，大数据其实从来没有说要板着一副“确凿无疑”的面孔，而是通常用概率说话。还有一点就是，当我们想要扩展数据规模的时候，也必须要学会拥抱混乱。

　　大数据的简单算法比小数据的复杂算法更有效

　　作者举了翻译的例子。在最初进行翻译的时候，是IBM公司在做，他们根据语法规则、语义序列，将250个词语和六条语法规则定为基础，将60个俄语词组翻译成为了英语，而且对于特定的俄语句子翻译的还特别的流畅。当时人们觉得，只要把规则定的足够全面，那么扩展到全语言将不是问题。但是很快他们就遭受了打击并且不得不承认失败，因为机器翻译不能只是让电脑熟悉常用规则，还必须教会电脑处理特殊的语言情况，而且翻译也不仅仅是记述，还涉及选词。比如法语中的“bonjour”就一定是“早上好”吗？有没有可能是“喂”、“今天天气不错”、“吃了吗”？事实上都有可能，要根据情况而定。但是大数据让人们有了一个更简单但是更有效的处理办法，那就是：与其教给计算机语言的规则和词汇，不如让计算机自己去估算一个词或者一个词组适合于用来翻译另一种语言中的另一个词或另一个词组的可能性，然后再决定某个词和词组在另一种语言中的对等词和词组。所依托的，就是大数据强大的语料库。其实把全人类的语言按照语料库的标准去大概容错式的组合起来的话，就是950亿句话。随着语料库的不断扩展壮大，机器的翻译就越流利、准确。最重要的一点是，这个复杂的翻译问题，就因为有了大数据，而变成了简单的数学概率选择问题！如今，谷歌的翻译由于它在搜索引擎方面强大的收集能力，已经拥有了万亿级别的语料库。与拥有百万英语单词的布朗语料库相比，谷歌的语料库是布朗语料库的退步，因为这里面有未经过滤的网页内容、不完整的句子、拼写错误和语法错误，也没有人工纠错后的详细注解，但是谷歌语料库是布朗语料库的好几百万倍大，这样的优势就完全压倒了缺点。

　　混杂性，不是竭力避免，而是标准途径

　　大数据时代，我们需要重新审视精确性的优劣。很多时候，在我们掌握了大量新的数据的时候，精确性就不那么重要了，我们同样可以掌握事情的发展趋势。大数据，不仅让我们不再期待精确性，也让我们无法实现精确性。值得注意的是，错误性也不是大数据本身所拥有的，只是因为技术和手段仍然存在着缺陷，所以说错误并不是大数据固有的特性，而是一个亟需我们去解决的现实问题，并且有可能长期存在。很多时候，我们需要的是一种趋势，而部分的错误并不特别影响这样的趋势，因为数据量足够大。

　　其实人一贯的认知之中也有着类似于大数据的观点。比如说点赞，当数量不多的时候，人们会关注像“64”这样精确的数字，数量大一些的时候就会关注大概的近似值，比如“4000”，系统正是按照人的这种认知来设计的。再比如说收到邮件，很短的时间内，显示的是“11分钟以前”；但是时间长一点，就显示“2小时以前”就可以了。人一直想追求一个“一直唯一的真理”，但是事实是一个问题的答案可以有很多种，它们都对，反而追求那个一直唯一的真理，在一些情况下是对于注意力的分散了。所以想要获得大数据带来的好处，混乱应该是一种标准途径，而不应该是竭力避免的。

　　我们甚至发现，不精确已经渗入到数据库设计这个最不能容忍错误的领域里了。以前数据库都是关系型的数据库，数据和结构都是一致的、整齐的，而近年来的大转变就是非关系型数据库的出现。它不需要预先设定记录结构，允许处理大量五花八门的数据，因为包容了结构的多样性，这些数据库设计就要求更多的处理和存储资源。但是一旦考虑到大大降低的存储和处理成本，这就是我们可以支付的起的公平交易。来自微软的帕特－赫兰德是最权威的数据设计专家之一，他的一句话一针见血：“我们再也不能假装活在一个齐整的世界。”

　　其实，现在的社会正在悄然的发展和变化，有两个折中的想法正在不知不觉的渗入到我们的处事方法中，第一个折中是，我们默认自己不能使用更多的数据，所以我们就不会去使用更多的数据，但是数据量的限制在逐渐消失，通过无限接近于“样本＝总体”的方式来处理数据，我们会得到极大的好处；第二个折中是，大数据时代，快速的获得一个大概的轮廓和发展脉络，就要比严格的精确性要重要的多。有一个比方我觉得打得很好，这就像印象派的画风，近看每一笔都感觉是混乱的，但是退后一步就会发现这是一部伟大的作品，因为退后一步，你就能看出来它整体的思想。

　　大数据要求我们有所改变，我们必须接受混乱和不确定性。精确性似乎一直是我们生活的支撑，就像我们常说的“钉是钉，铆是铆”。但是认为每个问题只有一个答案的想法是站不住脚的，不管我们承认不承认。一旦我们承认这个事实并且拥护这个事实的话，我们离真相就又近了一步。