2016——大数据版图

编者注：原文是 FirstMark Capital 的 Matt Turck 的文章。本文全面总结了大数据领域的发展态势，分析觉得虽然大数据作为一个术语似乎已经过气。可是大数据分析与应用才刚刚開始兴起，在与 AI、人工智能等新兴技术的结合下，大数据的机会或许要比大家想象的还要大。2016年大数据版图高清版可到此处下载。

在喜新厌旧的技术初创企业界。已有 3年历史 “大数据” 听起来似乎已经过气了。

尽管 Hadoop 在 2006年已经出来。但 “大数据” 这个概念大概是在 2011 到 2014年左右才真正火起来的。

也就是在这段时间里，至少是在媒体或者专家眼里。“大数据” 成为了新的 “金子” 或者 “石油”。

然而，至少在我跟业界人士交谈中。大家越来越感觉到这项技术已经在某种程度上陷入了停滞。

2015年可能是数据领域的那些酷小子转移兴趣，開始沉迷于 AI 以及机器智能、深度学习等很多相关概念的年份。

抛开不可避免的炒作周期曲线态势无论。我们的 “大数据版图” 已经进入第 4 个年头了。趁这个时候退一步来反思一下去年发生了什么。思考一下这个行业的未来会如何是非常有意义的。

那么 2016年大数据究竟还算不算个 “东西” 呢？我们最好还是探讨一下。

企业技术=艰苦工作

大数据有趣的一点在于，它不再像当初经历过那样有可能成为炒作的题材了。

经过炒作周期后仍能引起广泛兴趣的产品和服务往往那些大家可以接触、可以感知。或者与大众相关联的：比方移动应用、社交网络、可穿戴、虚拟现实等。

但大数据基本上就是管道设施的一种。当然，大数据为很多消费者或商业用户体验提供了动力。但它的核心是企业技术：数据库、分析等，这些东西都是在后端执行的，没几个人能看得见。就像在那个世界工作的不论什么人都知道那样。用一个晚上的时间就想适应企业端的新技术是不可能的。

大数据现象在早期主要是受到了与一批骨干互联网公司（尤其是 Google、Facebook、Twitter 等）的共生关系的推动。这些公司既是核心大数据技术的重度用户。同一时候也是这些技术的创造者。这些公司突然间面对着规模前所未有的庞大数据时，因为本身缺乏传统的（昂贵的）基础设施。也没有办法招募到一些最好的project师，所以仅仅好自己动手来开发所需的技术。后来随着开源运动的迅速发展。一大批此类新技术開始共享到更广的范围。然后，一些互联网大公司的project师离职去创办自己的大数据初创企业。

其它的一些 “数字原生” 公司。包含崭露头角的独角兽公司，也開始面临着互联网大公司的类似需求。因为它们自身也没有传统的基础设施。所以自然就成为了那些大数据技术的早期採用者。而早期的成功又导致了很多其它的创业活动发生，并获得了很多其它的 VC 资助，从而带动了大数据的起势。

高速发展了几年之后，如今我们面临的是更加广阔、但也更加棘手的机遇：让中等规模到跨国公司级别的更大一批企业採用大数据技术。这些公司跟 “数字原生” 公司不一样的是，他们没有从零開始的有利条件。

并且他们失去的会很多其它：这些公司绝大部分的现有技术基础设施都是成功的。

那些基础设施当然未必是功能完备的。组织内部很多人也意识到对自己的遗留基础设施进行现代化应该是早点好过晚点。但他们不会一夜间就把自己的关键业务代替掉。不论什么革命都须要过程、预算、项目管理、试点、局部部署以及完备的安全审计等。大企业对由年轻的初创企业来处理自己基础设施的关键部分的慎重是能够理解的。还有，令创业者感到绝望的是。很多（还是大多数？）企业仍顽固地拒绝把数据迁移到云端（至少不愿迁移到公有云）。

还须要理解的还有一个关键是：大数据的成功不在于实现技术的某一方面（像 Hadoop 什么的），而是须要把一连串的技术、人和流程糅合到一起。你得捕捉数据、存储数据、清洗数据、查询数据、分析数据并对数据进行可视化。这些工作一部分能够由产品来完毕。而有的则须要人来做。一切都须要无缝集成起来。最后，要想让全部这一切发挥作用，整个公司从上到下都须要树立以数据驱动的文化，这样大数据才不不过个 “东西”，并且就是那个（关键的）“东西”。

换句话说：有一堆艰苦的工作要做。

部署阶段

所以，这就是在经过几年引人瞩目的初创企业如雨后春笋冒头。VC 投资频等头条后，我们開始步入大数据的部署期和早期成熟期的原因。

更有前瞻性的大公司（姑且称之为传统技术採用周期的 “早期採用者”）在 2011 到 2013年间開始实验大数据技术。推出了若干的 Hadoop 试点计划（往往是由于赶时髦）或者尝试一些点方案。他们招募了各种各样此前并不存在的岗位（如 “数据科学家” 或 “首席数据官”）。他们进行了各种努力，包含吧所有数据都堆到一个数据容器（“data lake”）。然后希望紧跟着就会发生奇迹（往往不会）。他们逐步建设自己的内部能力。试验了各种供应商。从试点计划到生产中的局部部署，然后到如今争论要不要全企业铺开（全范围铺开实施的情况还非常罕见）。很多情况下，他们正处在这样一个重要的拐点上。即经过大数据基础设施的数年建设后。可以展示的成果还不多，至少在公司内部的商业用户看来是这种。可是大量吃力不讨好的工作已经做完了，如今開始进入到有影响力的应用部署阶段了。

仅仅是从眼下来看。这种建构在核心架构之上的应用数量还不成比例。

接下来的一波大公司（称之为传统技术採用周期的 “早期多数使用者”）大多数时候对大数据技术是持观望态度的。对于整个大数据方面的东西。他们还在心存一定程度困惑中观望。

直到近期。他们还在指望某个大型供应商（比方 IBM）会提供一个一站式的解决方式。只是如今看来这样的情况最近内并不会出现。

他们看待这个大数据版图的态度是心怀恐惧，在想自己是不是真的须要跟这一堆看起来并没有什么不同的初创企业合作，然后修补出各种解决方式。

生态体系正在成熟

与此同一时候。在初创企业 / 供应商这一块，整个第一波的大数据公司（2009 至 2013年间成立的那批）如今已经融了数轮的资金，企业规模已经得到了扩大，而且从早期部署的成功或失败中学到了东西，如今他们已经可以提供更成熟的、经受过考验的产品了。少数一些已经成为了上市公司（包含 2015年上市的 HortonWorks 和 New Relic），而有的（比方 Cloudera、MongoDB 等）融资已经达上亿美元了。

这个领域的 VC 融资活动仍然非常有生气，2016年的前几周我们见证好几轮相当可观的后期阶段大数据融资事件：DataDog（9400 万美元）。BloomReach（5600 万美元），Qubole（3000 万美元）。PlaceIQ（2500 万美元）等。2015年大数据初创企业拿到的融资额达到了 66.4 亿美元，占整个技术 VC 总融资额额 11%。

并购活动则开展得中规中矩（自从上一版大数据版图公布以来完毕了 34 项并购。详细可參见附注）

随着该领域的创业活动持续进行以及资金的不断流入，加上适度的少量退出，以及越来越活跃的技术巨头（尤其是 Amazon、Google、IBM）。使得这个领域的公司日益增多，最后汇成了这幅 2016 版的大数据版图。

显然这张图已经非常挤了，并且还有非常多都没办法列进去（关于我们的方法论能够參见附注）

在基本趋势方面，行动開始慢慢从左转到右（即创新、推出新产品和新公司），从基础设施层（开发人员 / project师的世界）转移到分析层（数据科学家和分析师的世界）乃至应用层（商业用户和消费者的世界），“大数据原生应用” 已经在迅速冒头—这多少符合了我们原先的一些预期。

大数据基础设施：仍有大量创新

Google 关于 MapReduce 和 BigTable 的论文（Cutting 和 MikeCafarella 由于这个而做出了 Hadoop）的诞生问世已有 10年了，在这段时间里，大数据的基础设施层已经逐渐成熟，一些关键问题也得到了解决。

可是，基础设施领域的创新仍然富有活力，这非常大程度上是得益于可观的开源活动规模。

2015年无疑是 Apache Spark 之年。

自我们公布上一版大数据版图以来。这个利用了内存处理的开源框架就開始引发众多讨论。

自那以后，Spark 受到了从 IBM 到 Cloudera 的各式玩家的拥护，让它获得了可观的信任度。

Spark 的出现是非常有意义的，由于它攻克了一些导致 Hadoop 採用放缓的关键问题：Spark 速度变快了非常多（基准測试表明 Spark 比 Hadoop 的 MapReduce 快 10 到 100 倍），更easy编程，而且跟机器学习可以非常好地搭配。

除了 Spark 以外，还出现了其它的一些令人兴奋的框架，比方 Flink、Ignite、Samza、Kudu 等。这些框架的发展势头也非常好。一些思想领袖觉得，Mesos（数据中心资源管理系统，把数据中心当作一台大计算资源池进行编程）的出现也刺激了对 Hadoop 的需求。

即便在数据库的世界里。新兴的玩家似乎也越来越多。

多到市场已经难以承受的地步，这里发生了非常多令人兴奋的事情，从图形数据库（如 Neo4j ）的成熟，到专门数据库的推出（如统计时序数据库 InfluxDB），乃至于 CockroachDB 的出现（受 Google Spanner 灵感启示诞生的融合了 SQL 与 NoSQL 好处的新型数据库）。数据仓库也在演变（如云数据仓库 Snowflake）。

大数据分析：如今跟 AI 结合了

大数据分析过去几个月出现的一股趋势是，越来越关注利用人工智能（形式和风格各异）来帮助分析大规模的数据，从而获得预測性的洞察。

事实上近期出现复兴的 AI 非常大程度上算是大数据的产物。

深度学习（近期受到关注最多的 AI 领域）背后的算法基本上是几十年前就诞生了的，但直到近期可以以足够廉价、足够高速地应用到大规模数据之后才发挥出了它的最大潜能。AI 与大数据之间的关系如此紧密，以至于业界专家如今觉得 AI 已经令人懊恼地 “与大数据陷入了热恋其中”。

只是反过来，AI 如今也在帮助大数据实现后者的承诺。

分析对 AI/ 机器学习越来越多的关注也符合大数据下一步演进的趋势：如今数据我都有了，但到底从中能得到什么样的洞察呢？当然，这件事情能够让数据科学家来解决，从一開始他们的角色就是实现机器学习，否则的话就得想出模型来发现数据的意义。

可是机器智能如今正在逐渐发挥辅助数据科学家的作用—仅仅须要倒腾数据，新兴的产品就能从中提炼出数学公式（如 Context Relevant）或者自己主动建立和推荐最有可能返回最佳结果的数据科学模型（如 DataRobot）。一批新的 AI 公司提供的产品可以自己主动识别像图像这种复杂实体（如 Clarifai、Dextro），或者提供强大的预測性分析（如 HyperScience）。

同一时候，随着基于无监督学习的产品的传播和改善。看看它们与数据科学家之间的关系怎样演变将很有趣—将来这两者是敌还是友呢？AI 当然不会非常快代替数据科学家的位置，但估计会看到数据科学家通常运行的更简单一点的工作越来越多的自己主动化，从而能够极大提高生产力。

但无论如何，AI/ 机器学习绝不是大数据分析唯一值得关注的趋势。大数据 BI 平台的普遍成熟及其日益增强的实时能力也是一个令人兴奋的趋势（如 SiSense、Arcadia Data 等）。

大数据应用：真正的加速

随着一些核心基础设施的挑战得到解决，大数据应用层正在高速构建。

在企业内部，已经出现了各种工具来帮助跨多个核心职能的企业用户。例如说，销售和营销的大数据应用通过处理大规模的内外部数据来帮助找出哪位客户可能会购买、续约或者流失。且速度越来越实时化。客服应用帮助个性化服务。

人力应用帮助找出怎样吸引和挽留最好的员工等。

专门的大数据应用差点儿在不论什么一个垂直行业都有出现，从医疗保健（尤其是基因组学和药物研究）到金融、时尚乃至于执法（如 Mark43）。

有两个趋势值得强调一下

首先。这些应用非常多都是 “大数据原生” 的，本身都是依托在最新的大数据技术基础上开发的，代表了一种客户无须部署底层大数据技术就可以利用大数据的有趣方式—由于那些底层技术已经是打包的。至少对于特定功能来说是这种。

例如说，ActionIQ 就是在 Spark 基础上开发的（或者说是 Spark 的一个派生）。所以它的客户可以在营销部门利用 Spark 的威力而不须要自己部署 Spark，这样的情况下是没有 “装配线” 的。

其次，AI 在应用层也有非常强大的存在。

例如说。在猫捉老鼠的安全领域中。AI 被广泛用来对付黑客，实时识别和对抗网络攻击。去年已经出现了一个 AI 驱动的数字助手行业，支持从任务自己主动化到会议安排（如 x.ai）以及购物等差点儿一切事情。这些解决方式对 AI 的依赖程度不一。从差点儿 100%自己主动化到 “有人參与” 等情况各不同样，可是能够明白的是。人的能力在 AI 帮助下得到了增强。

结论

从非常多方面来看，我们仍然处在大数据现象的早期发展阶段。虽然已经花费了数年时间。但降低基础设施来存储和处理大规模数据还仅仅是第一阶段。AI/ 机器学习已经成为大数据应用层的一股迅猛趋势。

大数据与 AI 的结合将会推动非常多行业的惊人创新。

从这个角度来说，大数据的机会或许要比大家想象的还要大。

然而，随着大数据继续走向成熟。这个术语本身可能会消失，或者变得太过时以至于没有人会再使用这个词。

这就是成功赋能技术令人讽刺的命运归宿—因为技术的广泛传播。然后到达无所不在的地步，最后被人熟视无睹。

附注：

1）因为不可能把大数据的全部公司都列到图表上。所以我们仅仅能依照一定原则筛选部分公司出来，筛选原则一是进行过 1 轮或多轮 VC 融资的初创企业，二是把一些我们特别感兴趣的较早期初创企业列进去。

2）值得注意的收购包含 Revolution Analytics（微软 2015年1月收购），Mortar（DataDog2015年2月收购），Acunu 和 FoundationDB（2015年3月被苹果收购），AlchemyAPI（2015年3月被 IBM 收购），Amiato（2015年4月被 Amazon 收购），Next Big Sound（2015年5月被 Pandora 收购）。1010Data（Advance/Newhouse 2015年8月收购)，Boundary（BMC 2015年8月收购)，Bime Analytics（Zendesk 2015年10月收购)。CleverSafe（IBM 2015年10月收购)，ParStream（2015年11月被思科收购)。Lex Machine（2015年11月被 LexisNexis 收购），DataHero（2016年1月被 Cloudability 收购）。

本文编译自：mattturck.com，如若转载，请注明出处：http://36kr.com/p/5043066.html

GeoHadoop