深入解读大数据

前言

　　近些年，由于计算机、物联网等信息化技术以及传感技术的发展，使得现代生活中出现了“一切皆可数据化”的思维，数据的产生方式由“人机”、“机物”的二元世界向着融合社会资源、信息系统以及物理资源的三元世界转变，数据规模呈膨胀式发展。例如，互联网领域中，谷歌搜索引擎的每秒使用用户量达到 200万，Twitter 每天的推特量已经超过了 3.4亿；科研领域中，仅某大型强子对撞机在一年内积累的新数据量就达到 15PB左右；电子商务领域中，作为世界连锁性企业沃尔玛，其每小时可处理的客户交易可超过 100万笔，相应为数据库注入超过 2.5PB 的数据；航空航天领域中，仅一架双引擎波音 737在横贯大陆飞行的过程中，传感器网络便会产生近 240TB 的数据。综合各个领域，目前积累的数据量已经从 TB级上升至 PB、EB甚至已经达到 ZB级别（1TB=1024GB,1PB=1024TB,1EB=1024PB,1ZB=1024EB，后面更大的单位依次还有YB,BB,NB,DB，换算方式如上。打个比喻：1ZB相等于全世界沙滩上的沙子总和），其数据规模已经远远超出了现有计算机所能够处理的量级，而且全球的数据量正以每 18个月翻一倍的速度呈膨胀式增长。对此全球著名的管理咨询公司 Mckinsey首先提出了“大数据时代”的到来，其认为数据已经渗透到当今每一个行业和业务职能领域，成为重要的生产因素。
　　“大数据”这一词语并不是近几年才出现，其最早是由美国著名未来学家 Alvintoffer 在《第三次浪潮》一书中提出，其将大数据赞颂为“第三次浪潮的华彩乐章”。2000年Diebold所撰写的论文是大数据第一次出现在学术期刊上。但是大数据不等于“大规模数据”，《“大数据”时代》中这样写到:大数据应具有4v特性，即Volume （数据量大）、Velocity（数据处理速度快）、Variety （数据具有多样性）和Value（数据价值密度低）。
　　大数据时代的到来颠覆了工业界、学术界对传统数据的认知，同时也引起了数据获取、存储、分析、挖掘以及可视化等技术的变革。例如，在大数据背景下，新型数据库的开发，大规模存储备的研制，云存储服务方案的提出等，大数据相关技术的更新换代为大数据价值的快速、有效挖掘提供了技术基础。与此同时，大数据以及其相关技术的发展也将成为改变目前人类生产以及生活方式的重要基础。
　　虽然目前大数据在商业领域已经得到广泛关注，相关概念愈炒愈热，但是对于有效的大数据处理技术体系认识不足，且并未清晰阐述大数据在工业领域、科学领域的发展趋势。

大数据分析方向

　　在讨论大数据的文献中，很多人认为，大数据分析就是让数据说话，不需要有任何方向或任何假设。为证明这一点，人们最常引用 “啤酒与尿布”的故事: 多年以前，沃尔玛决定将它的会员卡系统中的数据同它的销售点系统中的数据结合起来。前者主要是沃尔玛顾客的人口统计数据，后者则是顾客消费的数据: 这些顾客在什么时间、什么地方、购买了什么东西。数据合并之后的数据挖掘发现了许多相关关系。有些关系是预料之中的，如买杜松子酒的人通常也买柠檬和通宁水 ( Tonic，用来与烈酒调配鸡尾酒) 。但也有预料之外的关系: 买婴儿尿布的年轻男性也喜欢买啤酒。沃尔玛超市于是将啤酒与尿布摆放在一起，从而大大增加了销售。
　　但该案例并不是现实的真实情况。随后的研究发现，故事的原型不是沃尔玛而是 Osco 连锁药店，该连锁店的分析员确实模糊地记得发现了啤酒和尿布之间的关系。但发现并不是靠电脑软件偶然发现的，而是分析员给软件程序确定了方向去发现的。而且该发现被认为是非正常状况，Osco 连锁店因此没有根据发现采取任何行动。
　　该案例的真实故事告诉我们，在数据量非常大的今天，单靠 “让数据说话”，其实是偏颇的。要有效地实施大数据分析，首先需要确定分析的方向，确定要解决的问题。正如邓白氏首席数据官斯克里费加诺 ( A. Scriffignano) 所指出的那样，最重要的不是数据，而是问题。分析应以问题为导向。这些问题包括 “有没有可能发现新的商业行为，什么样的企业在增长，什么样的企业在走下坡路”。是否有 “新的商业模式、新的合作伙伴、新的服务重点、新的顾客 ” 。曾经领导纽约市的大数据分析小组的 M. Flowers 也指出，大数据驱动的分析主要的挑战不是技术问题，而是方向和组织领导的问题。而要确定方向，提出问题，需要对行业的深入理解。

大数据定义

　　大数据自提出至今得到广泛关注，其并无统一的定义，由于大数据是相对概念，因此目前的定义都是对大数据的定性描述，并未明确定量指标。维基百科中指出，大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间限制的数据集；麦肯锡公司（McKinsey&Company）则将数据规模超出传统数据库管理软件的获取、存储、管理以及分析能力的数据集称为大数据；Gartner (高德纳，又译顾能公司，NYSE: IT and ITB)全球最具权威的IT研究与顾问咨询公司将大数据归纳为需要新处理模式才能增强决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产；徐宗本院士则在第 462次香山科学会议上的报告中，将大数据定义为“不能够集中存储、并且难以在可接受时间内分析处理，其中个体或部分数据呈现低价值性而数据整体呈现高价值的海量复杂数据集” 。虽然以上关于大数据定义的定义方式、角度以及侧重点不同，但是所传递的信息基本一致，即大数据归根结底是一种数据集，其特性是通过与传统的数据管理以及处理技术对比来突显，并且在不同需求下，其要求的时间处理范围具有差异性，最重要的一点是大数据的价值并非数据本身，而是由大数据所反映的“大决策” 、“大知识” 、“大问题”等。

大数据特性

这里写图片描述

数据来源

　　大数据的数据有多种来源，包括公司或机构的内部来源和外部来源。数据来源可分为五大类。

　　1) 交易数据。包括 POS机数据、信用卡刷卡数据、电子商务数据、互联网点击数据、“企业资源规划”( ERP)系统数据、销售系统数据、客户关系管理 ( CRM) 系统数据、公司的生产数据、库存数据、订单数据、供应链数据等。

　　2) 移动通信数据。能够上网的智能手机等移动设备越来越普遍。移动通信设备记录的数据量和数据的立体完整度，常常优于各家互联网公司掌握的数据。移动设备上的软件能够追踪和沟通无数事件，从运用软件储存的交易数据 ( 如搜索产品的记录事件) 到个人信息资料或状态报告事件 ( 如地点变更即报告一个新的地理编码) 等。

　　3) 人为数据。人为数据包括电子邮件、文档、图片、音频、视频，以及通过微信、博客、推特、维基、脸书、 Linkedin 等社交媒体产生的数据流。这些数据大多数为非结构性数据，需要用文本分析功能进行分析。

　　4) 机器和传感器数据。来自感应器、量表和其他设施的数据、定位 / GPS 系统数据等。这包括功能设备会创建或生成的数据，例如智能温度控制器、智能电表、工厂机器和连接互联网的家用电器的数据。来自新兴的物联网 ( IoT) 的数据是机器和传感器所产生的数据的例子之一。来自物联网的数据可以用于构建分析模型，连续监测预测性行为 ( 如当传感器值表示有问题时进行识别) ，提供规定的指令 ( 如警示技术人员在真正出问题之前检查设备) 等。

　　5) 互联网上的 “开放数据”来源，如政府机构，非营利组织和企业免费提供的数据。
尽管上面列出了大量的数据源，但要满足具体企业或机构的具体需要，也常常有困难。这种情况在我国更加突出。因为我国政府公开的数据非常有限。比如，即使号称为我国三大数据平台的北京、上海、贵州的政府数据网，公布的数据都非常少，非常粗略，很难被视为大数据。而非政府机构和民间企业，更不会轻易对外公布数据。此外单是获得数据还不够，还需要获得有关资料的很多细节，如对资料的说明，资料的背景，以及其他能帮助分析员理解数据的信息。如果没有这些细节，对数据的正确解读就可能有困难，数据就失去价值。而我国政府提供的很多数据常常缺乏这些细节。

大数据获取

　　不同领域对应的数据采集方法以及工具也不同，如互联网领域中，用于日志采集的大数据获取工具， Hadoop 的Chukwa、 Cloudera的Flume、Facebook 的 Scribe、 LinkerIn 的 Kafka等，用于网络数据采集的网络爬虫或网站公开 API等方式；物联网领域中，用于数据感知的 MEMS传感器、光纤传感器、无线传感器等。数据产生以及采集方式的发展为大数据的获得提供了重要基础。获取的大数据按照结构的不同，可分为结构化数据、非结构化数据以及半结构化数据，其特点如表３所示。
这里写图片描述
　　其中结构化数据可用二维表结构来逻辑表达实现，一般采用数据记录存储，而非结构化数据一般采用文件系统存储。据统计，目前大数据的构成中非结构化数据与半结构化数据占据主体地位，且非结构化数据以及半结构化数据规模呈膨胀式增长。而由于半结构化数据以及非结构化数据的模式多样，并无强制性的结构要求，为大数据的存储、分析、呈现带来巨大挑战

大数据存储

1,轻型数据库

　　对应于大数据获取环节，当数据量在轻型数据库存储能力范围内，且仅为响应用户简单的查询或者处理请求的情况下可将数据存储至轻型数据库内。图２中对应的大数据存储的轻型数据库包括关系型数据库SQL、非关系型数据库 NoSQL 以及新型数据库 NewSQL，通过轻型数据库可响应简单的大数据查询以及处理需求，与此相关的大数据轻型数据库总结如表４所示
这里写图片描述
示。

这里写图片描述
　　关系型数据库SQL是把所有的数据都通过行和列的二元表现形式表示出来，其具有非常好的通用性和非常高的性能，但是 SQL 并不适宜于下列情况：大量数据查询，简单查询需要快速返回结果，非结构化数据的应用等，所以用于大数据存储的关系型数据库需要做出不同的改进才能满足大数据的存储以及查询要求，如表４所示的现所属 EMC公司的 Greenplum，其并不是简单的关系型数据库，而是属于关系型数据库集群，且采取了MPP并行处理架构，查询速度快，数据装载速度快，批量 DML处理快；Verti-ca 是具有ＭＰＰ架构的分布式列式存储关系型数据库，其属于高效能、低成本的海量数据实时分析数据库；而 Teradata公司开发的 Aster Data，其提供两种分析框架，SQL与 MapReduce，并具有近似线性的扩展能力。
NoSQL（Nosql ＝Not Only SQL） ，意即 “ 不仅仅是 SQL”（不是再也没有SQL数据库啊！！！），相对于 SQL，NoSQL 具有非常高的读写性能、灵活的数据模型以及高可用性，NoSQL 为非关系型数据库，主要分为键值（Key-Value）存储数据库、 列存储数据库、 文档存储数据库、 图形（Graph）数据库。上表中 HBase 与 Cassandra 属于列存储数据库，MongoDB 属于文档型数据库，Redis属于键值（Key-Value）存储数据库。NewSQL一词是由451 Group的分析师Matthew Aslett在研究论文中提出的。它代指对老牌数据库厂商做出挑战的一类新型数据库系统。
NewSQL 是对各种新的可扩展/高性能数据库的简称，这类数据库不仅具有NoSQL对海量数据的存储管理能力，还保持了传统数据库支持ACID和SQL等特性。NewSQL是指这样一类新式的关系型数据库管理系统，针对OLTP（读-写）工作负载，追求提供和NoSQL系统相同的扩展性能，且仍然保持ACID和SQL等特性（scalable and ACID and (relational and/or sql -access)）。

这里写图片描述

2，大数据存储平台

　　当用户提出大数据分析以及复杂的挖掘请求或数据量已经远超过轻型数据库的存储能力时，应将大数据导入大型分布式存储数据库或者分布式存储集群。目前典型的大数据存储平台包括Info-Brignt,Hadoop(Pig和Hiva) ,YunTable,HANA以及Exadata等，以上数据库中除Hadoop外均可满足大数据的在线分析请求。
　　而随着宽带网络技术、web2.0技术、应用存储、集群技术、存储虚拟化技术的发展，云环境下的大数据存储将成为未来数据存储的发展趋势。云存储并不是存储，而是一种服务，其将数据放在云上以供使用者在不同的时间、地点、通过任何可联网的设备对数据进行获取。目前很多公司推出的网盘便是云存储的应用实例，其一经推出便得到了大家的广泛青睐，包括迅雷快传、115 网盘、163网盘、腾讯微云、新浪微盘、360云盘、百度云等，虽然各个网盘的上传、下载速度以及容量等具有差异性，但网盘的推出以及流行反映了云存储的良好发展趋势。现在很多公司也相继推出了云存储平台，如 AmazonS3、Microsoft的Azure等，云存储平台的出现为企业以及研究机构带来了便利，其可利用云存储平台开发自己的云存储系统，但是对应于云存储，成本以及安全性、隐私性的问题也是未来需要突破的重点。

大数据查询及处理需求

　　由于大数据所属领域不同，其查询及处理需求的分类不同。例如，互联网行业按照其业务需求，可以将大数据处理技术分为在线、近线以及离线，其中在线模式下数据的处理时间一般限定在毫秒甚至是微秒范围内，而离线模式下数据的处理时间可延长至以天为单位，近线模式的数据处理时间则位于二者之间，即可在分钟级以及小时级之间；而按照处理需求划分，大数据的处理需求可面向于海量数据的分布式处理、非结构化数据处理以及实时数据处理。按照上述划分方式，总结其核心技术如表５所示。
这里写图片描述
　　目前典型的批量数据处理系统包括 2003年Google 研发的Google 文件系统 GFS以及 20004年的 MapReduce编程模型，以及在此基础上，2006 年 Nutch项目子项目之一的 Hadoop实现的两个强有力的开源产品：HDFS和 MapReduce。Hadoop是什么？Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架，实现在大量计算机组成的集群中对海量数据进行分布式计算。HDFS提供了海量数据的存储,MapReduce提供了对数据的计算.目前最流行并有可能为下一代大数据处理确定标准的软件系统是 Hadoop，比如中国移动的详单实时查询，就是使用的该系统。一般认为最好的大数据分析系统应具有磁性、灵活性和深刻性 ( Magnetic， Agile， and Deep，MAD) 三大特征。磁性指该系统能抓取所有数据，不管其结构和质量; 灵活性指系统具有适应性和对不同数据的应变性; 深刻性指该系统能支持传统的商业情报以及机器学习的研究，和复杂的统计分析。根据 Herodotou 等 Hadoop 具有上述三大特征: Hadoop 被认为是磁性的，因为在 Hadoop 中获取数据的唯一步骤是将文件复制到 Hadoop 的分布式文件系统中。 Hadoop 被认为是灵活的，因为它使用了一个所谓的 “MapＲeduce”的方法。“Map”将计算任务分成小型的和并行的任务并分配适当的＜ Key，Value ＞结构予大数据，而 “Ｒeduce”则通过组合共享同一个 Key 的所有值而获得所有的大数据 Hadoop 被认为是深刻的，因为用 Hadoop 和第三方扩展的 Hadoop，用户可以使用 Java，Python，Ｒ和 SQL 等通用编程语言做计算。因此，Hadoop 可帮助企业、商业分析师、数据科学家和开发者找到良好的相关性和关系，变得更加 MAD，并从他们现有的大数据集获得更多的远见。

大数据计算平台

　　大数据与云计算不分家。最早的计算资源是只能由专业人员使用的大型机，之后发展成个人电脑走进千家万户，现为了满足海量数据运算的需要，这些小型的服务器又通过网络搭建集群提供更强大的计算资源，且为了方便管理、部署及提高资源使用率，虚拟化技术应运而生。最终所有的 IT资源都会迁移到“云”中。其计算资源演变如图３所示。
这里写图片描述
　　云计算在未来将成为重要的计算模式，其将根据需求实现资源的有效分配以及应用。云计算平台也称为云平台。云计算平台可以划分为3类:以数据存储为主的存储型云平台，以数据处理为主的计算型云平台以及计算和数据存储处理兼顾的综合云计算平台。