【大数据论文笔记】大数据系统和分析技术综述

1、大数据处理与系统

简介特征典型应用代表性的处理系统适用场景

批量数据处理系统首要任务：
1.利用批量数据挖掘合适的模式
2.得出具体的含义
3.制定明智的决策
4.做出有效的应对措施5.实现业务目标 1.数据体量巨大
2.数据精确度高
3.数据价值密度低 1.互联网领域：
      a.社交网络
      b.电子商务
      c.搜索引擎
2.安全领域
      a.IT安全
      b.欺诈检测
      c.识别恶意软件和网络攻击模式
3.公共服务领域
      a.能源（eg.石油储量）
      b.医疗保健（eg.语义分析）
4.…… a.GFS（google）
b.MapReduce（google）+HDFS[hadoop]
PS：
MapReduce三大优势：
1.采用无共享大规模集群系统
2.模型简单、易于理解、易于使用
3.提供很好的数据处理性能先存储后计算
实时性要求不高
数据的准确性和全面性更为重要

流式数据处理系统
总之,流式数据的特点是,数据连续不断、来源众多、格式复杂、物理顺序不一、数据的价值密度低.而对
应的处理工具则需具备高性能、实时、可扩展等特性.
1.一个无穷的数据序列
2.通常含有时间标签或其余含蓄属性
3.数据的产生是实时的，不可预知的
4.数据流速往往有较大的波动
5.数据的格式可以是结构化的、半结构化的甚至是无结构化的
6.数据流中往往含有错误元素、垃圾信息等
7.流式数据是活动的 1.数据采集应用（eg.日志采集、传感器采集），智能交通，环境监控，灾难预警
2.金融行业的应用（eg.股票期货市场） 1.Storm（Twitter）
2.Scribe（Facebook）
3.Samza（Linkedin）
4.Flume（Cloudera）
5.Nutch（Apache）源于服务器日志的实时采集

交互式数据处理
交互式数据处理灵活、直观、便于控制.系统与操作人员以人机对话的方式一
问一答——操作人员提出请求,数据以对话的方式输入,系统便提供相应的数据或提示信息,引导操作人员逐步
完成所需的操作,直至获得最后处理结果.
1.信息处理系统领域
      主要体现人际间的交互
2.互联网领域
      eg.百度知道，新浪爱问，Yahoo！的知识堂

目前,各大平台主要使用 NoSQL 类型的数据库系统来处理
交互式的数据,如 HBase采用多维有续表的列式存储方式;MongoDB采用 JSON 格式的数据嵌套存储方式.大多 NoSQL 数据库不提供 Join 等关系数据库的操作模式,以增加数据操作的实时性.
1.Spark（Berkeley）
2.Dremel（Google）目标：将PB级数据的处理时间缩短到秒级
联机事务处理（OLTP）广泛应用于对操作序列有严格要求的工业控制领域
联机分析处理（OLAP）基于数据仓库广泛应用于数据分析、商业智能（BI）

图数据处理系统 1.节点之间的关联性
2.图数据的种类繁多
3.,图数据计算的强耦合性 1.互联网领域
     以 Web 2.0 技术为基础的社交网络(如Facebook、人人网)、微博(如 Twitter、新浪微博、腾讯微博)等新兴服务中建立了大量的在线社会网络关系
2.自然科学领域
      图可以用来在化学分子式中查找分子,在蛋白质网络中查找化合物,在 DNA 中查找特定序列等
3.交通领域
      最短路图数据库：
1.GraphLab
2.Neo4j
3.HyperGraphDB
4.InfiniteGraph
5.Cassovary
6.Trinity
7.Grappa
8.Giraph(基于 Pregel (Google)克隆)
系统：
1.Pregel (Google)
2.Neo4j
3.Trinity（Microsoft）

注：

实时数据处理是针对批量数据处理的性能问题提出的，可分为：a）流式数据处理；b）交互式数据处理。

总结——3种发展趋势

数据处理引擎专用化

数据处理平台多样化

数据计算实时化

2、大数据分析

例子

深度学习核心问题是如何对数据进行有效表达、解释和学习语音识别、OCR（光学字符）识别、人脸识别、图像搜索

知识计算
要对数据进行高端分析,就需要从大数据中先抽取出有价值的知识,并把它构建成可支持查询、分析和计算知识库

支持知识计算的基础是构建知识库,这包括 3 个部分,即知识库的构建、多源知识的融合与知识库的更新.

世界各国各个组织建立的知识库多达 50 余种,相关的应用系统更是达到了上百种.其中,代表性的知识库或应用系统有KnowItAll,TextRunner,NELL,Probase,Satori,PROSPERA,SOFIE以及一些基于维基百科等在线百科知识构建的知识库,如DBpedia,YAGO,Omega和WikiTaxonomy

社会计算
对在线社会网络结构、信息传播以及信息内容的分析、建模与挖掘等一系列问题

1.在线社会网络的结构分析

2.在线社会网络的信息传播模型

3.社会媒体中信息检索与数据挖掘

以 Facebook、Twitter、新浪微博、微信等为代表的在线社交网络和社会媒体正深刻改变着人们传播信息
和获取信息的方式,人和人之间结成的关系网络承载着网络信息的传播,人的互联成为信息互联的载体和信息
传播的媒介,社会媒体的强交互性、时效性等特点使其在信息的产生、消费和传播过程中发挥着越来越重要的
作用,成为一类重要信息载体.

可视化
.现有研究工作主要聚焦在 4 个方面

:(1) 通过对信息流进行压缩或者删除数据中的冗余信息对数据进行简化.

(2) 通过设计多尺度、多层次的方法实现信息在不同的解析度上的展示,从而使用户可自主控制展示解析度

(3) 利用创新的方法把数据存储在外存,并让用户可以通过交互手段方便地获取相关数据,这类研究也成为核外算法(out-of-core algorithm)

小结
大数据处理和分析的终极目标是借助对数据的理解辅助人们在各类应用中作出合理的决策.在此过程中,深度学习、知识计算、社会计算和可视化起到了相辅相成的作用.
(1) 深度学习提高精度:
(2) 知识计算挖掘深度:
(3) 社会计算促进认知;
(4) 强可视化辅助决策:

3、大数据计算面临的挑战与应对之策

3大核心挑战：

1.数据复杂性

2.计算复杂性

3.系统复杂性

If you have any questions about this article, welcome to leave a message on the message board.

Brad(Bowen) Xu
E-Mail : maxxbw1992@gmail.com

	简介	特征	典型应用	代表性的处理系统	适用场景
批量数据处理系统	首要任务： 1.利用批量数据挖掘合适的模式 2.得出具体的含义 3.制定明智的决策 4.做出有效的应对措施5.实现业务目标	1.数据体量巨大 2.数据精确度高 3.数据价值密度低	1.互联网领域： a.社交网络 b.电子商务 c.搜索引擎 2.安全领域 a.IT安全 b.欺诈检测 c.识别恶意软件和网络攻击模式 3.公共服务领域 a.能源（eg.石油储量） b.医疗保健（eg.语义分析） 4.……	a.GFS（google） b.MapReduce（google）+HDFS[hadoop] PS： MapReduce三大优势： 1.采用无共享大规模集群系统 2.模型简单、易于理解、易于使用 3.提供很好的数据处理性能	先存储后计算实时性要求不高数据的准确性和全面性更为重要
流式数据处理系统	总之,流式数据的特点是,数据连续不断、来源众多、格式复杂、物理顺序不一、数据的价值密度低.而对应的处理工具则需具备高性能、实时、可扩展等特性.	1.一个无穷的数据序列 2.通常含有时间标签或其余含蓄属性 3.数据的产生是实时的，不可预知的 4.数据流速往往有较大的波动 5.数据的格式可以是结构化的、半结构化的甚至是无结构化的 6.数据流中往往含有错误元素、垃圾信息等 7.流式数据是活动的	1.数据采集应用（eg.日志采集、传感器采集），智能交通，环境监控，灾难预警 2.金融行业的应用（eg.股票期货市场）	1.Storm（Twitter） 2.Scribe（Facebook） 3.Samza（Linkedin） 4.Flume（Cloudera） 5.Nutch（Apache）	源于服务器日志的实时采集
交互式数据处理		交互式数据处理灵活、直观、便于控制.系统与操作人员以人机对话的方式一问一答——操作人员提出请求,数据以对话的方式输入,系统便提供相应的数据或提示信息,引导操作人员逐步完成所需的操作,直至获得最后处理结果.	1.信息处理系统领域主要体现人际间的交互 2.互联网领域 eg.百度知道，新浪爱问，Yahoo！的知识堂目前,各大平台主要使用 NoSQL 类型的数据库系统来处理交互式的数据,如 HBase采用多维有续表的列式存储方式;MongoDB采用 JSON 格式的数据嵌套存储方式.大多 NoSQL 数据库不提供 Join 等关系数据库的操作模式,以增加数据操作的实时性.	1.Spark（Berkeley） 2.Dremel（Google）	目标：将PB级数据的处理时间缩短到秒级联机事务处理（OLTP）广泛应用于对操作序列有严格要求的工业控制领域联机分析处理（OLAP）基于数据仓库广泛应用于数据分析、商业智能（BI）
图数据处理系统		1.节点之间的关联性 2.图数据的种类繁多 3.,图数据计算的强耦合性	1.互联网领域以 Web 2.0 技术为基础的社交网络(如Facebook、人人网)、微博(如 Twitter、新浪微博、腾讯微博)等新兴服务中建立了大量的在线社会网络关系 2.自然科学领域图可以用来在化学分子式中查找分子,在蛋白质网络中查找化合物,在 DNA 中查找特定序列等 3.交通领域最短路	图数据库： 1.GraphLab 2.Neo4j 3.HyperGraphDB 4.InfiniteGraph 5.Cassovary 6.Trinity 7.Grappa 8.Giraph(基于 Pregel (Google)克隆) 系统： 1.Pregel (Google) 2.Neo4j 3.Trinity（Microsoft）

		例子
深度学习	核心问题是如何对数据进行有效表达、解释和学习	语音识别、OCR（光学字符）识别、人脸识别、图像搜索
知识计算	要对数据进行高端分析,就需要从大数据中先抽取出有价值的知识,并把它构建成可支持查询、分析和计算知识库支持知识计算的基础是构建知识库,这包括 3 个部分,即知识库的构建、多源知识的融合与知识库的更新.	世界各国各个组织建立的知识库多达 50 余种,相关的应用系统更是达到了上百种.其中,代表性的知识库或应用系统有KnowItAll,TextRunner,NELL,Probase,Satori,PROSPERA,SOFIE以及一些基于维基百科等在线百科知识构建的知识库,如DBpedia,YAGO,Omega和WikiTaxonomy
社会计算	对在线社会网络结构、信息传播以及信息内容的分析、建模与挖掘等一系列问题 1.在线社会网络的结构分析 2.在线社会网络的信息传播模型 3.社会媒体中信息检索与数据挖掘	以 Facebook、Twitter、新浪微博、微信等为代表的在线社交网络和社会媒体正深刻改变着人们传播信息和获取信息的方式,人和人之间结成的关系网络承载着网络信息的传播,人的互联成为信息互联的载体和信息传播的媒介,社会媒体的强交互性、时效性等特点使其在信息的产生、消费和传播过程中发挥着越来越重要的作用,成为一类重要信息载体.
可视化	.现有研究工作主要聚焦在 4 个方面 :(1) 通过对信息流进行压缩或者删除数据中的冗余信息对数据进行简化. (2) 通过设计多尺度、多层次的方法实现信息在不同的解析度上的展示,从而使用户可自主控制展示解析度 (3) 利用创新的方法把数据存储在外存,并让用户可以通过交互手段方便地获取相关数据,这类研究也成为核外算法(out-of-core algorithm)