TMF大数据分析指南 Unleashing Business Value in Big Data（一）

大数据分析指南

TMF Frameworx最佳实践

Unleashing Business Value in Big Data

前言

此文节选自TMF Big Data Analytics Guidebook。

TMF文档版权信息

Copyright © TeleManagement Forum 2013. All Rights Reserved.

This document and translations of it may be copied and furnished to others, and derivative works that comment on or otherwise explain it or assist in its implementation may be prepared, copied, published, and distributed, in whole or in part, without restriction of any kind, provided that the above copyright notice and this section are included on all such copies and derivative works. However, this document itself may not be modified in any way, including by removing the copyright notice or references to TM FORUM, except as needed for the purpose of developing any document or deliverable produced by a TM FORUM Collaboration Project Team (in which case the rules applicable to copyrights, as set forth in the TM FORUM IPR Policy, must be followed) or as required to translate it into languages other than English.

面对许多不断涌现的大数据分析技术，CSP需要一个清晰的参考模型，以方便理解不同的大数据分析技术和合理定义流程，从而为特定的业务用例选择正确的技术框架和路线。

为了满足以上需求，本指南提供了大数据分析的参考用例、可重用构件和参考实现的框架，帮助CSP通过大数据分析技术获得商业价值。

本指南包括以下内容（目前标灰的内容尚未介绍，后续逐步更新）：

3、大数据分析的业务价值路线图

4、大数据分析用例

5、大数据分析构件

1、大数据和大数据分析的基本概念和技术

1.1、大数据

对于“大数据”的定义以及它与“普通”数据的区别，许多标准组织、咨询公司和贸易集团都进行了尝试，得出的结论略微不同，因为所有观点都采用了大数据的特征（3V、4V等等）对其描述，但没有更多地涉及定义本身。截至本指南发布时，3V模型（Volume、Velocity、Variety）仍是大数据最流行的定义。

“大数据”一种较新的定义如下：

大数据是能够采用归纳统计的数据，并且其数据量允许演绎和预测未来一定时期内的数据行为。

原文如下：

A newer model (Big Data Paris, 2013) looks at Big Data as utilizing inductive statistics with data, the volume of which allows inferring laws and predicting to a certain extent future behaviors of the data.

以上定义来源于：http://www.andsi.fr/tag/dsi-big-data/

传统的商业智能采用的是描述统计。

1.2、大数据分析

不管哪一种定义，大数据的价值在于分析结果、预测和执行。TMF大数据分析项目关注的不是大数据本身，而是大数据分析技术和方法。

大数据分析要求高性能的海量数据处理能力和合理的响应时间。为了满足这些条件，一些非传统的技术在过去10年间不断涌现出来，并擅长于share nothing、大规模并行、水平扩展。

1.3、大数据分析技术

MapReduce框架和Hadoop

MapReduce编程模型
HDFS（分布式文件系统）
HBase（分布式数据库）
Pig、Hive（数据访问）
Impala（实时即席查询）

NoSQL存储

4种NoSQL数据库

键值存储（如亚马逊Dynamo、Voldemold）
列式存储（如Cassendra、HBase）
文件存储（如MongoDB）
图存储（如neo4j、Allegro graph）

基于HDFS的实时查询

如Impala

搜索

2、参考模型

参考模型的目的是为了提供大数据分析平台的功能组件。通过不同功能组件的职责划分，可以得出明确的角色和职责视图，从而在大数据分析领域达成共识。

2.1、概述

下图是大数据分析参考模型，包括大数据生态系统概览及其平台功能层次。根据数据相关性和数据密度，所有功能分层向其它功能分层和第三方应用提供外部和内部API。

说明：

1、参考模型是为了满足任意一个大数据用例需求的总体功能，根据每个用例的具体情况，可能只需要涉及参考模型的功能子集。

2、参考模型中的分层是相似功能的抽象分组，并非某个大数据平台的构件，因此，各个分层功能向某个大数据平台的实际映射取决于厂家具体实现。

3、参考模型中的分层不具备层级和顺序的特性，如ISO的OSI 七层模型和TCP/IP四层模型那样。除了数据装载层从外部数据源接受数据外，其它层之间的顺序和组合根据具体情况可以改变。

4、数据存储可以视作为大数据平台的构件，除了存储原始数据和处理后的数据外，还可以用于不同层之间的数据流转。

5、保护消费者隐私的法律法规常常削弱了CSP利用数据赚钱的能力，也减少了在数据价值链中建立合作关系的可能。在“数据治理”中的隐私、安全和监管功能通过数据隐私保护技术用于解决以上问题。大数据分析应用可以视为参考模型中各分层的组合。

6、 “批处理”指的是离线处理（或按计划处理），它根据需求开始执行，并且假定存在大量的内存空间。发生外部请求后，批处理在有限的时间内能够处理完有限的数据集。在批处理模式下，信令流与数据流是分离的，而在流处理模式下，信令流是包含在数据流中的。流处理模式指的是在线处理，它根据需求不断地处理数据流。流处理模式可以与复杂事件处理技术有关，也可以与实时学习和实时预测等技术有关。

7、参考模型可以视为支持商务智能的PaaS，数据管理层和数据分析层涵盖了商务智能的所有功能，并能够被外部应用或者用户接口使用，使用方式可以基于本地或者云。

2.2数据装载

集成

建立不同系统之间的连接，用于数据的流转。

数据导入

从外部数据源导入数据至大数据平台，数据可以被打上标签，以指明来自于哪个数据源。

数据格式化

将来自于不同数据源的数据统一格式。例如，来自于2G、3G和4G不同接口的IMSI可能采用不同的编码格式，因此，该功能在数据流转到其它层之前统一格式。

2.3数据管理

转换

将原始数据映射到数据模型中，使之成为有意义和有用的数据。典型的数据转换包括：

比较
日期和时间
逻辑
公式
统计
文本
三角法
编码
列表管理
URL管理

关联

将来自于各种数据源且表示相同业务实体的数据关联起来。例如，将来自CDR中MSISDN与来自CRM的用户编号关联起来（两者表示了同一个业务实体——用户），能够提供关于该用户更加丰富的信息。

丰富化

将指向同一业务实体的多个数据源组合起来（如用户），从而形成这个实体的信息全视图。有些情况下，数据源来自于CSP的多个数据库，有些情况下，一些数据来自于大数据分析结果。

例如，基于用户的浏览历史和位置，可以较为准确地预测其性别、年龄、教育程度和收入等。

数据操作

数据操作包括：

合并
交集
排序
过滤
压缩
去重/复制
分组
汇总

数据质量保障

数据质量保障包括：

数据清洗
数据完整性保障

例如，带有校验值错误的数据写入日志后丢弃。

2.4数据分析

该层通过批处理模式和流处理模式支持大数据分析，包括指标计算、数据建模、复杂事件处理和机器学习。

数据分析层依赖于许多技术，包括：

事件模式检测
实时学习
事件抽象
事件层级建模
事件关系检测（因果关系、组合关系、时序关系）
基于事件驱动的处理
基于触发器的动作执行

数据处理层的关键功能包括：

描述性建模、预测性建模、指导性建模

使用机器学习、数据挖掘算法进行描述性建模、预测性建模、指导性建模（解释过去、预测未来、推荐最佳对策），包括：

分类分析
聚类分析
模式挖掘
推荐、协同过滤
统计关系学习
文本、语音和视频分析

复杂事件处理

大部分复杂事件处理方案和概念可以分为以下两大类：

面向计算的复杂事件处理方案：

对进入系统的事件数据执行在线算法。例如，对进入系统的事件数据不断地进行平均值计算。

面向检测的复杂事件处理方案：

重点关注事件组合检测（或称为事件模式检测）。例如，检测符合特定序列的事件。

复杂事件处理为那些需要实时处理的大数据分析场景提供了可能性，以在线的方式实现了流式数据处理、事件关联和KPI计算等功能。基于用户提供的业务规则，复杂事件处理为外部系统的后续动作触发了告警。

在大数据环境下，复杂事件处理可以由能够进行大规模并行计算的复杂事件处理器实现，如Twitter的开源项目Storm。

基于触发器的动作执行

大数据分析产生的结果可以触发告警和执行动作。

告警：发送告警至用户以便后续决策（机器>人）。
触发器：触发告警至其它系统，并自动执行相应的动作（机器>机器）。

例如，网络性能监控系统使用复杂事件处理技术检测网元告警，当告警数量或严重程度超过门限后，系统向维护人员产生一个严重告警，并触发策略的改变（将网络流量重新路由到其它网元）。

指标计算

计算相关的业务指标，例如TMF业务指标（包括框架指标、客户体验管理指标、平衡积分卡等），以及其它任意指标。

报表生成

数据报表可以实时生成，或者按照天、周、月周期生成，或者根据需要即席生成。报表用于将大数据分析结果进行可视化展现，目前有很多高效的可视化工具产品。