大数据技术

一.大数据预处理技术

   现实世界中的数据一般是不完整的、 带有随机性的、有噪声的或不唯一、不一致的“脏数据”,数据质量不高,无法直接进行数据挖掘,或者挖掘的效果差强人意。为了以后的处理更加方便以及模型具有更好的效果,往往在使用模型之前需要对数据进行预处理,就产生了数据预处理技术。

数据预处理有多种方法:数据清理、数据集成、数据变换、数据归约等。这些数据处理技术在数据挖掘之前使用,大大提高了数据挖掘分析的质量,降低了挖掘分析所需要的时间。

 

(1)数据清理一般包括对数据记录的缺失属性进行填充、对数据的噪声进行光滑操作、识别并删除数据中的异常或者离群点、解决不一-致性等,主要是将格式标准化.清除异常数据、纠正错误数据、清除重复数据等。

(2)数据集成是为了解决多个数据源可能带来的数据不- -致问题,通过相关技术(如IDMapping)将多个数据源中的数据整合在--起并统--存储,建立数据仓库。

(3) 数据变换: 对数据的各个属性通过平滑聚集、数据概化、数据规范化等方式,将数据转换成适用于数据挖掘的形式。

(4)数据归约: 数据挖掘时往往数据量非常大,在少量数据上进行挖掘分析需要很长的时间,数据归约技术可以用来得到数据集的归约表示,它小得多,但仍然接近于保持原数据的完整性,且结果与归约前结果相同或几乎相同。

在对收集的数据进行分类、分组前,数据预处理的工作还应包括审核、筛选、排序等必要的处理。

(5) 数据审核:对于原始数据应主要从数据的完整性、准确性和一 致性三个方面去审核。对于通过不同渠道获得的二手资料,除了要对其完整性、准确性和一.致性进行审核外,还应该着重审核数据的适用性和时效性。

(6) 数据筛选:对审核过程中发现的错误应尽可能予以纠正。当发现的数据错误不能纠正,或有些数据不符合要求而又无法弥补时,就需要对数据进行筛选。数据筛选包括两方面的内容:一是将某些不符合要求的数据或有明显错误的数据予以剔除;二是将符合某种特定条件的数据筛选出来,对不符合特定条件的数据予以剔除。

(7)数据排序:数据排序是按照-定顺序将数据排列,以便于研究者通过浏览数据发现一些明显的特征或趋势,找到解决问题的线索。排序还有助于对数据检查纠错,为重新归类或分组等提供依据。

此外,还有一-种对具有多种结构和类型的数据进行抽取的过程,这个过程可以帮助大数据分析师将这些复杂的数据转化为单--的或者便于处理的结构和类型,以达到快速分析处理的目的。

 

 

二.大数据存储与管理技术

   大数据存储与管理是用计算机存储设备把采集到的数据存储起来,建立相应的数据库,并进行管理和调用,重点要解决大数据的可存储、可表示、可处理、可靠性及有效传输等几个关键问题。

针对关系型数据库、非关系型数据库以及数据库缓存系统,相关厂商和研发机构正在研发新型数据库管理技术,其中:非关系型数据库主要指的是NoSQL数据库,关系型数据库包含了传统关系数据库系统以及NewSQL数据库。大数据的管理技术主要强调大数据安全技术的突破,完善分布式访问控制、数据库审计等技术,突破大数据脱敏及隐私保护、数据真伪识别和取证、数据持有完整性验证等技术。

三、统计与分析

   统计与分析主要利用分布式数据库或分布式计算集群来对存储于其内的海量数据进行普通的统计分析和分类汇总等,以满足大多数常见的分析需求,结构化数据库系统都提供相应的软件来满足--些实时性统计分析需求,而一些批处理或者基于半结构化数据的统计分析需求可以使用Hadoop这样的非结构化数据库系统。对于统计与分析来说,其主要特点和挑战是分析所涉及的数据量很大,会占用大量的系统资源特别是1/O资源。

 

四、大数据建模

   数据建模指的是对现实世界各类数据的抽象组织,确定数据库需管辖的范围、数据的组织形式等直至转化成现实的数据库。将经过系统分析后抽象出来的概念模型转化为物理模型后,在Visio等工具建立数据库实体以及各实体之间的关系(实体一般是表)。 这种数据建模方法多用于结构化数据库的设计,在大数据热潮之前是各类型管理信息系统的数据库建设常用的方法,这里不作介绍。

 

(一)大数据建模的需求出发点

随着互联网技术及其产业的高速发展,大数据建模与分析挖掘技术已经逐步地应用到新兴互联网企业(如电子商务网站、搜索引擎、社交网站、互联网广告服务提供商等)、银行金融证券企业、电信运营等行业,给这些行业带来了显著的数据价值增值作用。

数据分析建模需要先明确业务需求,然后再选择是使用描述型分析、预测型分析还是使用生存分析。如果数据分析的目的是描述客户行为模式,就采用描述型数据分析,描述型分析就考虑关联规则、序列规则、聚类等模型。

预测型数据分析就是量化未来一段时间内, 某个事件的发生概率。 有分类预测和回归预测两大预测分析模型。 常见的分类预测模型中,目标变量通常都是二元分类变量,例如欺诈与否、流失与否、信用好坏等。 回归预测模型中,目标变量通常都是连续型变量,常见的有股票价格预测、违约损失率预测等。

生存分析聚焦于将事件的结果和出现这一结果所经历的时间进行分析,源于医疗领域,研究患者治疗后的存活时间。生存分析也可以用于预测客户流失时间、客户下次购买时间、客户违约时间、客户提前偿还贷款时间、客户下次访问网站时间等。

 

(二)大数据建模流程

第一步:选择模型或自定义模式。这是建模的第一步,我们需要基于业.务问题,来决定可以选择哪些可用的模型。  比如,如果要预测某类产品的销量,则可以选择数值预测模型( 如回归模型、时序预测等);如果要预测核心员工是否离职,则可以选择分类模型 (如决策树、神经网络)。所谓回归模型,其实就是自变量和因变量的一个函数关系式,模型中可变的部分叫作参数,如回归模型中的a、β等参数。

第二步:训练模型。所谓训练模型,其实就是要基于真实的业务数据来确定最合适的模型参数。模型训练好了,也就意味着找到了最合适的参数。一旦找到最合适的参数,模型就基本可用了。要找到最合适的模型参数,就涉及算法。一个好的算法,既要运行速度快又要复杂度低,这样才能实现快速的收敛,能够找到全局最优的参数。

第三步:评估模型。评估模型就是要评估一下模型的质量,判断模型是否有用。个模型是否有用,需要放在特定的业务场景下来评估,也就是要基于特定的数据集才能判断模型的质量是否达到满意的结果。这就需要有--些评价指标。比如,数值预测模型中,评价模型质量的常用指标有:平均误差率、判定系数R2,等等。评估分类预测模型质量的常用指标有:正确率、查全率、查准率、ROC曲线和AUC值,等等。对分类预测模型,-般要求正确率和查全率等越大越好,越接近100%,表示模型质量越好。在真实的业务场景中,评估指标是基于测试集的,而不是训练集。所以,在建模时,一般要将原始数据集分成两部分,一部分用于训练模型,叫训练集。另一部分用于评估模型 ,叫测试集或验证集。如果发现在训练集和测试集上的预测效果差不多,就表示模型质量尚好,应该可以直接使用了。

 

第四步:应用模型。就是将模型应用于真实的业务场景。构建模型的目的,就是要用于解决工作中的业务问题,如预测客户行为、划分客户群,等等。如果评估模型质量在可接受的范围内,就可以开始应用模型了。 通常的做法是将可用的模型开发出来,并部署在数据分析系统中,然后可以形成数据分析的模板和可视化的分析结果,以便实现自动化的数据分析报告。在应用模型的过程中,还需要收集业务预测结果与真实的业务结果,以检验模型在真实的业务场景中的效果,同时用于后续模型的优化。

第五步:优化模型。优化模型一般发生在两种情况下:一是在评估模型中,如果发现模型欠拟合,或者过拟合,说明这个模型待优化。 二是在真实应用场景中,定期进行优化,或者当发现模型在真实的业务场景中效果不好时,也要启动优化。

 

模型优化可以有以下几个方法:

①重新选择一个新的模型;

②模型中增加新的考虑因素;

③尝试调整模型中的阈值到最优;

④尝试对原始数据进行更多的预处理,比如派生新变量。

 

不同的模型,其模型优化的具体做法也不--样。 比如回归模型的优化,可能要考虑异常数据对模型的影响,也要进行非线性和共线性的检验;  再比如分类模型的优化,主要是一些阈值的调整,以实现精准性与通用性的均衡。

实际上,模型优化不仅仅是对模型的优化,还包含了对原始数据的处理优化。因此,当发现所有模型效果都不太好的时候,有可能是数据集没有得到有效的预处理,没有找到合适的关键因素(自变量)。

 

(三)数据分析场景和模型应用

1.市场营销

(1) 营销响应分析建模(逻辑回归、决策树)。

(2) 净提升度分析建模(关联规则)。

(3) 客户保有分析建模(卡普兰梅尔分析、 神经网络)。

(4) 购物篮分析( 关联分析Apriori)。

(5) 自动推荐系统(协同过滤推荐、基于内容推荐、基于人口统计推荐、基于知识推荐、组合推荐、关联规则)。

(6) 客户类别细分(聚类)。

(7) 客户流失预测(逻辑回归)。

2.风险管理

(1)客户信用风险评分(SVM、 决策树、神经网络)。

(2)市场风险评分建模( 逻辑回归、决策树)。

(3)运营风险评分建模(SVM)。

(4) 欺诈检测(决策树、聚类、社交网络)。

 

原文地址:https://www.cnblogs.com/liweikuan/p/14974933.html