《R语言数据挖掘》读书笔记:八、流数据分析与挖掘

第八章、流数据、时间序列数据和序列数据挖掘

    流数据、时间序列、和序列数据的特征是与众不同的,即数据量大且无尽的。他们数据量太大不能获得精确的结果,这意味着将得到一个近似的结果。因此,应该扩展经典的数据挖掘算法或者为这类型数据集设计一种新的算法。

1.信用卡交易数据流和STREAM算法

    一种数据源总是需要多种预定义的算法或者一种全新的算法来处理。流数据的行为与传统数据集有些不同。

    流数据集源于现代生活的各个方面,比如信用记录交易事务流、网络馈赠(web feed)、电话呼叫记录、来自卫星或者雷达的传感器数据、网络数据流量数据、安全事件流以及各种数据流的长期运行列表。

    流数据处理的目标是,但不限于,对特定范围的流数据的总结

    1.1 STREAM算法

        STREAM算法是一个用于聚类流数据的经典算法。

        数据流算法经常采用精度换时间的方法,尽量在对数据的一次访问中获得较优的解.一般来说,数据流算法是不可回溯的;其次,数据流算法有很多特点,一些数据库应用中常用的操作在数据流中都是不可行的.如,Sort,Max,Count 等操作。

        具体算法解析(3.1基于划分的流数据处理): https://www.cnblogs.com/jean925/p/8963512.html

    1.2 单通道聚类算法

        这是一个处理高频新数据流的聚类算法

    1.3 信用卡交易数据流

        信用卡交易数据流也是生成流数据的过程,而且应用相关的数据流挖掘算法具有高准确度。信用可交易数据流挖掘的一个应用是消费者的行为分析;关于信用卡交易数据流挖掘的另一个应用是欺诈检测。这是大量应用中最明显的应用。

2.时间序列分析和预测未来价格

    2.1 ARIMA算法(Auto Regressive Integrated Moving Average , ARIMA)

        这个是分析时间序列顺序的一种经典算法

        ARIMA算法步骤:

            ①在某些假设下设定模型的形式

            ②为观测数据确定一个模型

            ③估计模型的参数

            ④如果模型的假设被验证,则继续执行此步骤;否则,转到步骤①改进模型。

            最后可以用得到的模型进行预测。

        算法详细解析 (有详细介绍和实例讲解)https://www.jianshu.com/p/4130bac8ebec

    2.2 预测未来价格

        这种预测的关键问题是巨大的数据量。作为一个直接结果,用于这个主题的算法需要是高效的,解决方案都是基于来自欲选择因素的分散信息的聚合。

        价格受到时间的明显影响,并且它也是一个时间序列变量。为了预测未来值,需要应用时间序列分析算法,APIMA可以用来预测第二天的价格。

3.时间序列聚类与分类和股票市场预测

    与经典聚类相比,时间序列数据集由随时间而改变的数据构成。

    3.1 hError算法(clustering seasonality patterns in the presence of errors)

        误差存在时的季节性模式聚类(可以对与时间相关的季节性问题进行分析)

        该算法主要特征是提出一个具体的距离函数和一个变异性函数。

    3.2 基于1NN分类器的时间序列分类

        最近邻分类器算法: https://www.jianshu.com/p/ded20ec93280

    3.3 股票市场数据

        从股市获取实时信息需要快速、高效的在线挖掘算法。时间序列数据可解释多种数据,包括随时间更新的股票市场数据。为了预测股市,过去的数据非常重要,使用某只股票的过去收益,基于价格数据流可以预测该股票的未来价格。

4.挖掘符号序列和网络点击流

    4.1 TECNO-STREAMS算法(Tracking Evolving Clusters in Noisy Streams)

        该算法是一遍扫描(one pass)算法。

    4.2 网络点击流

        网络点击流表示当用户访问空间时用户的行为,网络点击流分析将改善客户的用户体验,并优化网站的结构来满足客户的期望,最终增加网站的收入。

        在其他方面,网络点击流挖掘可以用来检测DOS攻击,追踪攻击者,提前预防他们出现在网络上。网络点击流的数据集的主要特征就是容量巨大,且规模持续增长。

5.挖掘事务数据库中的序列模式

    5.1 PrefixSpan算法(Prefix-Projected Pattern Growth)

        此算法是一种频繁序列挖掘算法。

        前缀投影的模式挖掘

        具体算法解析(转自刘建平pinard): https://www.cnblogs.com/pinard/p/6323182.html

        

6.总结

    本章中主要讲述了流数据挖掘、时间序列挖掘、时间序列分析、符号序列挖掘以及序列模式挖掘。

    下一章中,将讨论与图挖掘、算法相关的主要主题以及与它们相关的一些例子。

人生的奔跑不在于瞬间的爆发,而在于途中的坚持。
原文地址:https://www.cnblogs.com/Nelsonblog/p/11794440.html