Date20

应用Aprion算法实现大规模数据库关联规则挖掘的技术研究（知网）

数据关联是信息技术发展模式下各种软件数据库中存在的一纵横能够反映一个或其他事件之间依赖性和关联性的一种信息。
关联规则挖掘Aprion算法是一种比较全面的分析模式算法,它能够发现记录中不同数据属性之间的关联性,而且能够反映出给定数据集中特征属相鉴定的关联性,发现每条信息记录中不同特征属相之间的相互依赖关系。

基于Shark/Spark的分布式空间数据分析框架(知网)

传统的空间数据管理依托于单节点关系型数据库,其在海量数据管理、高并发读写和扩展性等方面存在局限性。实现空间数据分析框架的关键技术：(1)分布式计算层（2）数据管理层
空间数据映射-->>空间数据加载-->>数据备份-->>分布式空间查询-->>空间数据分析
针对海量数据的存储和访问,将数据分片到不同节点上,可降低单台机器的负载,提高数据运算效率,减少故障造成的损失。不同节点中的数据若通过手动方式单独加载将影响工作效率,故考虑创建并行服务来进行数据高速加载。

基于Spark的Apriori算法的改进（知网）

Spark是一个通用的大规模数据快速处理引擎,主要提供基于内存计算的抽象对象RDD,允许用户将数据加载至内存后重复地使用.Spark编程模型参考MapReduce,不同的是Spark基于内存的计算特点在某些应用的实验性能上超过MapReduce 100多倍.Spark平台完全由Scala语言编写,Scala是一种融合了面向对象和函数式的编程语言,它专门为分布式而设计,精简且具有并发的威力.

基于Spark框架的聚类算法研究（知网）陈虹君

Spark中KMeans聚类算法分析
聚类算法KMeans :接受输入量K ;然后将N个数据对象划分为K个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”,也称为引力中心,来进行计算的。若有N个数据点需要分为K个cluster ,k-means要做的就是最小化。其算法数学表达式(1) :

其中xn表示原始数据的集合{x₁,x₂,x₃,x₄,…,x_n}中的元素,K表示给定分类组数K(k≤n)值的条件下,将原始数据分成K类。μ_k表示分类的平均值。r_nk表示数据点n被归类到族(cluster) k的时候为1 ,否则为0。

KMeans在Spark仍然是上面的算法思想。KMeans是org.apache.spark.mllib.clustering包中提供的类,即是spark官方为cluster-ing(聚类)所提供的类,当然也包含了许多方法。

KMeansModel是数据类型,换句话说就是KMeans的一种特定的数据计算模型。

train()方法

train(RDD<Vector> data, int k, int maxIterations, int runs,String initializationMode) (2)

第一个是需要计算的数据,第二个是K值,第三个是最大迭代次数,第四个是对整个KMeans模型的计算次数,第五个是初始化模型的方式。该方法返回一个已经(按给定参数)规划好的KMeans模型。这里要说明一下的是train()方法有多种方法重构,除了参数不同,Spark对其他聚类方法如ALS类也有专属的train()方法。这个方法是Junit的断言测试用,可以很好的看出结果是否有问题。

assertEquals([String message],expected,actual) (3)

参数说明:message是个可选的消息,假如提供,将会在发生错误时报告这个消息;expected是期望值,通常都是用户指定的内容;actual是被测试的代码返回的实际值。若expected和actual不相等则会判错,否则算成功。

你只管努力，其他的交给天意~