Spark MLlib

MLlib
数据挖掘与机器学习
数据挖掘体系

       数据挖掘：也就是data mining，是一个很宽泛的概念，也是一个新兴学科，旨在如何从海量数据中挖掘出有用的信息来。
       数据挖掘这个工作BI（商业智能）可以做，统计分析可以做，大数据技术可以做，市场运营也可以做，或者用excel分析数据，发现了一些有用的信息，然后这些信息可以指导你的business，这也属于数据挖掘。
       机器学习：machine learning，是计算机科学和统计学的交叉学科，基本目标是学习一个x->y的函数（映射），来做分类、聚类或者回归的工作。之所以经常和数据挖掘合在一起讲是因为现在好多数据挖掘的工作是通过机器学习提供的算法工具实现的，例如广告的ctr预估，PB级别的点击日志在通过典型的机器学习流程可以得到一个预估模型，从而提高互联网广告的点击率和回报率；个性化推荐，还是通过机器学习的一些算法分析平台上的各种购买，浏览和收藏日志，得到一个推荐模型，来预测你喜欢的商品。
       深度学习：deep learning，机器学习里面现在比较火的一个topic，本身是神经网络算法的衍生，在图像，语音等富媒体的分类和识别上取得了非常好的效果，所以各大研究机构和公司都投入了大量的人力做相关的研究和开发。
       总结：数据挖掘是个很宽泛的概念，数据挖掘常用方法大多来自于机器学习这门学科，深度学习也是来源于机器学习的算法模型，本质上是原来的神经网络。
   监督学习和无监督学习
       监督学习是指：利用一组已知类别的样本调整分类器的参数，使其达到所要求性能的过程，也称为监督训练或有导师训练。
       常见的监督学习算法
       1.线性回归
       2.逻辑回归
       3.朴素贝叶斯
       4.KNN(最近邻算法）
       5.决策树
       6.支持向量机
       7.某些可用于分类或预测功能的神经网络模型
       根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题，称之为无监督学习。
       常见的无监督学习算法
       1.系统聚类
       2.K-means
       3.K-中值聚类
       3.K-众数法
       4.某些神经网络模型，比如BP神经网络等
       5.受限玻尔兹曼机
   概述
       MLlib is Apache Spark's scalable machine learning library.
       MLlib是一个构建在Spark上的、专门针对大数据处理的并发式高速机器学习库，其特点是采用较为先进的迭代式、内存存储的分析计算，使得数据的计算处理速度大大高于普通的数据处理引擎
       目前MLlib中已经有通用的学习算法和工具类，包括统计、分类、回归、聚类、降维等。
       MLlib采用Scala语言编写，Scala语言是运行在JVM上的一种函数式编程语言，特点就是可移植性强，“一次编写，到处运行”是其最重要的特点。
       借助于RDD数据统一输入格式，让用户可以在不同的IDE上编写数据处理程序，通过本地化测试后可以在略微修改运行参数后直接在集群上运行
       对结果的获取更为可视化和直观，不会因为运行系统底层的不同而造成结果的差异与改变。
   MLlib基本数据模型
       RDD是MLlib专用的数据格式，它参考了Scala函数式编程思想，并大胆引入统计分析概念，将存储数据转化成向量和矩阵的形式进行存储和计算，这样将数据定量化表示，能更准确地整理和分析结果。
       MLlib先天就支持较多的数据格式，从最基本的Spark数据集RDD到部署在集群中的向量和矩阵。同样，MLlib还支持部署在本地计算机中的本地化格式。
       一、本地向量
           MLlib使用的本地化存储类型是向量，这里的向量主要由两类构成：稀疏型数据集（spares）和密集型数据集（dense）
       二、向量标签的使用
           向量标签用于对MLlib中机器学习算法的不同值做标记。例如分类问题中，可以将不同的数据集分成若干份，以整型数0、1、2……进行标记，即程序的编写者可以根据自己的需要对数据进行标记。
       三、本地矩阵的使用
           大数据运算中，为了更好地提升计算效率，可以更多地使用矩阵运算进行数据处理。部署在单机中的本地矩阵就是一个很好的存储方法。
       分布式矩阵的使用
           1. 行矩阵
               行矩阵是最基本的一种矩阵类型。行矩阵是以行作为基本方向的矩阵存储格式，列的作用相对较小。可以将其理解为行矩阵是一个巨大的特征向量的集合。每一行就是一个具有相同格式的向量数据，且每一行的向量内容都可以单独取出来进行操作。
           2. 带有行索引的行矩阵
               单纯的行矩阵对其内容无法进行直接显示，当然可以通过调用其方法显示内部数据内容。有时候，为了方便在系统调试的过程中对行矩阵的内容进行观察和显示，MLlib提供了另外一个矩阵形式，即带有行索引的行矩阵。
   MLlib统计量基础
       数理统计中，基本统计量包括数据的平均值、方差，这是一组求数据统计量的基本内容。在MLlib中，统计量的计算主要用到Statistics类库。
       计算基本统计量
           这里主要调用colStats方法，接受的是RDD类型数据。
           这里需要注意的是，其工作和计算是以列为基础进行计算，调用不同的方法可以获得不同的统计量值，其方法内容如下表所示。
       二、计算相关系数
           相关系数是一种用来反映变量之间相关关系密切程度的统计指标，在现实中一般用于对两组数据的拟合和相似程度进行定量化分析。常用的一般是皮尔逊相关系数，MLlib中默认的相关系数求法也是使用皮尔逊相关系数法。
   距离度量和相似度度量
       在数据分析和数据挖掘的过程中，我们经常需要知道个体间差异的大小，进而评价个体的相似性和类别。而如何来度量数据之间的差异则成为关键，分类算法或聚类算法的本质都是基于某种度量（距离度量和相似度度量）来实现的。
       距离度量
           距离度量（Distance）用于衡量个体在空间上存在的距离，距离越远说明个体间的差异越大。
           欧几里得距离(Euclidean Distance)
           1.欧氏距离
           2.明可夫斯基距离
           3.曼哈顿距离
           4.切比雪夫距离
           5.马氏距离
       相似度度量
           1.向量空间余弦相似度(Cosine Similarity)
           2.皮尔森相关系数(Pearson Correlation Coefficient)