Spark Mllib里的分布式矩阵（行矩阵、带有行索引的行矩阵、坐标矩阵和块矩阵概念、构成）（图文详解）

　　不多说，直接上干货！

Distributed  matrix ： 分布式矩阵


　　一般能采用分布式矩阵，说明这数据存储下来，量还是有一定的。
在Spark Mllib里，提供了四种分布式矩阵存储形式，均由支持长整形的行列数和双精度浮点型的数据内容组成。
　　包括行矩阵、带有行索引的行矩阵、坐标矩阵和块矩阵。  依据你数据的不同的特点，你可以选择不同类型的数据。


　　
　　（1）、行矩阵： 以行为基本方向的矩阵存储格式，列的作用相对较少。
　　　　　　理解记忆，行矩阵是一个巨大的特征向量的集合　　
　　　　　　每一行就是一个具有相同格式的向量数据，且每一行的向量内容都可以单独取出来进行操作。
　　　　要注意的是，此种矩阵不能按照行号访问。（我也不知道为什么这样）





testRowMatrix.scala

package zhouls.bigdata.chapter4


import org.apache.spark._
import org.apache.spark.mllib.linalg.{Vector, Vectors}
import org.apache.spark.mllib.linalg.distributed.RowMatrix

object testRowMatrix {
  def main(args: Array[String]) {
    val conf = new SparkConf()                                       //创建环境变量
      .setMaster("local")                                               //设置本地化处理
      .setAppName("testRowMatrix")                                    //设定名称
    val sc = new SparkContext(conf)                                   //创建环境变量实例
    val rdd = sc.textFile("data/input/chapter4/RowMatrix.txt")                                     //创建RDD文件路径
      .map(_.split(' ')                                                //按“ ”分割
      .map(_.toDouble))                                             //转成Double类型
      .map(line => Vectors.dense(line))                                //转成Vector格式
    val rm = new RowMatrix(rdd)                                      //读入行矩阵
    println(rm.numRows())                                           //打印列数
    println(rm.numCols())                                            //打印行数
  }
}

　　这里，我带你是的

RowMatrix要从RDD[Vector]构造，m是mat的行数，n是mat的列。

 （2）  带有行索引的矩阵
　　　　单纯的行矩阵对其内容无法进行直接显示，当然可以通过调用其方法显示内部数据内推。即通过带有行索引的行矩阵。
　　IndexedRowMatrix矩阵和RowMatrix矩阵的不同之处在于，你可以通过索引值来访问每一行。其他的，没啥区别。



testIndexedRowMatrix.scala

package zhouls.bigdata.chapter4


import org.apache.spark._
import org.apache.spark.mllib.linalg.distributed.{IndexedRow, RowMatrix, IndexedRowMatrix}
import org.apache.spark.mllib.linalg.{Vector, Vectors}

object testIndexedRowMatrix {
  def main(args: Array[String]) {
  val conf = new SparkConf()                                       //创建环境变量
    .setMaster("local")                                               //设置本地化处理
    .setAppName("testIndexedRowMatrix")                          //设定名称
       val sc = new SparkContext(conf)        

//创建环境变量实例
    val rdd = sc.textFile("data/input/chapter4/loadLibSVMFile.txt")                                     //创建RDD文件路径
      .map(_.split(' ')                                                //按“ ”分割
      .map(_.toDouble))                                             //转成Double类型
      .map(line => Vectors.dense(line))                               //转化成向量存储
      .map((vd) => new IndexedRow(vd.size,vd))                      //转化格式
    val irm = new IndexedRowMatrix(rdd)                             //建立索引行矩阵实例
    println(irm.getClass)                                            //打印类型
    println(irm.rows.foreach(println))                                 //打印内容数据
  }
}

　　打印结果是

class  org.apache.spark.mllib.linalg.distributed.IndexedRowMatrix
IndexedRow(3,[1.0,2.0,3.0])

IndexedRow(3,[4.0,5.0,6.0])

　　注意：IndexedRowMatrix除了这个带有行索引的行矩阵功能外，还有其他功能，如：
　　　　　　toRowMatrix将其转化成单纯的行矩阵，toCoordinateMatrix将其转化成坐标矩阵，toBlockMatrix将其转化成块矩阵。




（3） 坐标矩阵
　　　　是一种带有坐标标记的矩阵。
　　坐标矩阵一般用于数据比较多且数据较为分散的情形，即矩阵中含0或者某个具体值较多的情况下。
　　当你的数据特别稀疏的时候怎么办？采用这种坐标矩阵吧。
　　CoordinateMatrix矩阵中的存储形式是（row，col，value），就是原始的最稀疏的方式，所以如果矩阵比较稠密，别用这种数据格式。
　　其中的每一个具体数据都有一组坐标进行标示。其类型格式如下：

(x: Long  ,  y:Long  , value:Double)

　　x和y分别代表标示坐标的坐标轴标号，value是具体内容。x是行坐标，y是列坐标。



testCoordinateRowMatrix.scala

package zhouls.bigdata.chapter4


import org.apache.spark._
import org.apache.spark.mllib.linalg.{Vector, Vectors}
import org.apache.spark.mllib.linalg.distributed.{CoordinateMatrix, MatrixEntry}

object testCoordinateRowMatrix {
  def main(args: Array[String]) {
    val conf = new SparkConf()                                       //创建环境变量
      .setMaster("local")                                               //设置本地化处理
      .setAppName("testCoordinateRowMatrix")                          //设定名称
    val sc = new SparkContext(conf)                                  //创建环境变量实例
    val rdd = sc.textFile("data/input/chapter4/loadLibSVMFile.txt")                                     //创建RDD文件路径
      .map(_.split(' ')                                                //按“ ”分割
      .map(_.toDouble))                                             //转成Double类型
      .map(vue => (vue(0).toLong,vue(1).toLong,vue(2)))                //转化成坐标格式
      .map(vue2 => new MatrixEntry(vue2 _1,vue2 _2,vue2 _3))         //转化成坐标矩阵格式
    val crm = new CoordinateMatrix(rdd)                              //实例化坐标矩阵
    println(crm.entries.foreach(println))                                //打印数据
  }
}


　　　运行结果是，

MatrixEntry(1,2,3.0)
MatrixEntry(4,5,6.0)