热词分析学习进度（四）

信息技术手册查重错误比对分析

　　　昨天进行了对word文档错误的修改接下来可以进行导入数据库的操作。

　　　　参考博文https://blog.csdn.net/coding01/article/details/81512430

　　　导入数据库主要又是三种方法：　　

一：

1. 直接读取数据，保存成一个String类型的RDD
2. 将此RDD中每一行中的不定数量的空格用正则表达式匹配选出后替换成“，”
3. 将处理过后的RDD保存到一个临时目录中
4. 以CSV方式读取此临时目录中的数据，便可将读到的数据直接存成一个多列的DataFrame
5. 最后将此DataFrame的数据类型转为Double
二：

读取原始文件，用正则表达式分割每个样本点的属性值，保存成Array[String]类型的RDD
利用Spark ML库中的LabeledPoint类将数据转换成LabeledPoint类型的RDD。
LabeledPoint类型包含label列和features列，label列即标签列，是Double类型的，因为本次数据未经训练还没有标签，所以可随意给定一个数字；features列即特征向量列，是向量类型的，本次数据均为特征点，所以用Vectors类全部转换为向量类型。
将LabeledPoint类型的RDD转换为DataFrame并只选择其features列，得到一个新的DataFrame，然后就可以在此df上进行一些机器学习算法（如：KMeans）了。