热词分析学习进度(四)

信息技术手册查重错误比对分析

   昨天进行了对word文档错误的修改接下来可以进行导入数据库的操作。

    参考博文https://blog.csdn.net/coding01/article/details/81512430

   导入数据库主要又是三种方法:  

一:

1. 直接读取数据,保存成一个String类型的RDD
2. 将此RDD中每一行中的不定数量的空格用正则表达式匹配选出后替换成“,”
3. 将处理过后的RDD保存到一个临时目录中
4. 以CSV方式读取此临时目录中的数据,便可将读到的数据直接存成一个多列的DataFrame
5. 最后将此DataFrame的数据类型转为Double
二:

读取原始文件,用正则表达式分割每个样本点的属性值,保存成Array[String]类型的RDD
利用Spark ML库中的LabeledPoint类将数据转换成LabeledPoint类型的RDD。
LabeledPoint类型包含label列和features列,label列即标签列,是Double类型的,因为本次数据未经训练还没有标签,所以可随意给定一个数字;features列即特征向量列,是向量类型的,本次数据均为特征点,所以用Vectors类全部转换为向量类型。
将LabeledPoint类型的RDD转换为DataFrame并只选择其features列,得到一个新的DataFrame,然后就可以在此df上进行一些机器学习算法(如:KMeans)了。

原文地址:https://www.cnblogs.com/877612838zzx/p/10599421.html