聚类、降维、文本处理阅读记录

聚类

数据没有标注。无监督技术。

K-均值聚类

层次聚类：是一个结构化的聚类方法，最终可得到多层的聚类结果，其中每个类族可能包含多个子类族。因为每个子类族与父类族连接，所以也称为树形聚类。

离群值：归一化/标准化解决。

--------------------------------------------

降维

主成分分析 PCA

奇异值分解 SVD

SVD试图将一个m X n矩阵分解为3个主成分矩阵

a、mXm维矩阵U

b、mXm维对角阵S，S中的元素是奇异值

c、mXm维矩阵Vt

X = UxSxVt

事实上，一般计算截断的SVD，只保留前k个奇异值，它们能代表数据的最主要变化，剩余的奇异值被丢弃，

即X ~ UkxSkxVkt

降维技术：基于矩阵分解

wholeTextFiles函数，允许我们一次操作整个文件访问每个文件存储的位置，返回键/值对组成的RDD，键是文件位置，值是整个文件内容。

file://是本地文件系统

hdfs://是hdfs

s3n://是Amazon S3文件系统，……

一个彩图可表示成三维的像素数组或矩阵，即x、y坐标，表示每个像素的位置，第3个维度表示每个像素的RGB值。灰图可表示为二维，因第三个维度为一个不变值。经常将彩图转换为灰图。

--------------------------------------------

文本数据处理

文本数据处理的复杂性：

文本和语言有隐含的结构信息

有效维度一般都巨大甚至无限

词频-逆文本频率（TF-IDF）：

TF-IDF给文档中每个词赋予一个权值，这个权值是基于单词在文本中出现的频率（词频）计算得到，同时还要应用逆向文本频率做全局归一化。

tf-idf(t,d) = tf(t,d) x idf(t)

idf(t) = log(N/d)

tf(t,d) : t在d中的频率

idf(t)：t的逆向文本频率

N：文档总数

d：出现过单词t的文档数量

TF-IDF含义是：在一个文档中出现次数很多的词相比出现次数少的词应该在词向量表示中得到更高的权值。而IDF归一化起到了减弱在所有文档中总是出现的词作用，最后的结果就是，稀有的或重要的词被给予了更高的权值，而更加常用的单词（被认为比较不重要）则在考虑权重的时候有较小的影响。

特征哈希：一种处理高维数据的技术，并经常应用在文本和分类数据集上。

特征哈希通过使用哈希方程对特征赋予向量下标，这个向量下标是通过特征的值做哈希得到（通常是整数）。但因最常用的哈希函数返回整个整数域内的任意值，我们将使用模操作来限制下标的值到一个特定的大小，远小于整数域大小（根据需要取数千上万直至几百万）。

缺陷：

1）没有创建特征到下标的映射，也就不能做逆向转换把下标转换为特征。

2）产生哈希冲突，但只要我们选择了一个相对合理的特征向量维度，这种冲突貌似对于模型的效果没有太大的影响。

正则表达式的应用，切分原始文档来移除这些非单词字符。

使用TF-IDF加权或直接过滤指定的停用词。

基于频率去除单词。