基于LDA对关注的微博用户进行聚类

最近看了LDA以及文本聚类的一些方法，写在这里算是读书笔记。文章最后进行了一个小实验，通过爬取本人在微博上关注的人的微博，利用微博的内容，尝试将我关注的人按主题进行进行聚类。

文本聚类就是把一个文本集分成一定数量的簇(Cluster)，使每个簇内的文本之间具有较大的相似性，而使簇间的文本具有较大的差异性。传统的文本聚类方法一般基于向量空间模型(vector space model): 在对文本集中的每个文本进行预处理(分词、停用词过滤等)、特征选择和权重计算之后，将文档集表示成一个高纬、稀疏的文档-词矩阵，进而使用K-Means、凝聚的层次聚类、DBSCAN等聚类方法对文档进行聚类。

在特征选择选择环节，虽然一些高效的特征选择方法，例如互信息MI(Mutual Information)、x2统计量等已经非常成功地应用于文本分类，但由于它们需要每个文档人工标记的类信息而无法应用于无监督的文本聚类。文本聚类里面一般选择无监督的特征选择方法，例如文档频数(整个数据集中有多少个文本包含这个单词)、单词权(认为一个词在相关的文本中出现得越多, 在不相关的文本中出现得越少就越为重要，需要计算每个文档对的相似度)等。

由于基于VSM 向量空间模型在文本聚类时存在的高维稀疏问题，以及不能从语义上理解文本之间的内在联系，另一种比较流行的方法就是通过主题模型来给文本建模，将文本表示成一个主题概率向量，这样能够充分的挖掘文本集合的主题信息。通过主题模型，原本是在高维的特征词空间上表示的文本，被转换在了低维的并且融入更多语义信息的主题空间上来表达，应该能提高文本聚类性能和效率，使得聚类的结果更加有效。

LDA(Latent Dirichlet Allocation)主题模型

LDA 是一个三层贝叶斯概率模型，包含词、主题和文档三层结构。整个文档集有K个主题，每个主题是固定词汇表上的一个多项式分布。这些主题被集合中的所有文档所共享，但每个文档有一个特定的主题分布。每个文档的主题分布θm从 Dirichlet分布中抽样产生，每个主题的词分布φk也从 Dirichlet分布中抽样产生，这两个Dirichlet分布相互独立，参数分别是α和β。（Dirichlet 分布可以理解为一个分布的分布，从Dirichlet 分布中抽个样取出的是一个分布）。

LDA的图模型表示：

整个文档集的生成过程：

首先从以 β为参数的Dirichlet分布中，抽样产生整个文档集的K个词分布φ_k，即左侧的K个主题；

对于每一篇文档：

从以α为参数的Dirichlet分布中，抽样产生一个主题分布 θm，即这篇文档中各个主题的比重，图中为右侧的直方图；

对于这篇文章中的每一个词：

以概率分布θm，选择K个主题中的一个主题，例如为 φ_i；

以概率分布 φ_i，从该主题中选择一个词。

LDA的参数估计：

Gibbs 抽样容易实现并且能够有效地从大规模文集中抽取主题，是当前最流行的LDA 模型抽取算法。Gibbs 抽样并没有直接去计算主题-单词分布φ_k和文本上的主题分布θm，转而对每个位置上的词的主题进行迭代采样。一旦每个位置上的词的主题确定下来，那么φ_k和θm的值就可以在统计频次后计算出来。对每个位置上的词进行主题采样时，该词的主题以该词当时在各个主题上的概率分布采样获得。采样前需要计算该词属于每个主题的概率。

微博用户聚类实验：

(1)爬取我在微博上的关注的用户他们在之前一个月内发的微博。每个人的微博作为一个文本，得到大约500个文本；

(2)用IK Analyzer对每个文本进行切词，并同时过滤掉一些停用词；

(3)利用JGibbLDA将每个文本表示成一个主题向量，即该文本属于每个主题的概率，运行时指定了20个主题，进行了1000次迭代；

(4)使用scikit-learn里的K-Means进行聚类，指定的簇个数是20。

下面是聚类的一部分结果，可以看到一些内容账号的聚类效果还是可以的，主要是它们每天发博量比较大，而且博文的主题较明显。对于个人账号，往往发博量少而且主题分散。当然跟抓的量少也有关系。

(1) LOVE_湖人湖人新闻动态 NikeBasketball 爱死科比论坛 CNTV体育台科比演绎之路于嘉 NBA 苏群

(2) SAP中国创新工场微招聘新浪校园招聘 IBM中国有限公司人才与招聘 Google中国校园招聘 IBM中国 IBM杭州分公司 IBM中国大学合作部新浪招聘

(3) 百度校园百度开发者中心百度搜红包编程之美全国挑战赛美国国家仪器阿里巴巴集团校园招聘微软亚洲研究院百老汇之家 acmicpc 微软学生技术俱乐部阿里云百度云 BaiduFamily 微软校招官方微博微软中国网易校园招聘

(4) DataScientist 52opencourse_挖课网易汪源丕子刘思喆杨滔_数据科学邓侃王威廉北冥乘海生刘洋THU ChinaHadoop MachineLearner 阿里日照

(5) 唯美丶中国风全球视觉图宴镜头中的中国 BJTUcaixia 百度旅游全球顶尖摄影

(6) TechWeb 程苓峰-云科技互联网的那点事开心的老胡-GodHope 淘宝鬼脚七 google那点事儿腾讯微信团队张辉forestsong 刘江总编月光博客 PingWest中文网刘挺王小川 36氪雷军 Fenng 高效IT网庄宝童

(7) Smile_geek 赫阳at百度 199IT-互联网数据中心苏宁易购李斌视物致知蔡学镛 billgates FT中文网数据化管理微数据爬盟中国 DataV 淘宝技术大学社会网络与数据挖掘李开复于仰民_Emilyu 数据挖掘_PHP 淘依韵 ResysChina 量子恒道林仕鼎钱皓-互联网分析师陈利人 EMC中国研究院 BIT-百度技术学院 3W咖啡微指数淘薛奎数据挖掘研究院百度统计 TEDNews 周鸿祎一淘数据工程师杨栋_Kenny 大数据张俊林say 郭去疾数据魔方微软云计算 ipad应用排行榜数据挖掘与数据分析唐福林五洲红 AdMaster 程辉 2012百度之星程序设计大赛 eBayTech 百度推广社交数据分析 Google黑板报张亚勤

(8) 连城404 伯乐在线官方微博图灵社区何_登成一淘测试 python4cn 骆逸 nosqlfan zhh-2009 阿里技术嘉年华微博应用架构 developerWorks 开源中国程序员的那些事 LAMP人 InfoQ 程序员修炼营 TimYang CNodeJS 百度技术沙龙朴灵微博平台架构 SinaAppEngine

(9) 一淘网淘宝网淘宝邓悟 Python发烧友淘宝数据 rockdai 一淘招聘淘楚材乔三石 hugozhu 淘宝指数

(10)姚晨花泽云静司華Fighting glinglingw 邹_小珊蔡圆媛的后花园开启新起点tianran 凌_欣任婷婷养了一只皮皮兽胡思乱想乐 BatmanFly 超级码力 macbax Miss好好菁蔡虎Stanley 夏炎xyxy 阿Oey--陈叶萍 Ali_lulululuya 夏碉堡 turbosun 依兰花开_emma LillianC小超人 Loxpzi-四叶草稀土部队

转自本人博客：http://www.datalab.sinaapp.com/