玩聚网和百度新闻的技术差异性

郑昀 20080109

以前给朋友们介绍玩聚网的原理时，总爱说我们和百度新闻机制很相似，只不过他们算的只是新闻，我们算的是博客&论坛&新闻罢了，当时以为区别只是我们的计算量相对来说大得多，毕竟新闻算上重复的每天才多少啊，博客博文加论坛帖子每天多少啊，不是一个数量级的；而且我们计算的文字风格千奇百怪，不像新闻那么简单纯粹好算。

今天，张博士分析了下百度新闻的后台逻辑流程，才感觉可能玩聚网和百度新闻之间技术差异还是比想象的大。（张博士广为流传的文章是搜索引擎设计实用教程-以百度为例[一:分词]、[二:拼写检查]、[三:分词]、[四:相关提示]、[五:Cache]，被研究SEO的人四处传抄，被引用最多的文章还有：搜索引擎CACHE策略研究 | 搜索引擎索引压缩技术，其他还有百度国学搜索探密 | Google的相关提示怎么做）

最大的区别就是起源问题。

对于百度新闻来说，它比较省事儿，就是它的信息源基本上都是可以直接呈现在页面上的，毕竟都是新闻嘛，质量有保障，所以，它完全可以把一堆新闻放在队列A 中，然后每抓进来一个新闻就进行文本相似性比对，从而进行同类项合并；有多少条以上相似新闻的，就可以放出去形成静态页面了。当然，我这是简化了的说法。

而玩聚网不能这么玩的，玩聚网的信息源（几百万博客源+几十个论坛网站+几十个新闻网站）是庞杂的，文章质量是没有保障的（而techmeme则用手工建立A-List来保证源头的权威），而且抓到的新文章也数量太多，没办法像上面说的那么做，只能通过更复杂的文本挖掘技术来进行大规模计算，有点强行计算的感觉。于是玩聚网拥有了独门绝技：中文的热点自动发现技术，能够不需任何人工干预就自动计算出过去24小时内发生的热点，并得到了一个一个的精彩故事，有博文有帖子有图片有视频，互相之间还有关联。

小结：

假如百度新闻和Google新闻确实是如百度新闻的后台逻辑流程所说的流程做的，那么和玩聚网的技术差异性可能还是蛮大的。毕竟，daylife、buzztracker、techmeme都可以去通过限定信息源头来保证计算的精准和简洁，（他们的About上基本都说了信息源的数量，多是几千个，techmeme是比较多的，06年时是一万多个），而玩聚网最开始没有选择这么做，原因是06年那时候我认为中国的精英博客还是太少而且写作频率不稳定，不足以形成稳定计算源。