玩聚网和百度新闻的技术差异性

订阅郑昀到抓虾  google reader   订阅郑昀到鲜果

  郑昀 20080109

  以前给朋友们介绍玩聚网原理时,总爱说我们和百度新闻机制很相似,只不过他们算的只是新闻,我们算的是博客&论坛&新闻罢了,当时以为区别只是我们的计算量相对来说大得多,毕竟新闻算上重复的每天才多少啊,博客博文加论坛帖子每天多少啊,不是一个数量级的;而且我们计算的文字风格千奇百怪,不像新闻那么简单纯粹好算。

  今天,张博士分析了下百度新闻的后台逻辑流程,才感觉可能玩聚网百度新闻之间技术差异还是比想象的大。(张博士广为流传的文章是 搜索引擎设计实用教程-以百度为例[一:分词][二:拼写检查][三:分词][四:相关提示][五:Cache],被研究SEO的人四处传抄,被引用最多的文章还有:搜索引擎CACHE策略研究 | 搜索引擎索引压缩技术 ,其他还有 百度国学搜索探密 | Google的相关提示怎么做

   最大的区别就是起源问题。

   对于百度新闻来说,它比较省事儿,就是它的信息源基本上都是可以直接呈现在页面上的,毕竟都是新闻嘛,质量有保障,所以,它完全可以把一堆新闻放在队列A 中,然后每抓进来一个新闻就进行文本相似性比对,从而进行同类项合并;有多少条以上相似新闻的,就可以放出去形成静态页面了。当然,我这是简化了的说法。

   而玩聚网不能这么玩的,玩聚网的信息源(几百万博客源+几十个论坛网站+几十个新闻网站)是庞杂的,文章质量是没有保障的(而techmeme则用手工建立A-List来保证源头的权威),而且抓到的新文章也数量太多,没办法像上面说的那么做,只能通过更复杂的文本挖掘技术来进行大规模计算,有点强行计算的感觉。于是玩聚网拥有了独门绝技:中文的热点自动发现技术,能够不需任何人工干预就自动计算出过去24小时内发生的热点,并得到了一个一个的精彩故事,有   有 帖子 视频,互相之间还有关联

   小结:

  假如百度新闻和Google新闻确实是如百度新闻的后台逻辑流程所说的流程做的,那么和玩聚网的技术差异性可能还是蛮大的。毕竟,daylife、buzztracker、techmeme都可以去通过限定信息源头来保证计算的精准和简洁,(他们的About上基本都说了信息源的数量,多是几千个,techmeme是比较多的,06年时是一万多个),而玩聚网最开始没有选择这么做,原因是06年那时候我认为中国的精英博客还是太少而且写作频率不稳定,不足以形成稳定计算源。

 

原文地址:https://www.cnblogs.com/zhengyun_ustc/p/onejoo_baidunews.html