中文锐推榜的优化

郑昀@玩聚RT 20090615

中文锐推榜(原理很简单,就是自动搜集中文世界微博客的锐推(转发)消息,语义计算消息之间的相似性,自动聚合一条消息被 Twitter和饭否用户转发的次数;转发次数高的消息将登上热榜)在6月9日加入饭否的合并统计之前,存在的老问题:

1、重复:发源自不同人的锐推,内容大致是一件事情或一个链接,但由于措辞不同(汉语博大精深),甚至只是在最前面加了几个字或者诡异的符号,然后只要转发次数足够多,就可以导致重复上榜;

    解决办法:针对此问题,我们已经建立了不少规则,尽可能地去除锐推消息中的标点符号英文字母、各种格式各种习惯的转发过程中用户增加的评论。自然语言处理上,则清理消息中无意义的停止词,如“的”“是”等等。但只能尽可能减少,并未彻底解决。

在 @NetPuter 的建议下,最近加入对饭否数据的统计。

之后常被投诉的问题:

1、还是重复问题

2、部分知名ID过于频繁上榜:尤其以饭否ID为主;

3、少量上榜消息不具有传播性:即消息并不像玩聚RT所致力挖掘的那么“有趣”;

4、饭否的消息上榜过多:饭否的站方规范转发行为,增加了转发按钮之后,降低了转发行为的成本。

    解决办法:针对2和3,玩聚RT增加了一个黑名单,专门收纳那些有很多热情粉丝的、消息却不具有传播性的ID。但考虑到无处不在的“马太效应”,名人ID的消息上榜多,是显而易见的社会常态,不应该被禁止或限制。只要符合“有趣”的特质,那么即使是名人的消息,通过转发次数足够多证明了它的可传播性,那么就应该被传播出去。毕竟,榜单追求的是“有趣”。当初TechMeme的创始人Gabe非常强调的一点就是:“我希望能让读者感到有趣,同时也为不知名作者提供展示自己的舞台”。如果榜单上全都是东东枪、连岳或艾未未的名人锐推,人们也会很快厌倦的,所以增加不知名微博客用户的上榜几率,才是我们要认真考虑的。热门榜单相当于给你五分钟登上舞台中央的机会,至于是否抓人,就要看你的自身魅力了。上了锐推榜,第一波可以让至少两、三千人看到,然后也许有近百人再转发,按此估算,上榜的辐射面可能有近万人。这能够给不知名作者带来不少订阅者。

                  针对4,把来自twitter的消息上榜的阈值,与饭否的分开。饭否的上榜阈值要高得多。

                  针对1,@terryxxy 建议,对每一条已达到上榜资格的锐推消息,在准备上榜之前,可以与48小时内的已上榜锐推进行相似性比较;如果此消息发现与之前的消息重复度大于85%,就不再上榜。但考虑到微博客用户对汉语运用的随意性,还是会存在一定判错几率的。

其他问题:

5、@easthero 认为饭否用户和Twitter用户的群体是完全不同的,Twitter上的更具有Geek气质。所以他认为需要把Twitter的锐推榜与饭否的彻底分开,不要混合在一起计算和传播。

当然,在@NetPuter 建议为饭否单独建一个锐推榜时,我也是这么认为;饭否用户质量不如Twitter质量高,所以它们的消息不能合并计算。

但,在做了一段时间的实验后,我发现也不是这么绝对。

具有传播特质的锐推,和人性有关,与Geek无关。Geek也是人。

饭否和twitter上的能上榜的锐推消息本质都是一样,无非几个命题:

    自由主义、科技、情色和爆炸性新闻。

你可以回到加入饭否之前(6月9日)的锐推榜,比如 http://rt.ju690.com/?v=new&d=7&p=page30 ,对,修改后面的p参数,翻到40、50页看看,看和现在合并统计的有何区别呢?不还都是那些东西吗?科技、自由、大事件、段子、情色。

以后再增加其他微博客服务时,只要调高或调低发源自它们的消息的上榜阈值,调整好黑名单,我认为可以合并统计。

郑昀@玩聚RT 20090615

原文地址:https://www.cnblogs.com/zhengyun_ustc/p/1503967.html