热推榜单的遏制策略

郑昀@Big Event 20100123

    某位著名推友今晚于Twitter上写道:『RT我这条推多少次我今晚就ML多少次。』

    可想而知这条消息的转推次数一定很惊人。但它却没有登上中文锐推榜(Twitter上的ID:@rtmeme ,对应的网站:玩聚RT),Why?

    话说锐推榜为了阻止重复推上榜,所以要求每一个上榜消息都能够有足够多的标签被提取出来。所以,如果一条消息包含的有信息量的词过少,是无法登上榜单的。这样会丢掉一些优秀的消息,但这种损失是可以接受的。

【注:

   何为“阻止重复推上榜”,可参见前作《语义分析相关应用的实作要点》中举的例子。

    这里说的“标签”是自然语言处理中的“标签自动提取”,并非Twitter世界中专有的“HashTag”。

    这种规则还有一个好处,也就是本文标题指的“遏制策略”:

    你看新浪微博或9911的热门榜单,会发现大多数是明星们的呓语。对于这种基本由单字、叹词、助词、副词、连词和介词等组成的微博消息,锐推榜的这个规则就会有效阻止它们上榜。

    之所以这样,是因为彼此的产品诉求不一样。玩聚锐推榜首要目标是寻找有趣、活泼的推,让每一个人都有机会登上榜单,而不是被名人牢牢占据。

    而从人类的感觉上,至少要能有几个标签,比如名词、动词、形容词等,才能证明一个tweet可能包含有一定信息量,值得被传播。所以强制要求有N个标签被检测到的规则,恰好能逼近这种人类的认知。

关于热文榜单,推荐阅读:

谈热文榜的自动去重

Popular榜单能做到小众化吗?

关于微博热推榜单,推荐阅读:

锐推榜的平衡策略

中文锐推榜优化·二

中文锐推榜的优化

中文锐推榜的一个里程碑

微博客用户是如何传播一条消息的

原文地址:https://www.cnblogs.com/zhengyun_ustc/p/1654995.html