xx

新闻推荐系统的方案:

新闻(这里的新闻除了包括传统的新闻外,还指博客、微博、rss feed等,因为它们具有以下的共性)推荐方面的工作:

Google News的个性化:Personalized News Recommendation Based on Click Behavior 展示了如何考虑领域特点和数据特点,有效改进推荐系统//Google News Personalization: Scalable Online Collaborative Filtering// 

  Google的第一篇文章,也可以看做他们做新闻推荐的第一个阶段,是一个从无到有的过程。他们采用了三种方法做推荐,LSH/Minhash, PLSI 和co-visition。前两种都是用于聚类,把每一个用户都分到他所属的类中,然后将该类用户的集体点击行为聚合在一起,作为对当前用户的推荐。
Co-visition就是一种item-based的推荐方法,通过发行item之间的关联性来做推荐。可以看到,在这一阶段,他们最关心的是可扩展性
scalability的问题,LSH/Minhash是很快速并且很容易并行化的方法;而PLSI又在各领域表现不俗,因而他们也实现了
mapreduce版本,并用到新闻推荐里面来。最后的实验表明,这3种方法综合运用起来能取得最好的结果,比向用户推荐popular的新闻提高了
38%。后来Amazon出来的Greg评价说这个数值,比他们在电子商务中用CF来做推荐相对于推荐流行商品,提高的要少得多。我想这可能跟算法有一定关系,但也跟两个领域不同相关,因为在新闻领域,由于用户对热门流行的需求相对较强,所以popular的方法效果不会很差,因此在这个基础上提高38%
也算不错的结果了。

        今年IUI上他们的这篇paper,可以看作是第二阶段。针对新闻领域自身的特点,直接用前面的协同过滤解决不了的时候,对原有算法做的补充和增强。新闻领域有如下几个特点:一是新闻这种 item的时效性很强,更新速度快。比如一个大的新闻网站,新闻条目的总数和Amazon上商品的总数是差不多的,但是新闻条目的更新速度是远远快于商品的,即它的生命周期非常短,可能只有几个小时或几天。这对推荐系统的性能架构和推荐质量(用户满意度)都提出了更高的要求。随之而来就产生了first rater问题,即一则新的新闻,可能才出来的一段时间,浏览点击的人非常少或基本没有,这样一般推荐算法就推不出来;如果等到数据积累够了,可能已经过了若干小时了。二是新闻领域里的用户—读者,更容易受流行和热门的item影响。因为毕竟大家都对当时当地的热点事件很好奇,而且点击一则热门新闻的成本显然比购买一本流行书的成本低很多。因此,如果一则新闻非常流行,很多人都去看,就像大家的购物篮里面都有这个东西一样,计算和其他item的相关性时,它就很占便宜,往往容易被推荐出来。

原文地址:https://www.cnblogs.com/zzblee/p/4015082.html