xx

新闻推荐系统的方案：

新闻（这里的新闻除了包括传统的新闻外，还指博客、微博、rss feed等，因为它们具有以下的共性）推荐方面的工作：

Google News的个性化：Personalized News Recommendation Based on Click Behavior 展示了如何考虑领域特点和数据特点，有效改进推荐系统//Google News Personalization: Scalable Online Collaborative Filtering//

Google的第一篇文章，也可以看做他们做新闻推荐的第一个阶段，是一个从无到有的过程。他们采用了三种方法做推荐，LSH/Minhash, PLSI 和co-visition。前两种都是用于聚类，把每一个用户都分到他所属的类中，然后将该类用户的集体点击行为聚合在一起，作为对当前用户的推荐。
Co-visition就是一种item-based的推荐方法，通过发行item之间的关联性来做推荐。可以看到，在这一阶段，他们最关心的是可扩展性
scalability的问题，LSH/Minhash是很快速并且很容易并行化的方法；而PLSI又在各领域表现不俗，因而他们也实现了
mapreduce版本，并用到新闻推荐里面来。最后的实验表明，这3种方法综合运用起来能取得最好的结果，比向用户推荐popular的新闻提高了
38%。后来Amazon出来的Greg评价说这个数值，比他们在电子商务中用CF来做推荐相对于推荐流行商品，提高的要少得多。我想这可能跟算法有一定关系，但也跟两个领域不同相关，因为在新闻领域，由于用户对热门流行的需求相对较强，所以popular的方法效果不会很差，因此在这个基础上提高38%
也算不错的结果了。

今年IUI上他们的这篇paper，可以看作是第二阶段。针对新闻领域自身的特点，直接用前面的协同过滤解决不了的时候，对原有算法做的补充和增强。新闻领域有如下几个特点：一是新闻这种 item的时效性很强，更新速度快。比如一个大的新闻网站，新闻条目的总数和Amazon上商品的总数是差不多的，但是新闻条目的更新速度是远远快于商品的，即它的生命周期非常短，可能只有几个小时或几天。这对推荐系统的性能架构和推荐质量（用户满意度）都提出了更高的要求。随之而来就产生了first rater问题，即一则新的新闻，可能才出来的一段时间，浏览点击的人非常少或基本没有，这样一般推荐算法就推不出来；如果等到数据积累够了，可能已经过了若干小时了。二是新闻领域里的用户—读者，更容易受流行和热门的item影响。因为毕竟大家都对当时当地的热点事件很好奇，而且点击一则热门新闻的成本显然比购买一本流行书的成本低很多。因此，如果一则新闻非常流行，很多人都去看，就像大家的购物篮里面都有这个东西一样，计算和其他item的相关性时，它就很占便宜，往往容易被推荐出来。