【论文阅读-REC】<<DEEP NEURAL NETWORKS FOR YOUTUBE RECOMMENDATIONS>>阅读

1、介绍：

YouTube推荐的挑战：

scale：很多算法在小数据有用，在youtube无用；

freshness：需要对对新上传视频足够敏感；

noisy：没有真实的用户反馈；缺少结构化的数据

2、skip

3、候选生成：

之前的模型是基于矩阵分解；YouTube的DL模型的前几层就是使用神经网络模拟这种分解；这可以看成是分解技术的非线性泛化

3.1、把推荐看做多分类：

NCE和hs，文字指出hs没有得到nce的效果；YouTube认为，遍历树中不相关节点，使效果变差。

在线预估的时候，并不是对所有video打分；而是用近邻检索方案

3.2、架构：

用户观看行为作为WordVec；用户浏览作为WordVec；以此作为输入，后面接几个全连接和Relu。

ps:用户观看多个video，每个video有一个vec；以avg作为user vec效果最好。

3.3、各种信号：

1）使用人口统计学特征作为先验，使得对新用户推荐合理；

2）用户对于新的视频感兴趣，即使相关性低;

但是系统习惯于推荐过去的视频，因为训练是基于历史数据;

视频的观看时长是不稳当的，但是我们的模型偏向于拟合视频的平均观看时长;

因此在训练集中，考虑video的上传时间特征对模型很重要。

3.4、样本和上下文选择：

1）以所有的watch为样本，而非推荐结果中的watch为样本；

2）每个用户选择一样多的样本，防止某些用户居于主导地位

3）很多CF潜在地把用户的行为pair看做对称的，而YouTube的video则不是，所以前后不对称；

3.5、实验

特征越多，层次越深越好

4、排序

排序的目的：

1）使用曝光校准推荐结果，因为推荐依据相关性，但是点击可能有更多因素；

2）融合不同推荐源的结果

预估目标是观看时间，方法是LR；若预估点击率，那么会鼓励低质量的欺骗视频

4.1、特征表示

有数值特征，有分类特征；

分类特征又可以分为单值分类特征，多值分类特征；

连续特征泛化能力好，因为它本身是item的泛化；

候选集来源和得分也重要；

展现频次特征可以引入流失信息，也很重要（样本被展现不被点击，就不再展现，频次表现了物品的质量）；

分类特征用词向量；

NN对于特征量纲敏感，连续特征要归一化（决策树不敏感）；文中使用累积概率密度归一化；

对归一化值使用幂函数，可以提升离线表现；

4.2、对观看时间建模

目标函数是WeightedLR；负样本使用Unit weight.

遗留问题：

1、基于重要性权重矫正样本，是什么技术？

2、近邻检索方案是如何实现的？

3、WeightedLR如何使用

如果发现文中有问题，敬请联系作者批评指正，真诚欢迎您的指教，谢谢！

微信: legelsr0808

邮箱: legelsr0808@163.com