推荐系统实践

p3 召回算法和业界最佳实践

embedding

MF

topic model

  1. PLSA
  2. LDA 先验分布为迪利克雷分布

word2vec

CBOW

Skip-Ngram

word2vec 训练方式

  1. 霍夫曼树
  2. 负例样本采样(更推荐)

DNN

算法选择(从数据出发)

  • 有监督/无监督?
  • 有序/无序?
  • item量级
  • 实时性
  • 多样性
  • 业务场景目标

离线计算+在线存储

brute force

sharding

局部敏感哈希(近似聚类)

k-d tree

ball tree

p4 用户建模

分类模型应用

点击率预估模型

用户偏好模型Trigger Selection

模型构建

线性模型 LR

非线性模型

CART RF

GBDT/DNN

AutoML

原文地址:https://www.cnblogs.com/zhouyu0-0/p/12262505.html