冷启动问题概述

定义:在开始阶段,没有大量用户数据的情况下,进行个性化推荐的问题。

分类 对策(提供非个性化推荐-热门推荐)
用户冷启动
-对新用户进行推荐
A1.利用新用户的注册信息进行推荐
   2.导入用户社交网站信息
A3.要求用户对一些物品进行反馈
物品冷启动
-将新物品推荐给用户
B1.利用物品的内容信息进行推荐
系统冷启动
-在无用户行为的网站上
  进行推荐
1.利用专家知识建立物品相关表
A1 用户注册信息
    信息包括:i.人口统计学信息(年龄、性别、职业、学历、住址、名族、国籍)
                       ii.用户兴趣描述
    推荐算法:根据用户信息特征信息,参考同特征用户,获得用户对某物品的喜好程度
            (1.N(i)消除热门物品影响  2.α 消除只有一两人喜欢用品的大权重)
            例子:比如计算一个(男性,22岁,学生)对物品i的喜爱程度
                        -[男 22岁 学生且喜欢物品i的人数]/[喜欢物品i的人数+α]
 
A3 对物品进行反馈
    选择反馈物品的原则:
        i.物品热门(用户知道)
        ii.物品具代表性,区分性(不能选大家都爱的物品)
        iii.多样性(迎合用户兴趣多样性)
    算法:
     --区分度衡量:
      三个值分别为:喜爱物品i的用户对其他物品评分的方差
                           不喜欢物品i的用户对其他物品评分的方差
                           不知道物品i的用户对其他物品评分的方差
     --有了区分度后,通过以下方法选出k个用于反馈的物品
        先选出区分度最大的物品,然后根据该物品将用户分为(喜欢、不喜欢、不知道)3类;
        根据用户在界面上的反馈进入其中某一分支,然后在这一分支上,选出最有区分度的物品;
        以此类推,直到选出k个物品
B1 利用物品内容信息
     将物品内容信息表示为向量,$d_i=(w_1,w_2,...,w_n)$,每个分量对应一个特征,以电影为例,各个分量可以是(导演,类型,...)
     表示成向量后,两个物品的相似度可以用余弦相似度计算:  
     
     对于文本内容,需要经过以下步骤处理:
     
原文地址:https://www.cnblogs.com/porco/p/4421503.html