基于物品的协同过滤（item-based collaborative filtering)

简介

本书是集体智慧编程一书的学习笔记。
1
之前我们已经完成了基于用户的协同过滤的推荐算法，它的思想是将所有的用户和自己对比，显然对于小数据集还是可以忍受的，但是对于大量或巨量的用户数据集，这种实时进行相似度计算即耗时又耗力。

有没有更好的计算方法呢？有，就是我们不再基于用户，我们基于物品。基于用户的时候，来了一个人，就同剩下的全部人比较，实时运算伤不起。基于物品的时候，来了一个人，我们就看他最近看过什么或买过什么（物品），我们计算该物品同剩下的其它全部物品进行相似度比较，找出相似度高的推荐给他。

这里你又会说，这不是一样要实时运算吗。其实不然，我们可以提前就计算好每个物品和它相似度高的物品，仓库里的每个物品都这样算一遍，把结果存储起来。来了个人的时候，我们根据它买过看过的物品，在存储的数据里调用这些买过看过物品相似度高的物品（已经计算过）推荐给他就好了。这样不就好了。

数据集和相似度准则

同基于用户的协同过滤

#基于物品的推荐
critics={
'Lisa Rose':{'lady in water':2.5,'snakes on a plane':3.5,'just my luck':3.0,'superman returns':3.5,'you,me and dupree':2.5,'the night listener':3.0},
'Gene Seymour':{'lady in water':3.0,'snakes on a plane':3.5,'just my luck':1.5,'superman returns':5.0,'you,me and dupree':3.5,'the night listener':3.0},
'Michael Phillips':{'lady in water':2.5,'snakes on a plane':3.0,'superman returns':3.5,'the night listener':4.0},
'Claudia Puig':{'snakes on a plane':3.5,'just my luck':3.0,'superman returns':4.0,'the night listener':4.5},
'Mick Lasalle':{'lady in water':3.0,'snakes on a plane':4.0,'just my luck':2.0,'superman returns':3.0,'you,me and dupree':2.0,'the night listener':3.0},
'Jack Matthews':{'lady in water':3.0,'snakes on a plane':4.0,'superman returns':5.0,'you,me and dupree':3.5,'the night listener':3.0},
'Toby':{'snakes on a plane':4.5,'superman returns':4.0,'you,me and dupree':1.0}}
from math import sqrt
#欧几里德距离
def sim_distance(prefs,p1,p2):
    si={}
    # find common items
    for item in prefs[p1]:
        if item in prefs[p2]:  si[item]=1
    if len(si)==0:  return 0
    #cal the distance
    sum_of_sqr=sum([pow(prefs[p1][item]-prefs[p2][item],2) for item in si]) 
    return 1/(1+sqrt(sum_of_sqr))
#皮尔逊相关度
def sim_pearson(prefs,p1,p2):
    si={}
    for item in prefs[p1]:
        if item in prefs[p2]: si[item]=1
    if len(si)==0: return 0
    sum1=sum([prefs[p1][item] for item in si])
    sum2=sum([prefs[p2][item] for item in si])
    sum1sq=sum([pow(prefs[p1][item],2) for item in si])
    sum2sq=sum([pow(prefs[p2][item],2) for item in si])
    psum=sum([prefs[p1][item]*prefs[p2][item] for item in si])
    num=psum-sum1*sum2/len(si)
    den=sqrt((sum1sq-pow(sum1,2)/len(si))*(sum2sq-pow(sum2, 2)/len(si)))
    if den==0:
        return 0
    return num/den

基于用户——>基于物品

可以代码复用，只需要将人和物品对调即可

#物品与人员互相调换
def transformprefs(prefs):
    result={}
    for person in prefs:
        for item in prefs[person]:
            result.setdefault(item,{})
            # 人、物对调
            result[item][person]=prefs[person][item]
    return result

#最相关的N个person，这里仅仅是函数定义，实际传入参数为物品
def topmatchs(prefs,person,n=5,similarity=sim_pearson):
    scores=[(similarity(prefs,person,other),other) for other in prefs if other!=person]
    scores.sort(reverse=True)
    return scores[0:n]

#构建物品比较数据集合,即，每个item有n个最相关的其它item
def calculatesimilaryitems(prefs,n=10):
    itemsim={}
    itemprefs=transformprefs(prefs)
    c=0
    for item in itemprefs:
        c+=1.0
        if c%100==0:print('%d/%d' %(c,len(itemprefs)))
        scores=topmatchs(itemprefs,item,n=n,similarity=sim_pearson)
        itemsim[item]=scores
    return itemsim

获得推荐

以上部分可以单独提前运行，并存储结果。现在来了一个用户，它有若干买过或看过的物品，我们调用存储的数据库，找到与他买过看过的物品有很高相关度的物品。
例如：我们看过Snake，Superman，Dupree，并有我们给的评分。基于我们看过的这三个电影，查找存储数据库，找到与每个电影（Snake，Superman,Dupree）的相似度高的其它所有或部分排名靠前的相关电影，这里是Night，Lady，Luck。

#来了个新用户，获得推荐
def getrecommendations(prefs,itemsim,user):
    totalsim={}
    simsum={}
    for item,ratio in prefs[user].items():
        for similarity,item2 in itemsim[item]:
            if item2 in prefs[user]: continue
            totalsim.setdefault(item2,0)
            totalsim[item2]+=similarity*ratio
            simsum.setdefault(item2,0)
            simsum[item2]+=similarity
    rankings=[(total/simsum[item],item) for item ,total in totalsim.items()]
    rankings.sort(reverse=True)
    return rankings