简单的user-based协同过滤算法示例代码

#构造一份打分数据集
1 users = {"小明": {"中国合伙人": 5.0, "太平轮": 3.0, "荒野猎人": 4.5, "老炮儿": 5.0, "我的少女时代": 3.0, "肖洛特烦恼": 4.5, "火星救援": 5.0},

          "小红":{"小时代4": 4.0, "荒野猎人": 3.0, "我的少女时代": 5.0, "肖洛特烦恼": 5.0, "火星救援": 3.0, "后会无期": 3.0},

          "小阳": {"小时代4": 2.0, "中国合伙人": 5.0, "我的少女时代": 3.0, "老炮儿": 5.0, "肖洛特烦恼": 4.5, "速度与激情7": 5.0},

          "小四": {"小时代4": 5.0, "中国合伙人": 3.0, "我的少女时代": 4.0, "匆匆那年": 4.0, "速度与激情7": 3.5, "火星救援": 3.5, "后会无期": 4.5},

          "六爷": {"小时代4": 2.0, "中国合伙人": 4.0, "荒野猎人": 4.5, "老炮儿": 5.0, "我的少女时代": 2.0},

          "小李":  {"荒野猎人": 5.0, "盗梦空间": 5.0, "我的少女时代": 3.0, "速度与激情7": 5.0, "蚁人": 4.5, "老炮儿": 4.0, "后会无期": 3.5},

          "隔壁老王": {"荒野猎人": 5.0, "中国合伙人": 4.0, "我的少女时代": 1.0, "Phoenix": 5.0, "甄嬛传": 4.0, "The Strokes": 5.0},

          "邻村小芳": {"小时代4": 4.0, "我的少女时代": 4.5, "匆匆那年": 4.5, "甄嬛传": 2.5, "The Strokes": 3.0}

         }

 #定义几种距离计算函数

 #更高效的方式为把得分向量化之后使用scipy中定义的distance方法

 from math import sqrt

 def euclidean_dis(rating1, rating2):

     """计算2个打分序列间的欧式距离. 输入的rating1和rating2都是打分dict

        格式为{'小时代4': 1.0, '疯狂动物城': 5.0}"""

     distance = 0

     commonRatings = False

     for key in rating1:

         if key in rating2:

             distance += (rating1[key] - rating2[key])^2

             commonRatings = True

     #两个打分序列之间有公共打分电影

     if commonRatings:

         return distance

     #无公共打分电影

     else:

         return -1

 def manhattan_dis(rating1, rating2):

     """计算2个打分序列间的曼哈顿距离. 输入的rating1和rating2都是打分dict

        格式为{'小时代4': 1.0, '疯狂动物城': 5.0}"""

     distance = 0

     commonRatings = False

     for key in rating1:

         if key in rating2:

             distance += abs(rating1[key] - rating2[key])

             commonRatings = True

     #两个打分序列之间有公共打分电影

     if commonRatings:

         return distance

     #无公共打分电影

     else:

         return -1

 def cos_dis(rating1, rating2):

     """计算2个打分序列间的cos距离. 输入的rating1和rating2都是打分dict

        格式为{'小时代4': 1.0, '疯狂动物城': 5.0}"""

     distance = 0

     dot_product_1 = 0

     dot_product_2 = 0

     commonRatings = False

     for score in rating1.values():

         dot_product_1 += score^2

     for score in rating2.values():

         dot_product_2 += score^2

     for key in rating1:

         if key in rating2:

             distance += rating1[key] * rating2[key]

             commonRatings = True

     #两个打分序列之间有公共打分电影

     if commonRatings:

         return 1-distance/sqrt(dot_product_1*dot_product_2)

     #无公共打分电影

     else:

         return -1

 def pearson_dis(rating1, rating2):

     """计算2个打分序列间的pearson距离. 输入的rating1和rating2都是打分dict

        格式为{'小时代4': 1.0, '疯狂动物城': 5.0}"""

     sum_xy = 0

     sum_x = 0

     sum_y = 0

     sum_x2 = 0

     sum_y2 = 0

     n = 0

     for key in rating1:

         if key in rating2:

             n += 1

             x = rating1[key]

             y = rating2[key]

             sum_xy += x * y

             sum_x += x

             sum_y += y

             sum_x2 += pow(x, 2)

             sum_y2 += pow(y, 2)

     # now compute denominator

     denominator = sqrt(sum_x2 - pow(sum_x, 2) / n) * sqrt(sum_y2 - pow(sum_y, 2) / n)

     if denominator == 0:

         return 0

     else:

         return (sum_xy - (sum_x * sum_y) / n) / denominator

 #查找最近邻

 def computeNearestNeighbor(username, users):

     """在给定username的情况下，计算其他用户和它的距离并排序"""

     distances = []

     for user in users:

         if user != username:

             #distance = manhattan_dis(users[user], users[username])

             distance = pearson_dis(users[user], users[username])

             distances.append((distance, user))

     # 根据距离排序，距离越近，排得越靠前

     distances.sort()

     return distances

 #推荐

 def recommend(username, users):

     """对指定的user推荐电影"""

     # 找到最近邻

     nearest = computeNearestNeighbor(username, users)[0][1]

     recommendations = []

     # 找到最近邻看过，但是我们没看过的电影，计算推荐

     neighborRatings = users[nearest]

     userRatings = users[username]

     for artist in neighborRatings:

         if not artist in userRatings:

             recommendations.append((artist, neighborRatings[artist]))

     results = sorted(recommendations, key=lambda artistTuple: artistTuple[1], reverse = True)

     for result in results:

         print(result[0], result[1])

 #测试一下

 recommend('小阳', users)

     后会无期 4.5

     匆匆那年 4.0

     火星救援 3.5

 #简单的张量分解进行打分和推荐

 #要用到numpy模块

 import numpy

 #手写矩阵分解

 #现在有很多很方便对高维矩阵做分解的package，比如libmf, svdfeature等

 def matrix_factorization(R, P, Q, K, steps=5000, alpha=0.0002, beta=0.02):

     Q = Q.T

     for step in xrange(steps):

         for i in xrange(len(R)):

             for j in xrange(len(R[i])):

                 if R[i][j] > 0:

                     eij = R[i][j] - numpy.dot(P[i,:],Q[:,j])

                     for k in xrange(K):

                         P[i][k] = P[i][k] + alpha * (2 * eij * Q[k][j] - beta * P[i][k])

                         Q[k][j] = Q[k][j] + alpha * (2 * eij * P[i][k] - beta * Q[k][j])

         eR = numpy.dot(P,Q)

         e = 0

         for i in xrange(len(R)):

             for j in xrange(len(R[i])):

                 if R[i][j] > 0:

                     e = e + pow(R[i][j] - numpy.dot(P[i,:],Q[:,j]), 2)

                     for k in xrange(K):

                         e = e + (beta/2) * (pow(P[i][k],2) + pow(Q[k][j],2))

         if e < 0.001:

             break

     return P, Q.T

 #读取user数据并用张量分解进行打分

 R = [

      [5,3,0,1],

      [4,0,3,1],

      [1,1,0,5],

      [1,0,0,4],

      [0,1,5,4],

     ]

 R = numpy.array(R)

 N = len(R)

 M = len(R[0])

 K = 2

 P = numpy.random.rand(N,K)

 Q = numpy.random.rand(M,K)

 nP, nQ = matrix_factorization(R, P, Q, K)

 nR = numpy.dot(nP, nQ.T)

nP

array([[ 0.38345373,  2.181972  ],

       [ 0.32334816,  1.56283276],

       [ 1.99170613,  0.16400981],

       [ 1.59666903,  0.14124969],

       [ 1.64308192,  1.07125805]])

nQ

array([[ 0.38946426,  2.29198167],

       [ 0.19720283,  1.18916254],

       [ 1.71589715,  1.76060186],

       [ 2.48314488,  0.03019937]])

nR

array([[ 5.15038133,  2.67033753,  4.49955112,  1.01806534],

       [ 3.70791658,  1.92222735,  3.30635845,  0.85011689],

       [ 1.15160585,  0.58780442,  3.70631887,  4.95064787],

       [ 0.94558722,  0.48283649,  2.98840431,  3.96902618],

       [ 3.0952255 ,  1.59792036,  4.70541851,  4.11236178]])

1 R

array([[5, 3, 0, 1],

       [4, 0, 3, 1],

       [1, 1, 0, 5],

       [1, 0, 0, 4],

       [0, 1, 5, 4]])

简单的user-based协同过滤算法示例代码的更多相关文章

使用Python3.7配合协同过滤算法(base on user,基于人)构建一套简单的精准推荐系统（个性化推荐）
原文转载自「刘悦的技术博客」https://v3u.cn/a_id_136 时至2020年,个性化推荐可谓风生水起,Youtube,Netflix,甚至于Pornhub,这些在互联网上叱咤风云的流媒体 ...
Slope one—个性化推荐中最简洁的协同过滤算法
Slope One 是一系列应用于协同过滤的算法的统称.由 Daniel Lemire和Anna Maclachlan于2005年发表的论文中提出. [1]有争议的是,该算法堪称基于项目评价的non ...
Collaborative Filtering(协同过滤)算法详解
基本思想基于用户的协同过滤算法是通过用户的历史行为数据发现用户对商品或内容的喜欢(如商品购买,收藏,内容评论或分享),并对这些喜好进行度量和打分.根据不同用户对相同商品或内容的态度和偏好程度计算用户 ...
亚马逊协同过滤算法 Collaborative filtering
这节课时郭强的三维课.他讲的是MAYA和max .自己对这个也不怎么的感兴趣.而且这个课感觉属于数字媒体.自己对游戏,动画,这些东西一点都不兴趣,比如大一的时候刚开学的时候,张瑞的数字媒体的导论课.还 ...
win7下使用Taste实现协同过滤算法
如果要实现Taste算法,必备的条件是: 1) JDK,使用1.6版本.需要说明一下,因为要基于Eclipse构建,所以在设置path的值之前要先定义JAVA_HOME变量. 2) Maven,使用2 ...
Mahout实现基于用户的协同过滤算法
Mahout中对协同过滤算法进行了封装,看一个简单的基于用户的协同过滤算法. 基于用户:通过用户对物品的偏好程度来计算出用户的在喜好上的近邻,从而根据近邻的喜好推测出用户的喜好并推荐. 图片来源程序 ...
Spark MLlib协同过滤算法
算法说明协同过滤(Collaborative Filtering,简称CF,WIKI上的定义是:简单来说是利用某个兴趣相投.拥有共同经验之群体的喜好来推荐感兴趣的资讯给使用者,个人透过合作的机制给予 ...
吴裕雄--天生自然HADOOP操作实验学习笔记：协同过滤算法
实验目的初步认识推荐系统学会用mapreduce实现复杂的算法学会系统过滤算法的基本步骤实验原理前面我们说过了qq的好友推荐,其实推荐算法是所有机器学习算法中最重要.最基础.最复杂的算法,一 ...
spark机器学习从0到1协同过滤算法 (九）
一.概念协同过滤算法主要分为基于用户的协同过滤算法和基于项目的协同过滤算法. 基于用户的协同过滤算法和基于项目的协同过滤算法 1.1.以用户为基础(User-based)的协同过滤用相似统 ...

随机推荐

8.Python爬虫实战一之爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...
http 协议三次握手
HTTP是超文本传输协议,信息是明文传输.TPC/IP协议是传输层协议,主要解决数据如何在网络中传输.HTTP是应用层协议,主要解决如何包装数据. [HTTP与TCP/IP]和其他的协议在最初OSI模 ...
Linux内存压力测试stressapptest
/********************************************************************** * Linux内存压力测试stressapptest * ...
Unity3D 重写下拉菜单/Dropdown组件、开启每个按钮可用
Override Dropdown Component 本文提供全流程,中文翻译. Chinar 坚持将简单的生活方式,带给世人!(拥有更好的阅读体验 -- 高分辨率用户请根据需求调整网页缩放比例) ...
poj-1657 Distance on Chessboard
c语言解决代码:#include <stdio.h>#include <stdlib.h> int main(){ int num,i; scanf(" ...
Thinkphp的知识内容
详细的介绍内容:https://baike.so.com/doc/5504725-5740469.html
python:代码复用与函数递归
#recursion.py:打印斐波那契数列 def fact(n): if n==1 or n==2: return 1 else: return fact(n-1)+fact(n-2) while ...
BootStrap------之模态框1
<!DOCTYPE html> <html lang="zh-cn"> <head> <meta charset="utf-8& ...
ThinkPHP验证码类的使用
1.创建一个方法并引入验证码类class ShowAction extends Action{//用户评论验证码public function verify(){import('ORG.Util.Im ...
【BZOJ3672】【UOJ#6】【NOI2014】随机数生成器
暴力出奇迹原题: 2≤N,M≤5000 0≤Q≤50000 0≤a≤300 0≤b,c≤108 0≤x0<d≤108 1≤ui,vi≤N×M 恩首先容易看出来这个棋盘直接模拟搞出来就行了,不用 ...

简单的user-based协同过滤算法示例代码

简单的user-based协同过滤算法示例代码的更多相关文章

随机推荐

热门专题