【笔记6】用pandas实现条目数据格式的推荐算法 (基于物品的协同)
'''
基于物品的协同推荐
矩阵数据
说明:
1.修正的余弦相似度是一种基于模型的协同过滤算法。我们前面提过,这种算法的优势之
一是扩展性好,对于大数据量而言,运算速度快、占用内存少。
2.用户的评价标准是不同的,比如喜欢一个歌手时有些人会打4分,有些打5分;不喜欢时
有人会打3分,有些则会只给1分。修正的余弦相似度计算时会将用户对物品的评分减去
用户所有评分的均值,从而解决这个问题。
如何预测用户对给定物品的打分?
一、基于用户协同
方法1:用户之间的距离/相似度(K近邻算法)
二、基于物品协同
方法1:物品之间的相似度(修正的余弦相似度)
方法2:物品之间的差异值(加权Slope One算法)
由于使用的是用户产生的各种数据,因此又称为社会化过滤算法。
协同过滤会遇到的种种问题,包括数据的稀疏性和算法的可扩展性。此外,协同过滤算法倾向于推荐那些已经很流行的物品。
这类推荐系统会让流行的物品更为流行,冷门的物品更无人问津。
-- Daniel Fleder & Kartik Hosanagar 2009 《 推荐系统对商品分类的影响》
'''
import pandas as pd
from io import StringIO
#数据类型一:条目(用户、商品、打分)(避免巨型稀疏矩阵)
csv_txt = '''"David","Imagine Dragons",3
"David","Daft Punk",5
"David","Lorde",4
"David","Fall Out Boy",1
"Matt","Imagine Dragons",3
"Matt","Daft Punk",4
"Matt","Lorde",4
"Matt","Fall Out Boy",1
"Ben","Kacey Musgraves",4
"Ben","Imagine Dragons",3
"Ben","Lorde",3
"Ben","Fall Out Boy",1
"Chris","Kacey Musgraves",4
"Chris","Imagine Dragons",4
"Chris","Daft Punk",4
"Chris","Lorde",3
"Chris","Fall Out Boy",1
"Tori","Kacey Musgraves",5
"Tori","Imagine Dragons",4
"Tori","Daft Punk",5
"Tori","Fall Out Boy",3'''
#数据类型一:条目(用户、商品、打分)(避免巨型稀疏矩阵)
#根据《data minning guide》第85页的users2数据
csv_txt2 = '''"Amy","Taylor Swift",4
"Amy","PSY",3
"Amy","Whitney Houston",4
"Ben","Taylor Swift",5
"Ben","PSY",2
"Clara","PSY",3.5
"Clara","Whitney Houston",4
"Daisy","Taylor Swift",5
"Daisy","Whitney Houston",3'''
df = None
#方式一:加载csv数据
def load_csv_txt():
global df
#df = pd.read_csv(StringIO(csv_txt2), header=None, names=['user','goods','rate'])
df = pd.read_csv("BX-Book-Ratings.csv", header=None, names=['user','goods','rate'], sep=';')
print('测试:读取数据')
load_csv_txt()
#load_json_txt()
#=======================================
# 注意:不需要build_xy
#=======================================
# 计算两个物品相似度
def computeSimilarity(goods1, goods2):
'''根据《data minning guide》第71页的公式s(i,j)'''
df1 = df.ix[df['goods'].isin([goods1]), ['user','rate']]
df2 = df.ix[df['goods'].isin([goods2]), ['user','rate']]
df3 = pd.merge(df1, df2, on='user', how='inner') #只保留两种商品都被同一用户评过分的商品的评分
# 注意:先构造了一个只有index=df3['user']的pd.Series,目的是方便下一步的减
mean = pd.Series(df3['user'].tolist(), index=df3['user']).apply(lambda x:df.ix[df['user']==x, 'rate'].mean())
# 每行的用户评分都减去了该用户的平均评分
df3.index = df3['user']
df3['rate_x'] = df3['rate_x'] - mean
df3['rate_y'] = df3['rate_y'] - mean
# 返回修正的余弦相似度
return sum(df3['rate_x'] * df3['rate_y']) / (sum(df3['rate_x']**2) * sum(df3['rate_y']**2))**0.5 # merge之后默认的列名:rate_x,rate_y
# csv_txt
#print('\n测试:计算Kacey Musgraves与Imagine Dragons的相似度')
#print(computeSimilarity("Kacey Musgraves","Imagine Dragons"))
#为了让公式的计算效果更佳,对物品的评价分值最好介于-1和1之间
def rate2newrate(rate):
'''根据《data minning guide》第76页的公式NR(u,N)'''
ma, mi = df['rate'].max(), df['rate'].min()
return (2*(rate - mi) - (ma - mi))/(ma - mi)
#已知rate2newrate求newrate2rate
def newrate2rate(new_rate):
'''根据《data minning guide》第76页的公式R(u,N)'''
ma, mi = df['rate'].max(), df['rate'].min()
return (0.5 * (new_rate + 1) * (ma - mi)) + mi
#print('\n测试:计算3的new_rate值')
#print(rate2newrate(3))
#print('\n测试:计算0.5的rate值')
#print(newrate2rate(0.5))
# 预测给定用户对物品的可能评分(对评分进行了修正/还原)
def p2(user, goods):
'''根据《data minning guide》第75页的公式p(u,i)'''
#assert pd.isnull(df.ix[df['user']==user & df['goods']==goods, 'rate']) # 必须用户对给定物品尚未评分
#用户对其它所有已打分物品的打分数据
df2 = df.ix[df['user']==user, ['goods','rate']]
s1 = pd.Series(df2['rate'].tolist(), index=df2['goods'])
s1 = s1.apply(lambda x:rate2newrate(x)) #修正
s2 = s1.index.to_series().apply(lambda x:computeSimilarity(x, goods)) #打分物品分别与给定物品的相似度
return newrate2rate(sum(s1 * s2) / sum(abs(s2)))#还原
# csv_txt
#print('\n测试:预测David对Kacey Musgraves的打分(修正)')
#print(p2("David","Kacey Musgraves"))
#==================================
# 下面是Slope One算法
#
# 两个步骤:
# 1. 计算差值
# 2. 预测用户对尚未评分物品的评分
#==================================
# 1.计算两物品之间的差异
def dev(goods1, goods2):
'''根据《data minning guide》第80页的公式dev(i,j)'''
#s = (df[goods1] - df[goods2]).dropna()
df1 = df.ix[df['goods'].isin([goods1]), ['user','rate']]
df2 = df.ix[df['goods'].isin([goods2]), ['user','rate']]
print('df1\n', df1)
print('df2\n', df2)
df3 = pd.merge(df1, df2, on='user', how='inner') #只保留两个物品都有评分的用户的评分
print(df3)
print(df3.shape[0])
d = sum(df3['rate_x'] - df3['rate_y'])/df3.shape[0] # 差异值
return d, df3.shape[0] #返回差异值,及权值(同时对两个物品打分的人数)
# csv_txt
#print('\n测试:计算Kacey Musgraves与Imagine Dragons的分数差异')
#print(dev("Kacey Musgraves","Imagine Dragons"))
#计算所有两两物品之间的评分差异,得到方阵pd.DataFrame(行对列)
def get_dev_table():
'''根据《data minning guide》第87页的表'''
#goods_names = df.columns.tolist()
goods_names = df['goods'].unique().tolist()
df2 = pd.DataFrame(.0, index=goods_names, columns=goods_names) #零方阵
for i,goods1 in enumerate(goods_names):
for goods2 in goods_names[i+1:]:
d, _ = dev(goods1, goods2) # 注意:只取了物品差异值
df2.ix[goods1, goods2] = d
df2.ix[goods2, goods1] = -d # 对称的位置取反
return df2
#print('\n测试:计算所有两两物品之间的评分差异表')
#print(get_dev_table())
#预测某用户对给定物品的评分
# 加权Slope One算法
def slopeone(user, goods):
'''根据《data minning guide》第82页的公式p(u,j)'''
df1 = df.ix[df['user'].isin([user]), ['goods', 'rate']]
s1 = pd.Series(df1['rate'].tolist(), index=df1['goods']) # 用户对已打分物品的打分数据
s2 = s1.index.to_series().apply(lambda x:dev(goods, x)) # 待打分物品与已打分物品的差异值及权值
s3 = s2.apply(lambda x:x[0]) #差异值
s4 = s2.apply(lambda x:x[1]) #权值
#print(s1, s3, s4)
return sum((s1 + s3) * s4)/sum(s4)
#print('\n测试:加权Slope One算法,预测用户Ben对物品Whitney Houston的评分')
#print(slopeone('Ben', 'Whitney Houston')) # 3.375
print('\n测试:加权Slope One算法,预测用户276744对书本0600570967的评分') #大数据量
print(slopeone(276744, '0600570967'))
【笔记6】用pandas实现条目数据格式的推荐算法 (基于物品的协同)的更多相关文章
- 【笔记5】用pandas实现矩阵数据格式的推荐算法 (基于物品的协同)
''' 基于物品的协同推荐 矩阵数据 说明: 1.修正的余弦相似度是一种基于模型的协同过滤算法.我们前面提过,这种算法的优势之 一是扩展性好,对于大数据量而言,运算速度快.占用内存少. 2.用户的评价 ...
- 【笔记4】用pandas实现条目数据格式的推荐算法 (基于用户的协同)
''' 基于用户的协同推荐 条目数据 ''' import pandas as pd from io import StringIO import json #数据类型一:条目(用户.商品.打分)(避 ...
- 【笔记3】用pandas实现矩阵数据格式的推荐算法 (基于用户的协同)
原书作者使用字典dict实现推荐算法,并且惊叹于18行代码实现了向量的余弦夹角公式. 我用pandas实现相同的公式只要3行. 特别说明:本篇笔记是针对矩阵数据,下篇笔记是针对条目数据. ''' 基于 ...
- R语言实现关联规则与推荐算法(学习笔记)
R语言实现关联规则 笔者前言:以前在网上遇到很多很好的关联规则的案例,最近看到一个更好的,于是便学习一下,写个学习笔记. 1 1 0 0 2 1 1 0 0 3 1 1 0 1 4 0 0 0 0 5 ...
- 学习笔记-menusript控件中条目权限设置使用
在做一个小程序的时候,偶然发现了使用menusript控件做权限设置的方法,仅此标记,以供参考. 首先创建一个实例:testuseright.sln, 在项目文件里创建两个窗体:Form1.cs和us ...
- Python笔记 #12# Dictionary & Pandas: Object Creation
Document of Dictionaries 10 Minutes to pandas tutorialspoint import pandas as pd data = [['Alex',10] ...
- Office365学习笔记—Lookup类型加载条目过多解决方案
1,随着接触的项目越来越多,遇到的各种奇葩的问题也越来越多,不得不说,SharePoint是个好东西,提高了开发效率,简化了很多基础的功能.但是令人头疼的问题是,当你想做个稍微复杂点的功能,就不得不研 ...
- Office365学习笔记—列表查询,删除条目,更新条目。
1,基于Query语句的列表查询. function retrieveListItems(itemId) { var siteUrl=_spPageContextInfo.webServerRelat ...
- 读书笔记一、pandas之series
转自 # 直接传入一组数据 from pandas import Series, DataFrame obj = Series([4, 2, 3]) obj 0 4 1 2 2 3 dtype: in ...
随机推荐
- 浅谈C# 多态的法力
前言:我们都知道面向对象的三大特性:封装,继承,多态.封装和继承对于初学者而言比较好理解,但要理解多态,尤其是深入理解,初学者往往存在有很多困惑,为什么这样就可以?有时候感觉很不可思议,由此,面向对象 ...
- javascript俄罗斯方块游戏
在线试玩:http://keleyi.com/game/5/ 操作指南:键盘方向键←→控制左右移动,↑键变形,↓键快速下落. 别看这段js代码只有短短的100多行,效果却非常不错,用键盘的方向键操作, ...
- SharePoint 2013 搜索功能,列表项目不能完全被索引
描述 最近一个站点,需要开启搜索功能,然后创建内容源,开始爬网,发现列表里只有一部分被索引,很多项目没有被索引,甚是奇怪,如下图(其实列表里有80几条项目). 首先爬网账号是系统账号.服务器管理员,所 ...
- GeoEvent使用问题及解决方法整理
假如GeoEvent的部署环境是一个典型的WebGIS架构(Portal+GIS Server),往往会遇到一些问题,例如: 问题:发布的StreamService流服务无法查看. 原因:默认发布的S ...
- SQL性能优化案例分析
这段时间做一个SQL性能优化的案例分析, 整理了一下过往的案例,发现一个比较有意思的,拿出来给大家分享. 这个项目是我在项目开展2期的时候才加入的, 之前一期是个金融内部信息门户, 里面有个功能是收集 ...
- iOS之9.3真机适配-Could not find Developer Disk Image问题
Could not find Developer Disk Image 这是由于真机系统过高或者过低,Xcode中没有匹配的配置包文件,我们可以通过这个路径进入配置包的存放目录: /Applicati ...
- Shou 团队诚意满满的招募 Swifter
一.团队介绍 团队产品 VPlayer 播放器靠自增长 3 年内获得全球 4000 万用户,开发的 Vitamio 组件更是获得微博.UC.金山等知名企业授权使用.—— 团队再次起航,经历一年多我们已 ...
- 【Swift】UILabel 设置内边距
前言 对应一个曾经开发 Android 的人来说,没有这些基础属性简直令人发指,还是表喷这个,认真写代码 - - # 声明 欢迎转载,但请保留文章原始出处:) 博客园:http://www.cnblo ...
- 详细解读DialogFragment
原博客地址:http://www.cnblogs.com/tianzhijiexian/p/4161811.html 相信看这篇文章的人都应该知道android中的Dialog了吧,如果对于Dialo ...
- __block 和 __weak的区别
Blocks理解: Blocks可以访问局部变量,但是不能修改 如果修改局部变量,需要加__block __block int multiplier = 7; int (^myBlock)(int) ...