Python推荐系统库--Surprise实战

一、使用movieLens数据集

from surprise import KNNBasic, SVD

from surprise import Dataset

from surprise import evaluate, print_perf

# 使用公开的推荐系统数据集--MovieLens

data = Dataset.load_builtin('ml-100k')

# k 折交叉验证

data.split(n_folds=3)

# 算法使用SVD分解

algo = SVD()

# 在数据集上测试效果，算出最小均方根误差、平均绝对误差

perf = evaluate(algo, data, measures=['RMSE', 'MAE'])

# 输出结果

print_perf(perf)

Evaluating RMSE, MAE of algorithm SVD.

------------

Fold 1

RMSE: 0.9506

MAE:  0.7511

------------

Fold 2

RMSE: 0.9452

MAE:  0.7456

------------

Fold 3

RMSE: 0.9442

MAE:  0.7444

------------

------------

Mean RMSE: 0.9467

Mean MAE : 0.7470

------------

------------

        Fold 1  Fold 2  Fold 3  Mean

RMSE    0.9506  0.9452  0.9442  0.9467

MAE     0.7511  0.7456  0.7444  0.7470

二、算法调参

我们使用sklearn常用到的网格搜索交叉验证（GridSearchCV）来选择最优的参数

# 算法调参

from surprise import GridSearch

# 迭代轮次、学习率、

# 三个参数，每个有两个参数，2^3 = 8种可能

param_grid = {'n_epochs':[5, 10], 'lr_all':[0.002, 0.005],

             'reg_all':[0.4, 0.6]}

# 使用SVD算法，三个参数参与调参，评估标准使用最小均方根误差、协调对分数

grid_search = GridSearch(SVD, param_grid, measures=['RMSE', 'FCP'])

data = Dataset.load_builtin('ml-100k')

data.split(n_folds=3)

grid_search.evaluate(data)

Running grid search for the following parameter combinations:

{'n_epochs': 5, 'lr_all': 0.002, 'reg_all': 0.4}

{'n_epochs': 5, 'lr_all': 0.002, 'reg_all': 0.6}

{'n_epochs': 5, 'lr_all': 0.005, 'reg_all': 0.4}

{'n_epochs': 5, 'lr_all': 0.005, 'reg_all': 0.6}

{'n_epochs': 10, 'lr_all': 0.002, 'reg_all': 0.4}

{'n_epochs': 10, 'lr_all': 0.002, 'reg_all': 0.6}

{'n_epochs': 10, 'lr_all': 0.005, 'reg_all': 0.4}

{'n_epochs': 10, 'lr_all': 0.005, 'reg_all': 0.6}

Resulsts:

{'n_epochs': 5, 'lr_all': 0.002, 'reg_all': 0.4}

{'RMSE': 0.9973640543212537, 'FCP': 0.6834505918617332}

----------

{'n_epochs': 5, 'lr_all': 0.002, 'reg_all': 0.6}

{'RMSE': 1.0033367804212159, 'FCP': 0.6863671726311678}

----------

{'n_epochs': 5, 'lr_all': 0.005, 'reg_all': 0.4}

{'RMSE': 0.9740022047005671, 'FCP': 0.693822773157699}

----------

{'n_epochs': 5, 'lr_all': 0.005, 'reg_all': 0.6}

{'RMSE': 0.9828360526820644, 'FCP': 0.6939377853330241}

----------

{'n_epochs': 10, 'lr_all': 0.002, 'reg_all': 0.4}

{'RMSE': 0.9783154591562983, 'FCP': 0.6919014896389958}

----------

{'n_epochs': 10, 'lr_all': 0.002, 'reg_all': 0.6}

{'RMSE': 0.9863470326305794, 'FCP': 0.6925580320424597}

----------

{'n_epochs': 10, 'lr_all': 0.005, 'reg_all': 0.4}

{'RMSE': 0.9641597864074152, 'FCP': 0.6973875277009212}

----------

{'n_epochs': 10, 'lr_all': 0.005, 'reg_all': 0.6}

{'RMSE': 0.9740231673256359, 'FCP': 0.6976928768968366}

# 输出最优的参数组

# 输出最好的RMSE结果

print(grid_search.best_score['RMSE'])

# 输出对应最好的RMSE结果的参数

print(grid_search.best_params['RMSE'])

0.9641597864074152

{'n_epochs': 10, 'lr_all': 0.005, 'reg_all': 0.4}

# 最好的FCP得分

print(grid_search.best_score['FCP'])

# 输出对应最好的FCP结果的参数

print(grid_search.best_params['FCP'])

0.6983253171588012

{'n_epochs': 10, 'lr_all': 0.005, 'reg_all': 0.6}

在自己的数据集上训练模型

该如何做？

1. 载入自己的数据集

import os

from surprise import Reader, Dataset

# 指定文件路径

file_path = os.path.expanduser('./popular_music_suprise_format.txt')

# 指定文件格式

reader = Reader(line_format='user item rating timestamp', sep=',')

# 从文件读取数据

music_data = Dataset.load_from_file(file_path, reader=reader)

# 分成5折

music_data.split(n_folds=5)

2. 使用不同的推荐算法进行建模比较

### 使用NormalPredictor

from surprise import NormalPredictor, evaluate

algo = NormalPredictor()

perf = evaluate(algo, music_data, measures=['RMSE', 'MAE'])

### 使用BaselineOnly

from surprise import BaselineOnly, evaluate

algo = BaselineOnly()

perf = evaluate(algo, music_data, measures=['RMSE', 'MAE'])

### 使用基础版协同过滤

from surprise import KNNBasic, evaluate

algo = KNNBasic()

perf = evaluate(algo, music_data, measures=['RMSE', 'MAE'])

### 使用均值协同过滤

from surprise import KNNWithMeans, evaluate

algo = KNNWithMeans()

perf = evaluate(algo, music_data, measures=['RMSE', 'MAE'])

### 使用协同过滤baseline

from surprise import KNNBaseline, evaluate

algo = KNNBaseline()

perf = evaluate(algo, music_data, measures=['RMSE', 'MAE'])

### 使用SVD

from surprise import SVD, evaluate

algo = SVD()

perf = evaluate(algo, music_data, measures=['RMSE', 'MAE'])

### 使用SVD++

from surprise import SVDpp, evaluate

algo = SVDpp()

perf = evaluate(algo, music_data, measures=['RMSE', 'MAE'])

### 使用NMF

from surprise import NMF

algo = NMF()

perf = evaluate(algo, music_data, measures=['RMSE', 'MAE'])

print_perf(perf)

Python推荐系统库--Surprise实战的更多相关文章

Python推荐系统库Surprise
Surprise(Simple Python Recommendation System Engine)是一款推荐系统库,是scikit系列中的一个.简单易用,同时支持多种推荐算法.基础算法.协同过滤 ...
Python推荐系统库--Surprise理论
Surprise Surprise是scikit系列中的一个.Surprise的User Guide有详细的解释和说明支持多种推荐算法基础算法/baseline algorithms 基于近邻方法 ...
python推荐系统库
Python推荐系统库——Surprise 在Python中实现你自己的推荐系统 python-recsys:一款实现推荐系统的python库
【读书笔记与思考】《python数据分析与挖掘实战》-张良均
[读书笔记与思考]<python数据分析与挖掘实战>-张良均最近看一些机器学习相关书籍,主要是为了拓宽视野.在阅读这本书前最吸引我的地方是实战篇,我通读全书后给我印象最深的还是实战篇.基 ...
Python+Flask+Gunicorn 项目实战(一) 从零开始，写一个Markdown解析器 —— 初体验
(一)前言在开始学习之前,你需要确保你对Python, JavaScript, HTML, Markdown语法有非常基础的了解.项目的源码你可以在 https://github.com/zhu-y ...
python 数据分析与挖掘实战01
python 数据分析与挖掘实战 day 01 08/02 这种从数据中"淘金",从大量数据包括文本中挖掘出隐含的.未知的.对决策有潜在价值关系.模式或者趋势,并用这些知识和规则建 ...
实时获取股票数据，免费！——Python爬虫Sina Stock实战
更多精彩内容,欢迎关注公众号:数量技术宅,也可添加技术宅个人微信号:sljsz01,与我交流. 实时股票数据的重要性对于四大可交易资产:股票.期货.期权.数字货币来说,期货.期权.数字货币,可以从交 ...
Python Django CMDB项目实战之-3创建form表单，并在前端页面上展示
基于之前的项目代码 Python Django CMDB项目实战之-1如何开启一个Django-并设置base页.index页.文章页面 Python Django CMDB项目实战之-2创建APP. ...
Python Django CMDB项目实战之-2创建APP、建模（models.py）、数据库同步、高级URL、前端页面展示数据库中数据
基于之前的项目代码来编写 Python Django CMDB项目实战之-1如何开启一个Django-并设置base页index页文章页面现在我们修改一个文章列表是从数据库中获取数据, 下面我们就需 ...

随机推荐

【Ubuntu】如何修改IP
前几天有幸捣鼓了一下Ubuntu系统,和Linux系统差不多,在这里说说如何修改IP 1,首先使用命令ifconfig查看当前IP,如图 2,编辑文件,输入命令 ...
题解-ZJOI2015地震后的幻想乡
Problem bzoj & 洛谷题意简述:给定一个\(n\)(\(n\leq 10\))个点\(m\)条边的无向图,每条边的权值为一个\(0\)到\(1\)之间的连续随机变量,求图的最小生 ...
题解-poj3682King Arthur's Birthday Celebration
Problem poj-3682 题目大意:抛一次硬币有\(p\)的概率得到正面,当有\(n\)次正面时停止,抛第\(i\)次的花费为\(2i-1\),求抛的期望次数和期望花费 Solution 本来 ...
GetCheckProxy
@echo off setlocal enabledelayedexpansion set infile=free.txt set url=https://www.google.com/?gws_rd ...
HBase的replication原理及部署
一.hbase replication原理 hbase 的复制方式是 master-push 方式,即主集群推的方式,主要是因为每个rs都有自己的WAL. 一个master集群可以复制给多个从集群,复 ...
Windows中查看端口占用及关闭对应进程
开始--运行--cmd 进入命令提示符输入netstat -ano 即可看到所有连接的PID,之后在任务管理器(右键电脑屏幕的状态栏即可找到)中找到这个PID所对应的程序.如果任务管理器中没有PID ...
appium+java（七）图片的放到及缩小操作
多点触控(MultiTouch) MultiTouch对象是触摸操作的集合. 多点触控手势只有两个方法,add和perform. add 用于将不同的触摸操作添加到当前的多点触控中. 当 perfor ...
JMeter3.2生成图形化HTML报告
JMeter3.0引入了Dashboard Report,用于生成HTML页面格式图形化报告的扩展模块. 该模块支持通过两种方式生成多维度图形化测试报告: 在JMeter性能测试结束时,自动生成本次测 ...
CSS rem长度单位
1. 概述 1.1 说明 rem是css3中新增的一个单位属性(font size of the root element),根据页面的根节点(html)的字体大小进行转换的单位,通过此单位属性可以进 ...
Android应用开发中三种常见的图片压缩方法
Android应用开发中三种常见的图片压缩方法,分别是:质量压缩法.比例压缩法(根据路径获取图片并压缩)和比例压缩法(根据Bitmap图片压缩). 一.质量压缩法 private Bitmap com ...

Python推荐系统库--Surprise实战

一、使用movieLens数据集

二、算法调参

在自己的数据集上训练模型

推荐系统--不同电影之间的相似度

一、载入数据，使用算法算出相互间的相似度

二、获取相似度最近的10部电影

Python推荐系统库--Surprise实战的更多相关文章

随机推荐

热门专题