利用SVD-推荐未尝过的菜肴

推荐未尝过的菜肴-基于物品相似度的推荐

推荐系统的工作过程：给定一个用户，系统会为此用户返回N个最好的推荐菜

　　1. 寻找用户没有评级的菜肴，即在用户-物品矩阵中的0值

　　2. 在用户没有评级的所有物品中，对每个物品预计一个可能的评级分数（利用相似度计算）。这就是说，我们预测用户对每个物品的打分

　　3. 对这些物品的评分从高到低进行排序，返回前N个物品

from numpy import *

from numpy import linalg as la

一、相似度计算（欧式距离、皮尔逊相关系数、余弦相似度）

# 相似度计算

# 计算欧式距离

def ecludSim(inA, inB):

    return 1.0 / (1.0 + la.norm(inA - inB))

# pearsim（）函数会检查是否存在3个或更多的点

# corrcoef直接计算皮尔逊相关系数，范围[-1, 1]，归一化后[0, 1]

def pearsSim(inA, inB):

    # 如果不存在，该函数返回1.0，此时两个向量完全相关

    if len(inA) < 3:

        return 1.0

    return 0.5 + 0.5 * corrcoef(inA, inB, rowvar=0)[0][1]

# 计算余弦相似度，如果夹角为90度，相似度为0；如果两个向量的方向相同，相似度为1.0

def cosSim(inA, inB):

    num = float(inA.T * inB)

    denom = la.norm(inA) * la.norm(inB)

    return 0.5 + 0.5 * (num / denom)

二、基于物品相似度的推荐

计算未评分物品的分值：用已评分物品的分值以及与未评分物品的相似度进行评分

# 基于物品相似度的推荐引擎

def standEst(dataMat, user, simMeas, item):

    """standEst(计算用户未评分物品中，以对该物品和其他物品评分的用户的物品相似度，然后进行综合评分)

    Args：

        dataMat 训练数据集

        user    用户编号

        simMeas 相似度计算方法

        item    未评分的物品编号

    Return：

        ratSimTotal / simTotal  评分（0~5之间的值）

    """

    # 得到数据集中物品数目

    n = shape(dataMat)[1]

    # 初始化两个评分值

    simTotal = 0.0

    ratSimTotal = 0.0

    # 遍历行中的每个物品（对用户评过分的物品进行遍历，并将它与其他物品进行比较）

    for j in range(n):

        userRating = dataMat[user, j]

        # 如果某个物品的评分值为0，则跳过这个物品

        if userRating == 0:

            continue

        # 寻找两个用户都评级的物品

        # 变量overlap给出的是两个物品当中已经被评分的那个元素的索引ID

        # logical_and 计算x1和x2元素的真值

        overLap = nonzero(logical_and(dataMat[:, item].A > 0, dataMat[:, j].A > 0))[0]

        if len(overLap) == 0:

            similarity = 0

        # 如果存在重合的物品，则基于这些重合物重新计算相似度

        else:

            similarity = simMeas(dataMat[overLap, item], dataMat[overLap, j])

        # 相似度会不断累加，每次计算时还考虑相似度和当前用户评分的乘积

        # similarity  用户相似度  userRating  用户评分

        simTotal += similarity

        ratSimTotal += similarity * userRating

    if simTotal == 0:

        return 0

    # 通过除以所有的评分总合，对上述相似度评分的乘积进行归一化，使得最后评分在0~5之间，这些评分用来对预测进行排序

    else:

        return ratSimTotal / simTotal

三、排序获取最后的推荐结果

# recommend（）函数，就是推荐引擎，它默认调用 standEst（）函数，产生了最高的N个推荐结果

# 如果不指定N的大小，则默认值为3，该函数另外的参数该包括相似度计算方法和估计方法

def recommend(dataMat, user, N=3, simMeas=cosSim, estMethod=standEst):

    """recommend()

    Args:

        dataMat 训练数据集

        user    用户编号

        simMeas 相似度计算方法

        estMethod 使用的推荐算法

    Returns:

        返回最终N个推荐结果

    """

    # 寻找未评级的物品

    # 对给定用户建立一个未评分的物品列表

    unratedItems = nonzero(dataMat[user, :].A == 0)[1]

    # 如果不存在未评分物品，那么就退出函数

    if len(unratedItems) == 0:

        return 'you rated everything'

    # 物品的编号和评分值

    itemScores = []

    for item in unratedItems:

        # 获取 item 该物品的评分

        estimatedScore = estMethod(dataMat, user, simMeas, item)

        itemScores.append((item, estimatedScore))

    # 按照评分得分，进行逆排序，获取前N个未评级物品进行推荐

    return sorted(itemScores, key=lambda jj: jj[1], reverse=True)[: N]

四、矩阵测试

myMat = mat([[4, 4, 0, 2, 2],

           [4, 0, 0, 3, 3],

           [4, 0, 0, 1, 1],

           [1, 1, 1, 2, 0],

           [2, 2, 2, 0, 0],

           [1, 1, 1, 0, 0],

           [5, 5, 5, 0, 0]])

recommend(myMat, 2)

[(2, 2.5), (1, 2.0243290220056256)]
这表明用户2（从0开始计数，对应是矩阵第三行），对物品2的预测评分为2.5，对物品1预测评分为2.02

使用其他方法进行推荐：

recommend(myMat, 2, simMeas=ecludSim)

[(2, 3.0), (1, 2.8266504712098603)]

recommend(myMat, 2, simMeas=pearsSim)

[(2, 2.5), (1, 2.0)]

利用SVD-推荐未尝过的菜肴的更多相关文章

利用SVD-推荐未尝过的菜肴2
推荐未尝过的菜肴-基于SVD的评分估计实际上数据集要比我们上一篇展示的myMat要稀疏的多. from numpy import linalg as la from numpy import * d ...
《机器学习实战》学习笔记——第14章利用SVD简化数据
一. SVD 1. 基本概念: (1)定义:提取信息的方法:奇异值分解Singular Value Decomposition(SVD) (2)优点:简化数据, 去除噪声,提高算法的结果 (3)缺点: ...
【机器学习实战】第14章利用SVD简化数据
第14章利用SVD简化数据 SVD 概述奇异值分解(SVD, Singular Value Decomposition): 提取信息的一种方法,可以把 SVD 看成是从噪声数据中抽取相关特征.从生 ...
机器学习实战 - 读书笔记(14) - 利用SVD简化数据
前言最近在看Peter Harrington写的"机器学习实战",这是我的学习心得,这次是第14章 - 利用SVD简化数据. 这里介绍,机器学习中的降维技术,可简化样品数据. 基 ...
机器学习——利用SVD简化数据
奇异值分解(Singular Value Decompositon,SVD),可以实现用小得多的数据集来表示原始数据集. 优点:简化数据,取出噪声,提高算法的结果缺点:数据的转换可能难以理解适用数 ...
《机器学习实战》学习笔记第十四章 —— 利用SVD简化数据
相关博客: 吴恩达机器学习笔记(八) —— 降维与主成分分析法(PCA) <机器学习实战>学习笔记第十三章 —— 利用PCA来简化数据奇异值分解(SVD)原理与在降维中的应用机器学习( ...
利用奇异值分解（SVD）简化数据
特征值与特征向量下面这部分内容摘自:强大的矩阵奇异值分解(SVD)及其应用特征值分解和奇异值分解在机器学习领域都是属于满地可见的方法.两者有着很紧密的关系,在接下来会谈到,特征值分解和奇异值分解的 ...
机器学习实战 [Machine learning in action]
内容简介机器学习是人工智能研究领域中一个极其重要的研究方向,在现今的大数据时代背景下,捕获数据并从中萃取有价值的信息或模式,成为各行业求生存.谋发展的决定性手段,这使得这一过去为分析师和数学家所专属 ...
SVD在餐馆菜肴推荐系统中的应用
SVD在餐馆菜肴推荐系统中的应用摘要:餐馆可以分为很多类别,比如中式.美式.日式等等.但是这些类别不一定够用,有的人喜欢混合类别.对用户对菜肴的点评数据进行分析,可以提取出区分菜品的真正因素,利用这 ...

随机推荐

[转] ElasticSearch 常用的查询过滤语句
备忘remark https://www.cnblogs.com/ghj1976/p/5293250.html query 和 filter 的区别请看: http://www.cnblogs.co ...
关于树的常见操作-C++面试
#include <iostream> using namespace std; //树的存储结构与设计 struct BitNode { int data; BitNode* leftC ...
Vue父子组件和非父子组件传值问题
父组件跟子组件之间的传值(具体参考lonzhubb商城) 1.父组件传值给子组件形式,ifshop是要传的对象,右边ifshop代表要传的这个对象的数据,如果只是传常量,那么属性可以不用加':'(表示 ...
休眠与开机自动运行等VC代码
//根据文件句柄,获取文件名 #include <windows.h> #include <stdio.h> #include <tchar.h> #include ...
ORACLE IMPDP导入报表数据已存在
背景搞了这么多年oracle,不论是开发和运维,自认为是都了解了,和dba差的只是熟练的问题,因为毕竟不是天天搞它.不过突然听说数据泵导入的功能,大吃一惊,好像有印象,以为是落后的,一查,竟然是先进 ...
linux mount -t -o 用法
挂接命令(mount) 首先,介绍一下挂接(mount)命令的使用方法,mount命令参数非常多,这里主要讲一下今天我们要用到的. 命令格式: mount [-t vfstype] [-o optio ...
CAN总线相关的几个gitlab代码
https://github.com/brtiberio/ATV71_CANopen.git https://github.com/linux-can/can-utils.git https://gi ...
springcloud-2:服务中心（1）
环境:springboot 2.0.0 + springcloud Finchley.M9 pom.xml: <?xml version="1.0" encoding=&qu ...
python 基础列表
1.列表list()方法用于将元组转换为列表,[]组成,中间可以放很多内容,每一项使用逗号隔开,列表中可以放置任何数据类型的数据.注:元组与列表是非常类似的,区别在于元组的元素值不能修改,元组是放括号 ...
ifconfig和ping
命令: ifconfig 对应英文: configure a network interface 作用: 查看 / 配置计算机当前的网卡配置信息安装: sudo apt install net-to ...