基于Python 的简单推荐系统

def loadExData():

    return[[1,1,1,0,0],

            [2,2,2,0,0],

            [1,1,1,0,0],

            [5,5,5,0,0],

            [1,1,0,2,2],

            [0,0,0,3,3],

            [0,0,0,1,1]]

def loadExData2():

    return[[0, 0, 0, 0, 0, 4, 0, 0, 0, 0, 5],

           [0, 0, 0, 3, 0, 4, 0, 0, 0, 0, 3],

           [0, 0, 0, 0, 4, 0, 0, 1, 0, 4, 0],

           [3, 3, 4, 0, 0, 0, 0, 2, 2, 0, 0],

           [5, 4, 5, 0, 0, 0, 0, 5, 5, 0, 0],

           [0, 0, 0, 0, 5, 0, 1, 0, 0, 5, 0],

           [4, 3, 4, 0, 0, 0, 0, 5, 5, 0, 1],

           [0, 0, 0, 4, 0, 4, 0, 0, 0, 0, 4],

           [0, 0, 0, 2, 0, 2, 5, 0, 0, 1, 2],

           [0, 0, 0, 0, 5, 0, 0, 0, 0, 4, 0],

           [1, 0, 0, 0, 0, 0, 0, 1, 2, 0, 0]]

from numpy import *

from numpy import linalg as la

#欧氏距离

def euclidSim(inA,inB):

    return 1.0/(1.0+la.norm(inA-inB))

#皮尔逊相关系数

def pearsSim(inA,inB):

    if len(inA)<3:return 1.0

    return 0.5+0.5*corrcoef(inA,inB,rowvar=0)[0][1]

#余弦相似度

def cosSim(inA,inB):

    num=float(inA.T*inB)

    denom=la.norm(inA)*la.norm(inB)

    return 0.5+0.5*(num/denom)

#基于物品相似度的推荐引擎（标准相似度计算方法下的用户估计值  ）

def standEst(dataMat,user,simMeas,item):

    #商品数目

    n=shape(dataMat)[1]

    #两个用于计算估计评分值的变量

    simTotal=0.0;ratSimTotal=0.0

    #遍历所有商品，并将它与所有的物品进行比较

    for j in range(n):

        #用户对某个物品的评分

        userRating=dataMat[user,j]

        if userRating==0:continue

        # logical_and:矩阵逐个元素运行逻辑与,返回值为每个元素的True,False

        # dataMat[:,item].A>0: 第item列中大于0的元素

        # dataMat[:,j].A: 第j列中大于0的元素

        # overLap: dataMat[:,item],dataMat[:,j]中同时都大于0的那个元素的行下标(一个向量)

        overLap=nonzero(logical_and(dataMat[:,item].A>0,\

                                    dataMat[:,j].A>0))[0]

        print(j)

        print("------overLap------")

        print(overLap)

        if len(overLap)==0:similarity=0

        # 计算overLap矩阵的相似度

        else: similarity=simMeas(dataMat[overLap,item],\

                        dataMat[overLap,j])

        print("dataMat[overLap,item:")

        print(dataMat[overLap,item])

        print("dataMat[overLap,j:")

        print(dataMat[overLap,j])

        print ('the %d and %d similarity is:%f' % (item,j,similarity))

        # 累计总相似度(不太理解)

#        假设A评分未知，A,B相似度0.9，B评分5,；A C相似度0.8，C评分4.

#        那么按照公式A评分=（0.9*5+0.8*4）/（0.9+0.8）

#       相当于加权平均（如果除以2），但是因为2个评分的权重是不一样的，所以应除以相似度之和

        simTotal+=similarity

        # ratSimTotal = 相似度*元素值 

        ratSimTotal+=similarity*userRating

        print("ratSimTotal+=similarity*userRating:")

        print(ratSimTotal)

    if simTotal==0:return 0

    else:return ratSimTotal/simTotal

#对某个用户产生最高的N个推荐结果

#user 表示要推荐的用户编号

def recommend(dataMat,user,N=3,simMeas=cosSim,estMethod=standEst):

    #对给定用户建立一个未评分的物品矩阵

    unratedItems=nonzero(dataMat[user,:].A==0)[1] #第user行中等于0的元素

#    print(dataMat[user,:].A==0)----[[ True  True  True ...,  True False  True]]

#    对于二维数组b2，nonzero(b2)所得到的是一个长度为2的元组。它的第0个元素是数组a中值不为0的元素的第0轴的下标，第1个元素则是第1轴的下标，因此从下面的结果可知b2[0,0]、b[0,2]和b2[1,0]的值不为0：

#

#>>> b2 = np.array([[True, False, True], [True, False, False]])

#>>> np.nonzero(b2)

#(array([0, 0, 1], dtype=int64), array([0, 2, 0], dtype=int64))  

    if len(unratedItems)==0:return 'you rated everything'

    #给未评分物品存放预测得分的列表

    itemScores=[]

    for item in unratedItems:

        #对每个未评分物品通过standEst（）方法来预测得分

        print("item------------")

        print(item)

        estimatedScore=estMethod(dataMat,user,simMeas,item)

        #将物品编号和估计得分存放在列表中

        itemScores.append((item,estimatedScore))

    #sorted排序函数，key 是按照关键字排序，lambda是隐函数，固定写法，

    #jj表示待排序元祖，jj[1]按照jj的第二列排序，reverse=True，降序；[:N]前N个

    return sorted(itemScores,key=lambda jj:jj[1],reverse=True)[:N]

#利用SVD提高推荐效果

#基于SVD的评分估计

def svdEst(dataMat,user,simMeas,item):

    #商品数目

    n=shape(dataMat)[1]

    simTotal=0.0;ratSimTotal=0.0

    #SVD分解为：U*S*V

    U,Sigma,VT=la.svd(dataMat)

    #分解后只利用90%能量的奇异值，存放在numpy数组里面

    Sig4=mat(eye(4)*Sigma[:4])

    #利用U矩阵将物品转换到低维空间中

    xformeditems=dataMat.T*U[:,:4]*Sig4.I

    for j in range(n):

        userRating=dataMat[user,j]

        if userRating==0 or j==item:continue

        similarity=simMeas(xformeditems[item,:].T,\

                            xformeditems[j,:].T)

        print ('the %d and %d similarity is :%f' % (item,j,similarity))

        simTotal+=similarity

        ratSimTotal+=similarity*userRating

    if simTotal==0:return 0

    else: return ratSimTotal/simTotal 

if __name__ == '__main__':

   myMat=mat(loadExData2())

   print(recommend(myMat,2))

基于Python 的简单推荐系统的更多相关文章

Websocket - Websocket原理（握手、解密、加密）、基于Python实现简单示例
一.Websocket原理(握手.解密.加密) WebSocket协议是基于TCP的一种新的协议.WebSocket最初在HTML5规范中被引用为TCP连接,作为基于TCP的套接字API的占位符.它实 ...
基于python实现简单web服务器
做web开发的你,真的熟悉web服务器处理机制吗? 分析请求数据下面是一段原始的请求数据: b'GET / HTTP/1.1\r\nHost: 127.0.0.1:8000\r\nConnectio ...
基于Python使用SVM识别简单的字符验证码的完整代码开源分享
关键字:Python,SVM,字符验证码,机器学习,验证码识别 1 概述基于Python使用SVM识别简单的验证字符串的完整代码开源分享. 因为目前有了更厉害的新技术来解决这类问题了,但是本文作 ...
Python 基于Python及zookeeper实现简单分布式任务调度系统设计思路及核心代码实现
基于Python及zookeeper实现简单分布式任务调度系统设计思路及核心代码实现 by:授客 QQ:1033553122 测试环境功能需求实现思路代码实践(关键技术点实现) 代码模块组织 ...
如何简单实现接口自动化测试（基于 python）原博主地址https://blog.csdn.net/gitchat/article/details/77849725
如何简单实现接口自动化测试(基于 python) 2017年09月05日 11:52:25 阅读数:9904 GitChat 作者:饿了么技术社区原文:如何简单实现接口自动化测试(基于 python ...
一次简单完整的自动化登录测试-基于python+selenium进行cnblog的自动化登录测试
Web登录测试是很常见的测试,手动测试大家再熟悉不过了,那如何进行自动化登录测试呢!本文就基于python+selenium结合unittest单元测试框架来进行一次简单但比较完整的cnblog自动化 ...
R语言实战实现基于用户的简单的推荐系统（数量较少）
R语言实战实现基于用户的简单的推荐系统(数量较少) a<-c(1,1,1,1,2,2,2,2,3,3,3,4,4,4,5,5,5,5,6,6,7,7) b<-c(1,2,3,4,2,3,4 ...
简单实现接口自动化测试(基于python+unittest)
简单实现接口自动化测试(基于python+unittest) 简介本文通过从Postman获取基本的接口测试Code简单的接口测试入手,一步步调整优化接口调用,以及增加基本的结果判断,讲解Pytho ...
实用的Python（3）超简单！基于Python搭建个人“云盘”
1 简介当我们想要从本地向云服务器上传文件时,比较常用的有pscp等工具,但避免不了每次上传都要写若干重复的代码,而笔者最近发现的一个基于Python的工具updog,可以帮助我们在服务器上搭建类似 ...

随机推荐

ubuntu问题解答集锦
一.su root提示认证失败 su root提示认证失败 ubuntu root是默认禁用了,不答应用root登陆,所以先要设置root密码. 执行:sudo passwd root 接着输入密 ...
C Looooops（poj 2115）
大致题意: 对于C的for(i=A ; i!=B ;i +=C)循环语句,问在k位存储系统中循环几次才会结束. 若在有限次内结束,则输出循环次数. 否则输出死循环. 解题思路: 题意不难理解,只是利用 ...
AtCoder Grand Contest 005F - Many Easy Problems
$n \leq 200000$的树,从树上选$k$个点的一个方案会对$Ans_k$产生大小为“最小的包括这$k$个点的连通块大小”的贡献.求每个$Ans_k$.膜924844033. 看每个点对$An ...
gridview无数据源实现更新数据库（即断开更新数据库）
原文发布时间为:2008-08-01 -- 来源于本人的百度文章 [由搬家工具导入] using System;using System.Data;using System.Configuration ...
Java面试题集（七）--Spring常见面试问题【重要】
以下为spring常见面试问题: 1.什么是Spring框架?Spring框架有哪些主要模块? Spring框架是一个为Java应用程序的开发提供了综合.广泛的基础性支持的Java平台. Spring ...
关于制表符\t
“制表符代表八个空格”的说法不准确.制表符的作用是将光标移到最接近8的倍数的位置,使得后面的输出从此开始.换句话说,如果所有数据都紧跟在制表符后面输出,则这些数据只能从第9列.第17列.第25列... ...
一起来学Spring Cloud | 第五章：熔断器 ( Hystrix)
在微服务项目中,一个系统可以分割成很多个不同的服务模块,不同模块之间我们通常需要进行相互调用.springcloud中可以使用RestTemplate+Ribbon和Feign来调用(工作中基本都是使 ...
用canal监控binlog并实现mysql定制同步数据的功能
业务背景写任何工具都不能脱离实际业务的背景.开始这个项目的时候是因为现有的项目中数据分布太零碎,零零散散的分布在好几个数据库中,没有统一的数据库来收集这些数据.这种情况下想做一个大而全的会员中心系统 ...
Kafka windows下的安装
1. 安装JDK 1.1 安装文件:http://www.oracle.com/technetwork/java/javase/downloads/index.html 下载JDK1.2 安装完成后需 ...
mysql统计功能和数据库information_schema/performance_schema
1.去重统计数据表行数: select count(distinct col_name) from table_name; 2.统计行数 select count(*) from table_name ...

基于Python 的简单推荐系统

基于Python 的简单推荐系统的更多相关文章

随机推荐

热门专题