【笔记3】用pandas实现矩阵数据格式的推荐算法 (基于用户的协同)

原书作者使用字典dict实现推荐算法，并且惊叹于18行代码实现了向量的余弦夹角公式。

我用pandas实现相同的公式只要3行。

特别说明：本篇笔记是针对矩阵数据，下篇笔记是针对条目数据。

'''

基于用户的协同推荐

矩阵数据

'''

import pandas as pd

from io import StringIO

import json

#数据类型一：csv矩阵（用户-商品）（适用于小数据量）

csv_txt = '''"user","Blues Traveler","Broken Bells","Deadmau5","Norah Jones","Phoenix","Slightly Stoopid","The Strokes","Vampire Weekend"

"Angelica",3.5,2.0,,4.5,5.0,1.5,2.5,2.0

"Bill",2.0,3.5,4.0,,2.0,3.5,,3.0

"Chan",5.0,1.0,1.0,3.0,5,1.0,,

"Dan",3.0,4.0,4.5,,3.0,4.5,4.0,2.0

"Hailey",,4.0,1.0,4.0,,,4.0,1.0

"Jordyn",,4.5,4.0,5.0,5.0,4.5,4.0,4.0

"Sam",5.0,2.0,,3.0,5.0,4.0,5.0,

"Veronica",3.0,,,5.0,4.0,2.5,3.0,'''

#数据类型二：json数据（用户、商品、打分）

json_txt = '''{"Angelica": {"Blues Traveler": 3.5, "Broken Bells": 2.0,

                      "Norah Jones": 4.5, "Phoenix": 5.0,

                      "Slightly Stoopid": 1.5,

                      "The Strokes": 2.5, "Vampire Weekend": 2.0},

         "Bill":{"Blues Traveler": 2.0, "Broken Bells": 3.5,

                 "Deadmau5": 4.0, "Phoenix": 2.0,

                 "Slightly Stoopid": 3.5, "Vampire Weekend": 3.0},

         "Chan": {"Blues Traveler": 5.0, "Broken Bells": 1.0,

                  "Deadmau5": 1.0, "Norah Jones": 3.0, "Phoenix": 5,

                  "Slightly Stoopid": 1.0},

         "Dan": {"Blues Traveler": 3.0, "Broken Bells": 4.0,

                 "Deadmau5": 4.5, "Phoenix": 3.0,

                 "Slightly Stoopid": 4.5, "The Strokes": 4.0,

                 "Vampire Weekend": 2.0},

         "Hailey": {"Broken Bells": 4.0, "Deadmau5": 1.0,

                    "Norah Jones": 4.0, "The Strokes": 4.0,

                    "Vampire Weekend": 1.0},

         "Jordyn":  {"Broken Bells": 4.5, "Deadmau5": 4.0,

                     "Norah Jones": 5.0, "Phoenix": 5.0,

                     "Slightly Stoopid": 4.5, "The Strokes": 4.0,

                     "Vampire Weekend": 4.0},

         "Sam": {"Blues Traveler": 5.0, "Broken Bells": 2.0,

                 "Norah Jones": 3.0, "Phoenix": 5.0,

                 "Slightly Stoopid": 4.0, "The Strokes": 5.0},

         "Veronica": {"Blues Traveler": 3.0, "Norah Jones": 5.0,

                      "Phoenix": 4.0, "Slightly Stoopid": 2.5,

                      "The Strokes": 3.0}

}'''

df = None

#方式一：加载csv数据

def load_csv_txt():

    global df

    df = pd.read_csv(StringIO(csv_txt), header=0, index_col="user")

#方式二：加载json数据（把json读成矩阵）

def load_json_txt():

    global df

    df = pd.read_json(json_txt, orient='index')

#测试：读取数据

load_csv_txt()

#load_json_txt()

def build_xy(user_name1, user_name2):

    #df2 = df.ix[[user_name1, user_name2]].dropna(axis=1)

    #return df2.ix[user_name1], df2.ix[user_name2]

    bool_array = df.ix[user_name1].notnull() & df.ix[user_name2].notnull()

    return df.ix[user_name1, bool_array], df.ix[user_name2, bool_array]

#曼哈顿距离

def manhattan(user_name1, user_name2):

    x, y = build_xy(user_name1, user_name2)

    return sum(abs(x - y))

#欧几里德距离

def euclidean(user_name1, user_name2):

    x, y = build_xy(user_name1, user_name2)

    return sum((x - y)**2)**0.5

#闵可夫斯基距离

def minkowski(user_name1, user_name2, r):

    x, y = build_xy(user_name1, user_name2)

    return sum(abs(x - y)**r)**(1/r)

#皮尔逊相关系数

def pearson(user_name1, user_name2):

    x, y = build_xy(user_name1, user_name2)

    mean1, mean2 = x.mean(), y.mean()

    #分母

    denominator = (sum((x-mean1)**2)*sum((y-mean2)**2))**0.5

    return [sum((x-mean1)*(y-mean2))/denominator, 0][denominator == 0]

#余弦相似度（数据的稀疏性问题，在文本挖掘中应用得较多）

def cosine(user_name1, user_name2):

    x, y = build_xy(user_name1, user_name2)

    #分母

    denominator = (sum(x*x)*sum(y*y))**0.5

    return [sum(x*y)/denominator, 0][denominator == 0]

metric_funcs = {

    'manhattan': manhattan,

    'euclidean': euclidean,

    'minkowski': minkowski,

    'pearson': pearson,

    'cosine': cosine

}

#df.ix[["Angelica","Bill"]].dropna(axis=1)

print(manhattan("Angelica","Bill"))

#计算最近的邻居

def computeNearestNeighbor(user_name, metric='pearson', k=3, r=2):

    '''

    metric: 度量函数

    k:      返回k个邻居

    r:      闵可夫斯基距离专用

    返回：pd.Series，其中index是邻居名称，values是距离

    '''

    if metric in ['manhattan', 'euclidean']:

        return df.drop(user_name).index.to_series().apply(metric_funcs[metric], args=(user_name,)).nsmallest(k)

    elif metric in ['minkowski']:

        return df.drop(user_name).index.to_series().apply(metric_funcs[metric], args=(user_name, r,)).nsmallest(k)

    elif metric in ['pearson', 'cosine']:

        return df.drop(user_name).index.to_series().apply(metric_funcs[metric], args=(user_name,)).nlargest(k)

print(computeNearestNeighbor('Hailey', metric='pearson'))

#向给定用户推荐（返回：pd.Series）

def recommend(user_name):

    # 找到距离最近的用户名

    nearest_username = computeNearestNeighbor(user_name).index[0]

    # 找出邻居评价过、但自己未曾评价的乐队（或商品）

    # 结果：index是商品名称，values是评分

    return df.ix[nearest_username, df.ix[user_name].isnull() & df.ix[nearest_username].notnull()].sort_values()

#为Hailey做推荐

print(recommend('Hailey'))

#向给定用户推荐

def recommend2(user_name, metric='pearson', k=3, n=5, r=2):

    '''

    metric: 度量函数

    k:      根据k个最近邻居，协同推荐

    r:      闵可夫斯基距离专用

    n:      推荐的商品数目

    返回：pd.Series，其中index是商品名称，values是加权评分

    '''

    # 找到距离最近的k个邻居

    nearest_neighbors = computeNearestNeighbor(user_name, metric='pearson', k=k, r=r)

    # 计算权值

    if metric in ['manhattan', 'euclidean', 'minkowski']: # 距离越小，越类似

        nearest_neighbors = 1 / nearest_neighbors # 所以，取倒数（或者别的减函数，如：y=2**-x）

    elif metric in ['pearson', 'cosine']:                 # 距离越大，越类似

        pass

    nearest_neighbors = nearest_neighbors / nearest_neighbors.sum() #已经变为权值（pd.Series）

    # 逐个邻居找出其评价过、但自己未曾评价的乐队（或商品）的评分，并乘以权值

    neighbors_rate_with_weight = []

    for neighbor_name in nearest_neighbors.index:

        # 每个结果：pd.Series，其中index是商品名称，values是评分（已乘权值）

        neighbors_rate_with_weight.append(df.ix[neighbor_name, df.ix[user_name].isnull() & df.ix[neighbor_name].notnull()] * nearest_neighbors[neighbor_name])

    # 把邻居们的加权评分拼接成pd.DataFrame，按列累加，取最大的前n个商品的评分

    return pd.concat(neighbors_rate_with_weight, axis=1).sum(axis=1, skipna=True).nlargest(n)

#为Hailey做推荐

print(recommend2('Hailey', metric='manhattan', k=3, n=5))

#为Hailey做推荐

print(recommend2('Hailey', metric='euclidean', k=3, n=5, r=2))

#为Hailey做推荐

print(recommend2('Hailey', metric='pearson', k=1, n=5))

【笔记3】用pandas实现矩阵数据格式的推荐算法 (基于用户的协同)的更多相关文章

【笔记4】用pandas实现条目数据格式的推荐算法 (基于用户的协同)
''' 基于用户的协同推荐条目数据 ''' import pandas as pd from io import StringIO import json #数据类型一:条目(用户.商品.打分)(避 ...
【笔记5】用pandas实现矩阵数据格式的推荐算法 (基于物品的协同)
''' 基于物品的协同推荐矩阵数据说明: 1.修正的余弦相似度是一种基于模型的协同过滤算法.我们前面提过,这种算法的优势之一是扩展性好,对于大数据量而言,运算速度快.占用内存少. 2.用户的评价 ...
【笔记6】用pandas实现条目数据格式的推荐算法 (基于物品的协同)
''' 基于物品的协同推荐矩阵数据说明: 1.修正的余弦相似度是一种基于模型的协同过滤算法.我们前面提过,这种算法的优势之一是扩展性好,对于大数据量而言,运算速度快.占用内存少. 2.用户的评价 ...
简单的基于矩阵分解的推荐算法-PMF, NMF
介绍: 推荐系统中最为主流与经典的技术之一是协同过滤技术(Collaborative Filtering),它是基于这样的假设:用户如果在过去对某些项目产生过兴趣,那么将来他很可能依然对其保持热忱.其 ...
HAWQ + MADlib 玩转数据挖掘之（四）——低秩矩阵分解实现推荐算法
一.潜在因子(Latent Factor)推荐算法本算法整理自知乎上的回答@nick lee.应用领域:"网易云音乐歌单个性化推荐"."豆瓣电台音乐推荐"等. ...
（转）基于MapReduce的ItemBase推荐算法的共现矩阵实现（一）
转自:http://zengzhaozheng.blog.51cto.com/8219051/1557054 一.概述这2个月为公司数据挖掘系统做一些根据用户标签情况对用户的相似度进行评估,其中涉及 ...
用Spark学习矩阵分解推荐算法
在矩阵分解在协同过滤推荐算法中的应用中,我们对矩阵分解在推荐算法中的应用原理做了总结,这里我们就从实践的角度来用Spark学习矩阵分解推荐算法. 1. Spark推荐算法概述在Spark MLlib ...
推荐算法之用矩阵分解做协调过滤——LFM模型
隐语义模型(Latent factor model,以下简称LFM),是推荐系统领域上广泛使用的算法.它将矩阵分解应用于推荐算法推到了新的高度,在推荐算法历史上留下了光辉灿烂的一笔.本文将对 LFM ...
Python 的 Pandas 对矩阵的行进行求和
Python 的 Pandas 对矩阵的行进行求和: 若使用 df.apply(sum) 方法的话,只能对矩阵的列进行求和,要对矩阵的行求和,可以先将矩阵转置,然后应用 df.apply(sum) 即 ...

随机推荐

MongoDB基础入门003--使用官方驱动操作mongo,C#
本篇先简单介绍一下,使用官方驱动来操作MongoDB.至于MongoDB原生的增删改查语句,且等以后再慢慢学习. 一.操作MongoDB的驱动主要有两个 1.官方驱动:https://github.c ...
SQL复制表结构或表数据
需求: 软件开发过程中,一般会部署两个数据库:一个测试数据库提供给开发和测试过程使用:一个运维数据库提供上线使用.当需求变化需增加表时,会遇到数据库表结构或表数据同步的问题,这时就要复制表结构或表数据 ...
多个精美的导航样式web2.0源码
效果体验:http://keleyi.com/keleyi/phtml/divcss/6.htm 兼容多浏览器,例如IE,Chrome,火狐等. 完整代码,保存到htm文件打开也可以查看效果: &l ...
推荐一个内容滚动jquery插件
myslider是一个内容滚动jquery插件,版本0.1.2的每次滚动内容是一行内容,可以是文字,可以是一个链接,还可以是图片. 官方网址:http://keleyi.com/jq/myslider ...
【grunt第一弹】30分钟学会使用grunt打包前端代码
前言以现在前端js激增的态势,一个项目下来几十个js文件轻轻松松对于复杂一点的单页应用来说,文件上百简直是家常便饭,那么这个时候我们的js文件应该怎么处理呢?另外,对于css文件,又该如何处理呢?? ...
NHibernate代码监视
今天在使用NH连接MySQL的时候,突然想起来MySQL好像并没有类似于SQL SERVER Profiler的功能,那以后调试不是很操蛋吗?搞了半天,发现并没有办法,只好拐个弯解决问题:将NH中的生 ...
ArcSDE10.2.2使用SQL操作ST_Geometry时报ORA-28579
给esri中国的客服打电话被告知,是一直存在这个bug,arcgis10.2对应的oracle数据库版本要用11.2.0.3及以上的: 1.数据库升级可以用打补丁的当方式. 2.直接重装,我这里是直接 ...
Android自定义控件7--自定义开关--绘制界面内容
本文实现全自定义控件--自定义开关本文地址:http://www.cnblogs.com/wuyudong/p/5922316.html,转载请注明源地址. 自定义开关 (View),本文完成下面内 ...
IOS开发基础知识--碎片15
1:将自定义对象转化成NsData存入数据库要转为nsdata自定义对象要遵循<NSCoding>的协议,然后实现encodeWithCoder,initwithcode对属性转化,实例 ...
windows server2012 R2 本地策略编辑
进入本地策略编辑器: 1.win + R 2.输入命令行:gpedit.msc 密码期限设置: 1.windows设置 2.安全设置 3.账户策略 4.密码策略 5.密码最长使用期限赋值 0 交互登 ...

【笔记3】用pandas实现矩阵数据格式的推荐算法 (基于用户的协同)

【笔记3】用pandas实现矩阵数据格式的推荐算法 (基于用户的协同)的更多相关文章

随机推荐

热门专题