转自:

博客

http://blog.csdn.net/google19890102/article/details/45532745/

github

https://github.com/zhaozhiyong19890102/Python-Machine-Learning-Algorithm/tree/master/Chapter_3%20Factorization%20Machine

一、因子分解机FM的模型

   因子分解机(Factorization Machine, FM)是由Steffen Rendle提出的一种基于矩阵分解的机器学习算法。

1、因子分解机FM的优势

    对于因子分解机FM来说,最大的特点是对于稀疏的数据具有很好的学习能力。现实中稀疏的数据很多,例如作者所举的推荐系统的例子便是一个很直观的具有稀疏特点的例子。

2、因子分解机FM的模型

    对于度为2的因子分解机FM的模型为:
其中,参数表示的是两个大小为的向量和向量的点积:
其中,表示的是系数矩阵的第维向量,且称为超参数。在因子分解机FM模型中,前面两部分是传统的线性模型,最后一部分将两个互异特征分量之间的相互关系考虑进来。
    因子分解机FM也可以推广到高阶的形式,即将更多互异特征分量之间的相互关系考虑进来。

二、因子分解机FM算法

    因子分解机FM算法可以处理如下三类问题:
  1. 回归问题(Regression)
  2. 二分类问题(Binary Classification)
  3. 排序(Ranking)

在这里主要介绍回归问题和二分类问题。

1、回归问题(Regression)

    在回归问题中,直接使用作为最终的预测结果。在回归问题中使用最小均方误差(the least square error)作为优化的标准,即
其中,表示样本的个数。

2、二分类问题(Binary Classification)

    与Logistic回归类似,通过阶跃函数,如Sigmoid函数,将映射成不同的类别。在二分类问题中使用logit loss作为优化的标准,即
其中,表示的是阶跃函数Sigmoid。具体形式为:

三、因子分解机FM算法的求解过程

1、交叉项系数

    在基本线性回归模型的基础上引入交叉项,如下:
  表示共有n个特征:
 
若是这种直接在交叉项的前面加上交叉项系数的方式在稀疏数据的情况下存在一个很大的缺陷,即在对于观察样本中未出现交互的特征分量,不能对相应的参数进行估计。
    对每一个特征分量引入辅助向量,利用对交叉项的系数进行估计,即
这就对应了一种矩阵的分解。对值的限定,对FM的表达能力有一定的影响。

2、模型的求解

这里要求出,主要采用了如公式求出交叉项。具体过程如下:

注:上式中: 

,且,倒数第二行中,将 j 换成 i,原式不变,所以能得到倒数第一行的形式。

3、基于随机梯度的方式求解

对于回归问题:
对于二分类问题:
 
最终交叉项要估计的参数每一个是:Vi,f
有n个特征, 每个特征有k个分量,那交叉项的参数个数就是:n*k。

四、实验(求解二分类问题)

1、实验的代码:

  1. #coding:UTF-8
  2. from __future__ import division
  3. from math import exp
  4. from numpy import *
  5. from random import normalvariate#正态分布
  6. from datetime import datetime
  7. trainData = 'E://data//diabetes_train.txt'
  8. testData = 'E://data//diabetes_test.txt'
  9. featureNum = 8
  10. def loadDataSet(data):
  11. dataMat = []
  12. labelMat = []
  13. fr = open(data)#打开文件
  14. for line in fr.readlines():
  15. currLine = line.strip().split()
  16. #lineArr = [1.0]
  17. lineArr = []
  18. for i in xrange(featureNum):
  19. lineArr.append(float(currLine[i + 1]))
  20. dataMat.append(lineArr)
  21. labelMat.append(float(currLine[0]) * 2 - 1)
  22. return dataMat, labelMat
  23. def sigmoid(inx):
  24. return 1.0 / (1 + exp(-inx))
  25. def stocGradAscent(dataMatrix, classLabels, k, iter):
  26. #dataMatrix用的是mat, classLabels是列表
  27. m, n = shape(dataMatrix)
  28. alpha = 0.01
  29. #初始化参数
  30. w = zeros((n, 1))#其中n是特征的个数
  31. w_0 = 0.    #截距项
  32. v = normalvariate(0, 0.2) * ones((n, k))   #交叉项
  33. for it in xrange(iter):
  34. print it
  35. for x in xrange(m):#随机优化,对每一个样本而言的
  36. inter_1 = dataMatrix[x] * v
  37. inter_2 = multiply(dataMatrix[x], dataMatrix[x]) * multiply(v, v)#multiply对应元素相乘
  38. #完成交叉项
  39. interaction = sum(multiply(inter_1, inter_1) - inter_2) / 2.
  40. p = w_0 + dataMatrix[x] * w + interaction#计算预测的输出
  41. loss = sigmoid(classLabels[x] * p[0, 0]) - 1
  42. print loss
  43. w_0 = w_0 - alpha * loss * classLabels[x]
  44. for i in xrange(n):
  45. if dataMatrix[x, i] != 0:
  46. w[i, 0] = w[i, 0] - alpha * loss * classLabels[x] * dataMatrix[x, i]
  47. for j in xrange(k):
  48. v[i, j] = v[i, j] - alpha * loss * classLabels[x] * (dataMatrix[x, i] * inter_1[0, j] - v[i, j] * dataMatrix[x, i] * dataMatrix[x, i])
  49. return w_0, w, v
  50. def getAccuracy(dataMatrix, classLabels, w_0, w, v):
  51. m, n = shape(dataMatrix)
  52. allItem = 0
  53. error = 0
  54. result = []
  55. for x in xrange(m):
  56. allItem += 1
  57. inter_1 = dataMatrix[x] * v
  58. inter_2 = multiply(dataMatrix[x], dataMatrix[x]) * multiply(v, v)#multiply对应元素相乘
  59. #完成交叉项
  60. interaction = sum(multiply(inter_1, inter_1) - inter_2) / 2.
  61. p = w_0 + dataMatrix[x] * w + interaction#计算预测的输出
  62. pre = sigmoid(p[0, 0])
  63. result.append(pre)
  64. if pre < 0.5 and classLabels[x] == 1.0:
  65. error += 1
  66. elif pre >= 0.5 and classLabels[x] == -1.0:
  67. error += 1
  68. else:
  69. continue
  70. print result
  71. return float(error) / allItem
  72. if __name__ == '__main__':
  73. dataTrain, labelTrain = loadDataSet(trainData)
  74. dataTest, labelTest = loadDataSet(testData)
  75. date_startTrain = datetime.now()
  76. print "开始训练"
  77. w_0, w, v = stocGradAscent(mat(dataTrain), labelTrain, 20, 200)
  78. print "训练准确性为:%f" % (1 - getAccuracy(mat(dataTrain), labelTrain, w_0, w, v))
  79. date_endTrain = datetime.now()
  80. print "训练时间为:%s" % (date_endTrain - date_startTrain)
  81. print "开始测试"
  82. print "测试准确性为:%f" % (1 - getAccuracy(mat(dataTest), labelTest, w_0, w, v))

2、实验结果:

五、几点疑问

    在传统的非稀疏数据集上,有时效果并不是很好。在实验中,我有一点处理,即在求解Sigmoid函数的过程中,在有的数据集上使用了带阈值的求法:
  1. def sigmoid(inx):
  2. #return 1.0 / (1 + exp(-inx))
  3. return 1. / (1. + exp(-max(min(inx, 15.), -15.)))

六 图片

fm 讲解加代码的更多相关文章

  1. 简单的自动化使用--使用selenium实现学习通网站的刷慕课程序。注释空格加代码大概200行不到

    简单的自动化使用--使用selenium实现学习通网站的刷慕课程序.注释空格加代码大概200行不到 相见恨晚啊 github地址 环境Python3.6 + pycharm + chrom浏览器 + ...

  2. [洛谷P3376题解]网络流(最大流)的实现算法讲解与代码

    [洛谷P3376题解]网络流(最大流)的实现算法讲解与代码 更坏的阅读体验 定义 对于给定的一个网络,有向图中每个的边权表示可以通过的最大流量.假设出发点S水流无限大,求水流到终点T后的最大流量. 起 ...

  3. [CodeIgniter4]讲解-加载静态页

    讲解 本教程旨在向您介绍CodeIgniter框架和MVC体系结构的基本原理.它将向您展示如何以逐步的方式构造基本的CodeIgniter应用程序. 在本教程中,您将创建一个基本的新闻应用程序.您将从 ...

  4. Java核心技术及面试指南的视频讲解和代码下载位置

    都是百度云盘,均无密码 代码下载位置: https://pan.baidu.com/s/1I44ob0vygMxvmj2BoNioAQ 视频讲解位置: https://pan.baidu.com/s/ ...

  5. 扩展欧几里得(ex_gcd),中国剩余定理(CRT)讲解 有代码

    扩展欧几里得算法 求逆元就不说了. ax+by=c 这个怎么求,很好推. 设d=gcd(a,b) 满足d|c方程有解,否则无解. 扩展欧几里得求出来的解是 x是 ax+by=gcd(a,b)的解. 对 ...

  6. 傻瓜式的go modules的讲解和代码,及gomod能不能引入另一个gomod和gomod的use of internal package xxxx not allowed

    一 国内关于gomod的文章,哪怕是使用了百度 -csdn,依然全是理论,虽然golang的使用者大多是大神但是也有像我这样的的弱鸡是不是? 所以,我就写个傻瓜式教程了. github地址:https ...

  7. Rainbond 对接 Istio 原理讲解和代码实现分析

    一.背景 现有的 ServiceMesh 框架有很多,如 Istio.linkerd等.对于用户而言,在测试环境下,需要达到的效果是快.开箱即用.但在生产环境下,可能又有熔断.延时注入等需求.那么单一 ...

  8. C++工厂方法模式讲解和代码示例

    在C++中使用模式 使用示例: 工厂方法模式在 C++ 代码中得到了广泛使用. 当你需要在代码中提供高层次的灵活性时, 该模式会非常实用. 识别方法: 工厂方法可通过构建方法来识别, 它会创建具体类的 ...

  9. Vue学习之--------组件嵌套以及VueComponent的讲解(代码实现)(2022/7/23)

    欢迎加入刚建立的社区:http://t.csdn.cn/Q52km 加入社区的好处: 1.专栏更加明确.便于学习 2.覆盖的知识点更多.便于发散学习 3.大家共同学习进步 3.不定时的发现金红包(不多 ...

随机推荐

  1. C# 正则表达式 判断各种字符串(如手机号)

    using System; using System.Text.RegularExpressions; namespace MetarCommonSupport { /// <summary&g ...

  2. vmware 安装 ios 苹果系统

    我用的系统是win10... 一.所需软件: 1.下载并安装VMware Workstation Pro 12 密码:7ybc和序列号 密码是:bwm0 2.下载unlocker 203(for OS ...

  3. javacv 340使用 人脸检测例子【转载】

    Java下使用opencv进行人脸检测 工作需要,研究下人脸识别,发现opencv比较常用,尽管能检测人脸,但识别率不高,多数是用来获取摄像头的视频流的,提取里面的视频帧,实现人脸识别时通常会和其他框 ...

  4. orace学习操作(4)

    Orace游标: 一.游标简介: 使用游标,我们可以对具体操作数据,比如查询的结果,对行,列数据进行更加细致的处理.以及对其他DML操作进行判断等操作: 二.显示游标: 1.静态的指定变量类型: SQ ...

  5. class^=是什么意思啊,在css中 5

    这是css属性选择器的一种:[attribute^=value] ,用来匹配属性值以指定值开头的每个元素.例如: [class^="test"] { background:#fff ...

  6. python3+selenium3.13的简单操作

    1.浏览器 1.1 浏览器窗口大小位置 driver.set_window_size(self, width, height, windowHandle) 将某个窗口设置为固定大小 driver.se ...

  7. Vcenter 和ESXi License过期解决办法

    Vcenter License过期解决办法 用client连接vcenter:  KEY必须用vCenter Server 5 Standard序列号如果使用使用的“vCenter Server 5 ...

  8. CorelDRAW X4常用快捷键大全

    材料/工具 CorelDRAW X4 方法 1 F1:帮助信息 F2:缩小 F3:放大 F4:缩放到将所有对象置于窗口中 F5:手绘(Freehand)工具 F6:矩形(Rectangle)工具 F7 ...

  9. sql server不要插入大数据,开销太大

    sql server或者说关系型数据库中不要做一个字段存储大数据量的设计,比如要插入3000w条数据,然后每条数据中有一个文章字段,这个字段每条大概都需要存储几m的数据,那么算下来这个表就得有几百个G ...

  10. 好用的 FTP 软件之 FileZilla 技巧教程

    FTP 软件之 FileZilla教程 使用教程参考:http://163.26.161.1/~yilinteacher/wwwict/flash/FileZilla.swf (1)如何设置传输完成后 ...