[comment]: # Machine Learning: 学习心得 - 14 - 利用SVD简化数据

前言

最近在看Peter Harrington写的“机器学习实战”，这是我的学习心得，这次是第14章 - 利用SVD简化数据。

这里介绍，机器学习中的降维技术，可简化样品数据。

基本概念

降维（dimensionality reduction）。

如果样本数据的特征维度很大，会使得难以分析和理解。我们可以通过降维技术减少维度。

降维技术并不是将影响少的特征去掉，而是将样本数据集转换成一个低维度的数据集。

降维技术的用途

使得数据集更易使用；
降低很多算法的计算开销；
去除噪声；
使得结果易懂。

问题：如何向用户推荐他喜欢的商品

用户	商品1	商品2	商品3	商品4	商品5	...	商品d
user 1	0	0	2	5	3	...	0
user 2	0	0	3	4	2	...	0
user 3	0	0	2	5	4	...	0
user 4	5	4	0	0	0	...	0
user 5	3	5	0	0	0	...	0
...	...	...	...	...	...	...	...
user n	0	0	4	5	3	...	0

解决问题的思路

如果要对一个用户U推荐一个U没有买过的商品：

对于当前用户U的每个没有买过的商品A：

    对于系统中每个商品B，并且U给B打过分：

        根据A和B的打分数据，获取一个降维数据集。*1

        在降维数据集上，计算A和B的相似度Similarity。*2

        Rating = U给B的打分

        TotalSimilarity += Similarity

        TotalRating += Similarity * Rating

    A.Rating = TotalRating / TotalSimilarity

按照A.Rating从大到小排序。

打分高的商品作为推荐商品。

注：比如电影，一般用户不会看已经看过的电影，所以"没有买过的商品"在这是有特殊的意义。

也可以将这个条件根据实际的情况换成其它过滤条件。

根据上面的思路，我们还需要解决2个关键问题：

如何降维。
如何计算两个矢量（也可以看成2个点）的相似度。

如何计算2个矢量的相似度(Similarity)

先解决简单的问题。相似度是一个0到1的值。可以选择下面的方法来计算。

方法1：计算欧氏距离相似度。

两个点离得越近，越相似。

求两个点的距离D

Similarity = 1 / (1 + D)

方法2：计算皮尔逊相关系数（Pearson correlation）的相似度。

统计方法中求两组数据的相关度，

这两个点的correlationValue

Similarity = correlationValue / 2 + 0.5

方法3：计算角度的相似度。

计算两个点的角度，求余弦值（[-1, 1]）, 角度越接近0，越相似。

求两个点的角度的余弦值cosineValue.

Similarity = cosineValue / 2 + 0.5

如何降维

方法1：只看对商品A和商品B都有打分的数据。

对于商品A和商品B，可以看作为两列数据，我们在这两列中，找出两个数据都不为0的行。

比如：表1中商品1和商品2，只要看4，5两行数据就可以。

这个方法的问题是
- 每次计算都需要寻找相关数据。对性能的优化不够。

方法2：奇异值分解（Singular Value Decomposition，SVD）

矩阵\(Data_{{m} \times {n}}\)，假设m < n。

奇异性分解可以将一个矩阵\(Data_{{m} \times {n}}\)分解成3个矩阵\(U_{{m} \times {m}}\), \(\Sigma_{{m} \times {n}}\), \(V^T_{{n} \times {n}}\)。

\(U\),\(V^T\)都是单式矩阵（unitary matrix）,\(\Sigma\)是一个对角矩阵（rectangular diagonal matrix），也就是说只有在对角线上才有值。

比如：

\[\begin{bmatrix}
15 & 0 & 0 \\
0 & 11 & 0 \\
0 & 0 & 0.2 \\
0 & 0 & 0 \\
\end{bmatrix}
\]

这里主要介绍\(\Sigma\)，我们只关心它的对角线上的数据。

首先这个对角线上的数据最多有m个（假设m < n）。

而且这个数组是按照从大到小的顺序排列的。

\(\Sigma\)的对角线上的数据被称为奇异数（Singular Values）。

奇异数的一个特点是可以用来计算一个降维的\(SmallData_{{m} \times {k} (k < m)}\)来代替原数据集\(Data_{{m} \times {n}}\)。

一个计算\(k\)的方法是：

在\(Sigma\)中找到前\(k\)的数据，使得其\(\textstyle \sum_{i=1}^k s_i^2\) 刚好大于 \(0.9 \times \textstyle \sum_{i=1}^m s_i^2\)

这时:

\[SmallData_{{m} \times {k}} = Data^T U_{{m} \times {k}} \Sigma_{{k} \times {k}}^I \\
where \\
\qquad k < m \\
\qquad W^I : 矩阵W的逆矩阵
\]

总结

我们可以使用\(SmallData_{{m} \times {k}}\)作为降维后的数据集。
SVD降维技术的应用可以是离线的。（也就是说可以事先做好。）

将SVD降维技术应用到数据近似压缩上

求近似数据集：

\[NewData_{{m} \times {n}} = U_{{m} \times {k}} \Sigma_{{k} \times {k}} V^T_{{k} \times {n}} \\
where \\
\qquad NewData_{{m} \times {n}} \approx Data_{{m} \times {n}} \\
\qquad k < m
\]

由于\(NewData_{{m} \times {n}}\)是计算出来的，

所以可以只保存\(U_{{m} \times {k}}\), \(\Sigma_{{k} \times {k}}\)的奇异值, \(V^T_{{k} \times {n}}\)做为压缩数据。

核心公式

相似度计算 - 欧氏距离

from numpy import *

def distanceSimilarity(A, B):

    return 1.0 / (1.0 + linalg.norm(A - B))

\[\frac{1}{1 + \lVert A - B \rVert} \\
where \\
\qquad \lVert w \rVert = \sqrt {\textstyle \sum_{i=1}^n w_i^2}
\]

相似度计算 - 皮尔逊相关系数（Pearson correlation）

from numpy import *

def correlationSimilarity(A, B):

    if len(A) < 3 : return 1.0

    return 0.5 + 0.5 * corrcoef(A, B, rowvar = 0)[0][1]

相似度计算 - 余弦相似度

\[\cos \theta = \frac{A^TB}{\lVert A \rVert \lVert B \rVert} \\
f(A, B) = 0.5 + 0.5 * \cos \theta \\
where \\
\qquad \lVert w \rVert = \sqrt {\textstyle \sum_{i=1}^n w_i^2}
\]

参考

Machine Learning in Action by Peter Harrington
Correlation and dependence
Singular value decomposition

机器学习实战 - 读书笔记(14) - 利用SVD简化数据的更多相关文章

机器学习实战 - 读书笔记(13) - 利用PCA来简化数据
前言最近在看Peter Harrington写的"机器学习实战",这是我的学习心得,这次是第13章 - 利用PCA来简化数据. 这里介绍,机器学习中的降维技术,可简化样品数据. ...
机器学习实战 - 读书笔记(07) - 利用AdaBoost元算法提高分类性能
前言最近在看Peter Harrington写的"机器学习实战",这是我的学习笔记,这次是第7章 - 利用AdaBoost元算法提高分类性能. 核心思想在使用某个特定的算法是, ...
【转载】机器学习实战 - 读书笔记(07) - 利用AdaBoost元算法提高分类性能
原文地址: https://www.cnblogs.com/steven-yang/p/5686473.html ------------------------------------------- ...
【机器学习实战】第14章利用SVD简化数据
第14章利用SVD简化数据 SVD 概述奇异值分解(SVD, Singular Value Decomposition): 提取信息的一种方法,可以把 SVD 看成是从噪声数据中抽取相关特征.从生 ...
机器学习实战（Machine Learning in Action）学习笔记————09.利用PCA简化数据
机器学习实战(Machine Learning in Action)学习笔记————09.利用PCA简化数据关键字:PCA.主成分分析.降维作者:米仓山下时间:2018-11-15机器学习实战(Ma ...
机器学习实战 - 读书笔记(11) - 使用Apriori算法进行关联分析
前言最近在看Peter Harrington写的"机器学习实战",这是我的学习心得,这次是第11章 - 使用Apriori算法进行关联分析. 基本概念关联分析(associat ...
机器学习实战 - 读书笔记(12) - 使用FP-growth算法来高效发现频繁项集
前言最近在看Peter Harrington写的"机器学习实战",这是我的学习心得,这次是第12章 - 使用FP-growth算法来高效发现频繁项集. 基本概念 FP-growt ...
机器学习——利用SVD简化数据
奇异值分解(Singular Value Decompositon,SVD),可以实现用小得多的数据集来表示原始数据集. 优点:简化数据,取出噪声,提高算法的结果缺点:数据的转换可能难以理解适用数 ...
《机器学习实战》学习笔记——第14章利用SVD简化数据
一. SVD 1. 基本概念: (1)定义:提取信息的方法:奇异值分解Singular Value Decomposition(SVD) (2)优点:简化数据, 去除噪声,提高算法的结果 (3)缺点: ...

随机推荐

DIV实现纵向滚动条overflow-y
DIV实现纵向滚动条overflow-y:scroll的使用, 1.首先设置固定div的宽高2.overflow-y:scroll如果设置overflow:auto;表示当你内容超过div高度出现滚动 ...
高性能优化Web前端
高性能HTML 一.避免使用iframe iframe也叫内联frame,可将一个HTML文档嵌入另一个HTML文档中. iframe的好处是,嵌入的文档独立于父文档,通常也借此使浏览器模拟多线程.缺 ...
一个程序说明标准i/O缓冲的效率
来瞧一个程序,了解一下标准I/O中的缓冲区对程序运行的影响: #include<stdio.h>#include<unistd.h> int main(){ char a[2] ...
《Programming with Objective-C》第八章 Working with Blocks
Blocks are Objective-C objects, which means they can be added to collections like NSArray or NSDicti ...
轻量级linux CRUX安装笔记
感谢hrdd的分享,原文出处:http://wxdhrdd.blog.163.com/blog/static/120500564200952592240867/ 以下是对原文进行补充 crux的安装: ...
Simplified CommonJS wrapper 与 AMD 标准定义模块差异
标准的 AMD 模块定义一个标准的 AMD 模块看起来是这样子: define(['foo', 'foo/bar'], function (foo, bar) { return { doSometh ...
理解js中的自由变量以及作用域的进阶
如果你不知道什么是作用域,建议你先看什么是作用域链,什么是原型链.这篇文章,因为这些内容都是有关联性的. 什么是自由变量? 如我在全局中定义了一个变量a,然后我在函数中使用了这个a,这个a就可以称之为 ...
Android性能优化之运算篇
下面是运算篇章的学习笔记,部分内容与前面的性能优化典范有重合,欢迎大家一起学习交流! 1)Intro to Compute and Memory Problems Android中的Java代码会需要 ...
[OpenCV] Image Processing - Grayscale Transform
"每个像素的输出值只取决于其输入值" 重难点:Histogram equalization 参考:笑得很甜 http://blog.csdn.net/xiaowei_cqu/art ...
Vue基础---->VueJS的使用(一)
Vue.js是一个构建数据驱动的web界面的库.它的目标是通过尽可能简单的API 实现响应的数据绑定和组合的视图组件,今天我们就开始vue.js的学习. vue的安装及使用一.vue的下载地址:ht ...

机器学习实战 - 读书笔记(14) - 利用SVD简化数据

前言

基本概念

降维技术的用途

问题：如何向用户推荐他喜欢的商品

推荐系统的应用场景

解决问题的思路

如何计算2个矢量的相似度(Similarity)

方法1：计算欧氏距离相似度。

方法2：计算皮尔逊相关系数（Pearson correlation）的相似度。

方法3：计算角度的相似度。

如何降维

方法1：只看对商品A和商品B都有打分的数据。

方法2：奇异值分解（Singular Value Decomposition，SVD）

总结

将SVD降维技术应用到数据近似压缩上

核心公式

参考

机器学习实战 - 读书笔记(14) - 利用SVD简化数据的更多相关文章

随机推荐

热门专题

机器学习实战 - 读书笔记(14) - 利用SVD简化数据

前言

基本概念

降维技术的用途

问题：如何向用户推荐他喜欢的商品

推荐系统的应用场景

解决问题的思路

如何计算2个矢量的相似度(Similarity)

方法1：计算欧氏距离相似度。

方法2：计算皮尔逊相关系数（Pearson correlation）的相似度。

方法3：计算角度的相似度。

如何降维

方法1： 只看对商品A和商品B都有打分的数据。

方法2： 奇异值分解（Singular Value Decomposition，SVD）

总结

将SVD降维技术应用到数据近似压缩上

核心公式

参考

机器学习实战 - 读书笔记(14) - 利用SVD简化数据的更多相关文章

随机推荐

热门专题

方法1：只看对商品A和商品B都有打分的数据。

方法2：奇异值分解（Singular Value Decomposition，SVD）