数据降维之多维缩放MDS（Multiple Dimensional Scaling）

网上看到关于数据降维的文章不少，介绍MDS的却极少，遂决定写一写。

考虑一个这样的问题。我们有n个样本，每个样本维度为m。我们的目标是用不同的新的k维向量（k<<m）替代原来的n个m维向量，使得在新的低维空间中，所有样本相互之间的距离等于（或最大程度接近）原空间中的距离（默认欧氏距离）。

举个栗子：原来有3个4维样本(1,0,0,3),(8,0,0,5),(2,0,0,4)，显然我们可以用三个新的二维样本(1,3),(8,5),(2,4)来保持维度变小并相互之间距离不变。

那么问题来了，如果不是这么明显的数据该如何来处理？降维后的距离一定会相等吗？

MDS算法给出了在给定k值条件下的最优解决方案。

首先我们计算所有原空间中样本相互之间的距离平方矩阵Dist[][]，显然这是一非负对称实数矩阵。至此，其实我们要维护的就是Dist不变，与原样本已经无关了。

接下来我们要根据Dist推算出目标降维后内积矩阵B，B[i][j]就是降维后第i,j个向量的内积。关于推导过程可以看相关书籍，这里给出一个优美的结论。

　　B[i][j]=-0.5(Dist[i][j] - avg(Disti[i]) - avg(Distj[j]) + avg_Dist)

有了B，只需要对B分解成B=U*U^T的形式就达到我们的目标了。

对B做特征分解（奇异分解也一样），B=V*diag*V^T。

我们可以取最大的k个特征值及其对应的特征向量构成diag_k和V_k。

此时U=V_k*diag_k^0,5就是我们降维后的n个行向量组成的矩阵了。

如果还有疑惑，下面的代码运行试试就明白了。

召唤算法君：

import numpy as np

# run this to get a test matrix

# A = np.random.randint(1,100,(5,20))

# np.save('mat.npy', A)

# exit()

A = np.load('mat.npy')

n,m = A.shape

Dist = np.zeros((n,n))

B = np.zeros((n,n))

for i in range(n):

    for j in range(n):

        Dist[i][j] = sum((ix-jx)**2 for ix,jx in zip(A[i], A[j]))

disti2 = np.array([0]*n)

distj2 = np.array([0]*n)

for x in range(n):

    disti2[x] = np.mean([Dist[x][j] for j in range(n)])

    distj2[x] = np.mean([Dist[i][x] for i in range(n)])

distij2 = np.mean([Dist[i][j] for i in range(n) for j in range(n)])

for i in range(n):

    for j in range(n):

        B[i][j] = -0.5*(Dist[i][j] - disti2[i] - distj2[j] + distij2)

w,v = np.linalg.eig(B)

v=v.transpose()

U = [{'eVal':w[i], 'eVec':v[i]} for i in range(n)]

U.sort(key = lambda obj:obj.get('eVal'), reverse = True)

k=4

w=np.array([0]*k)

v=np.zeros((k,n))

for i in range(k):

    w[i] = U[i].get('eVal')**0.5

    v[i] = U[i].get('eVec')

ans = np.dot(v.transpose(), np.diag(w))

ans_dist = np.zeros((n,n))

for i in range(n):

    ans_str=""

    for j in range(n):

        ans_dist[i][j] = sum((ix-jx)**2 for ix,jx in zip(ans[i], ans[j]))

print("Orign dis[][] is :")

print Dist

print("MDS dis[][] is :")

print(ans_dist)

数据降维之多维缩放MDS（Multiple Dimensional Scaling）的更多相关文章

python大战机器学习——数据降维
注:因为公式敲起来太麻烦,因此本文中的公式没有呈现出来,想要知道具体的计算公式,请参考原书中内容降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中 1.主成分分析(PCA) 将n ...
TSNE数据降维学习【转载】
转自:https://blog.csdn.net/u012162613/article/details/45920827 https://www.jianshu.com/p/d6e7083d7d61 ...
斯坦福机器学习视频笔记 Week8 无监督学习：聚类与数据降维 Clusting & Dimensionality Reduction
监督学习算法需要标记的样本(x,y),但是无监督学习算法只需要input(x). 您将了解聚类 - 用于市场分割,文本摘要,以及许多其他应用程序. Principal Components Analy ...
吴裕雄 python 机器学习——多维缩放降维MDS模型
# -*- coding: utf-8 -*- import numpy as np import matplotlib.pyplot as plt from sklearn import datas ...
Coursera《machine learning》--（14）数据降维
本笔记为Coursera在线课程<Machine Learning>中的数据降维章节的笔记. 十四.降维 (Dimensionality Reduction) 14.1 动机一:数据压缩 ...
数据降维技术（1）—PCA的数据原理
PCA(Principal Component Analysis)是一种常用的数据分析方法.PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降 ...
初识PCA数据降维
PCA要做的事降噪和去冗余,其本质就是对角化协方差矩阵. 一.预备知识 1.1 协方差分析对于一般的分布,直接代入E(X)之类的就可以计算出来了,但真给你一个具体数值的分布,要计算协方差矩阵,根据这 ...
数据降维技术（2）—奇异值分解（SVD）
上一篇文章讲了PCA的数据原理,明白了PCA主要的思想及使用PCA做数据降维的步骤,本文我们详细探讨下另一种数据降维技术—奇异值分解(SVD). 在介绍奇异值分解前,先谈谈这个比较奇怪的名字:奇异值分 ...
用TSNE进行数据降维并展示聚类结果
TSNE提供了一种有效的数据降维方式,让我们可以在2维或3维的空间中展示聚类结果. # -*- coding: utf-8 -*- from __future__ import unicode_lit ...

随机推荐

Arcgis瓦片--js客户端加载
接上篇博客,下载好arcgis格式的瓦片数据以后,需要用js客户端在前端加载出来.这里介绍两种方案: 1.使用超图iServer将瓦片发布成rest地图服务,或者arcgis地图服务,客户端直接加载 ...
OpenCL中的half与float的转换
在kernel中使用half类型可以在牺牲一定精度的代价下来提升运算速度. 在kernel中, 可以比较方便的对half数据进行计算, 但在host上的, 对half的使用就没那么方便了. 查看cl_ ...
Several ports (8005, 8080, 8009) required by Tomcat v9.0 Server at localhost
Several ports (8005, 8080, 8009) required by Tomcat v9.0 Server at localhost 问题:Tomcat服务器的端口被占用解决: ...
Spark之谓词下推
谓词下推就是指将各个条件先应用到对应的数据上,而不是根据写入的顺序执行,这样就可以先过滤掉部分数据,降低join等一系列操作的数据量级,提高运算速度,如下图:
Linux Logwatch的学习总结
Logwatch功能介绍 Logwatch是一款Perl脚本编写的.开源的日志分析工具.它能对原始的日志文件进行解析并转换成结构化格式的文档,也能根据您的使用情况和需求来定制报告.Logwatch的特 ...
VS2017 EF本地数据库链接
1. 本地数据库连接 server name可以从链接字符串中取: (localdb)\MSSQLLocalDB 注意少写一个\. { "Logging": { "Inc ...
c/c++ llinux epoll系列4 利用epoll_wait实现非阻塞的connect
llinux epoll系列4 利用epoll_wait实现非阻塞的connect connect函数是阻塞的,而且不能设置connect函数的timeout时间,所以一旦阻塞太长时间,影响用户的体验 ...
phpstorm设置编码格式
phpstorm设置编码格式默认: utf-8格式设置方法: file -> settings -> Editor -> file encodng -> project e ...
Docker: 快速搭建LNMP网站平台
快速搭建LNMP网站平台步骤: 1.自定义网络(这里建立一个自定义网络,名字叫 lnmp, 让LNMP网站的服务,都加入这个自定义网络)docker network create lnmp2.创建M ...
DB2批量插入性能对比
import ibm_db import random import time first_names = '赵钱孙李周吴郑王冯陈褚卫蒋沈韩杨朱秦尤许何吕施张孔曹严华金魏' \ '陶姜戚谢邹喻柏水窦章 ...

数据降维之多维缩放MDS（Multiple Dimensional Scaling）

数据降维之多维缩放MDS（Multiple Dimensional Scaling）的更多相关文章

随机推荐

热门专题