问题描述

设 ${X_{m \times k}} = \left[ {\vec x_1^T;\vec x_2^T; \cdots ;\vec x_m^T} \right]$ (; 表示纵向连接) 和 ${Y_{n \times k}} = \left[ {\vec y_1^T;\vec y_2^T; \cdots ;\vec y_n^T} \right]$, 计算矩阵 ${X_{m \times k}}$ 中每一个行向量和矩阵 ${Y_{n \times k}}$ 中每一个行向量的平方欧氏距离 (pairwise squared Euclidean distance), 即计算:

$\left[ {\begin{array}{*{20}{c}}
{\left\| {{{\vec x}_1} - {{\vec y}_1}} \right\|_2^2}&{\left\| {{{\vec x}_1} - {{\vec y}_2}} \right\|_2^2}& \cdots &{\left\| {{{\vec x}_1} - {{\vec y}_n}} \right\|_2^2} \\
{\left\| {{{\vec x}_2} - {{\vec y}_1}} \right\|_2^2}&{\left\| {{{\vec x}_2} - {{\vec y}_2}} \right\|_2^2}& \cdots &{\left\| {{{\vec x}_2} - {{\vec y}_n}} \right\|_2^2} \\
\vdots & \vdots & \ddots & \vdots \\
{\left\| {{{\vec x}_m} - {{\vec y}_1}} \right\|_2^2}&{\left\| {{{\vec x}_m} - {{\vec y}_2}} \right\|_2^2}& \cdots &{\left\| {{{\vec x}_m} - {{\vec y}_n}} \right\|_2^2}
\end{array}} \right]$ (这是一个 $m \times n$ 矩阵).

这个计算在度量学习, 图像检索, 行人重识别等算法的性能评估中有着广泛的应用.

公式推导

在 NumPy 中直接利用上述原式来计算两个矩阵的成对平方欧氏距离, 要显式地使用二重循环, 而在 Python 中循环的效率是相当低下的. 如果想提高计算效率, 最好是利用 NumPy 的特性将原式转化为数组/矩阵运算. 下面就尝试进行这种转化.

先将原式展开为:

\(\left[ {\begin{array}{*{20}{c}}
{\left\| {{{\vec x}_1}} \right\|_2^2}&{\left\| {{{\vec x}_1}} \right\|_2^2}& \cdots &{\left\| {{{\vec x}_1}} \right\|_2^2} \\
{\left\| {{{\vec x}_2}} \right\|_2^2}&{\left\| {{{\vec x}_2}} \right\|_2^2}& \cdots &{\left\| {{{\vec x}_2}} \right\|_2^2} \\
\vdots & \vdots & \ddots & \vdots \\
{\left\| {{{\vec x}_m}} \right\|_2^2}&{\left\| {{{\vec x}_m}} \right\|_2^2}& \cdots &{\left\| {{{\vec x}_m}} \right\|_2^2}
\end{array}} \right] + \left[ {\begin{array}{*{20}{c}}
{\left\| {{{\vec y}_1}} \right\|_2^2}&{\left\| {{{\vec y}_2}} \right\|_2^2}& \cdots &{\left\| {{{\vec y}_n}} \right\|_2^2} \\
{\left\| {{{\vec y}_1}} \right\|_2^2}&{\left\| {{{\vec y}_2}} \right\|_2^2}& \cdots &{\left\| {{{\vec y}_n}} \right\|_2^2} \\
\vdots & \vdots & \ddots & \vdots \\
{\left\| {{{\vec y}_1}} \right\|_2^2}&{\left\| {{{\vec y}_2}} \right\|_2^2}& \cdots &{\left\| {{{\vec y}_n}} \right\|_2^2}
\end{array}} \right] - 2\left[ {\begin{array}{*{20}{c}}
{\left\langle {{{\vec x}_1},{{\vec y}_1}} \right\rangle }&{\left\langle {{{\vec x}_1},{{\vec y}_2}} \right\rangle }& \cdots &{\left\langle {{{\vec x}_1},{{\vec y}_n}} \right\rangle } \\
{\left\langle {{{\vec x}_2},{{\vec y}_1}} \right\rangle }&{\left\langle {{{\vec x}_2},{{\vec y}_2}} \right\rangle }& \cdots &{\left\langle {{{\vec x}_2},{{\vec y}_n}} \right\rangle } \\
\vdots & \vdots & \ddots & \vdots \\
{\left\langle {{{\vec x}_m},{{\vec y}_1}} \right\rangle }&{\left\langle {{{\vec x}_m},{{\vec y}_2}} \right\rangle }& \cdots &{\left\langle {{{\vec x}_m},{{\vec y}_n}} \right\rangle }
\end{array}} \right]\)

下面逐项地化简或转化为数组/矩阵运算的形式:

$\left[ {\begin{array}{*{20}{c}}
{\left\| {{{\vec x}_1}} \right\|_2^2}&{\left\| {{{\vec x}_1}} \right\|_2^2}& \cdots &{\left\| {{{\vec x}_1}} \right\|_2^2} \\
{\left\| {{{\vec x}_2}} \right\|_2^2}&{\left\| {{{\vec x}_2}} \right\|_2^2}& \cdots &{\left\| {{{\vec x}_2}} \right\|_2^2} \\
\vdots & \vdots & \ddots & \vdots \\
{\left\| {{{\vec x}_m}} \right\|_2^2}&{\left\| {{{\vec x}_m}} \right\|_2^2}& \cdots &{\left\| {{{\vec x}_m}} \right\|_2^2}
\end{array}} \right] = \left[ {\begin{array}{*{20}{c}}
{\left\| {{{\vec x}_1}} \right\|_2^2} \\
{\left\| {{{\vec x}_2}} \right\|_2^2} \\
\vdots \\
{\left\| {{{\vec x}_m}} \right\|_2^2}
\end{array}} \right]\vec 1_n^T = \left( {\left( {X \circ X} \right){{\vec 1}_k}} \right)\vec 1_n^T = \left( {X \circ X} \right){\vec 1_k}\vec 1_n^T$

式中, $\circ$ 表示按元素积 (element-wise product), 又称为 Hadamard 积; ${\vec 1_k}$ 表示维的全1向量 (all-ones vector), 余者类推. 上式中 ${\vec 1_k}$ 的作用是计算 $X \circ X$ 每行元素的和, 返回一个列向量; $\vec 1_n^T$ 的作用类似于 NumPy 中的广播机制, 在这里是将一个列向量扩展为一个矩阵, 矩阵的每一列都是相同的.

$\left[ {\begin{array}{*{20}{c}}
{\left\| {{{\vec y}_1}} \right\|_2^2}&{\left\| {{{\vec y}_2}} \right\|_2^2}& \cdots &{\left\| {{{\vec y}_n}} \right\|_2^2} \\
{\left\| {{{\vec y}_1}} \right\|_2^2}&{\left\| {{{\vec y}_2}} \right\|_2^2}& \cdots &{\left\| {{{\vec y}_n}} \right\|_2^2} \\
\vdots & \vdots & \ddots & \vdots \\
{\left\| {{{\vec y}_1}} \right\|_2^2}&{\left\| {{{\vec y}_2}} \right\|_2^2}& \cdots &{\left\| {{{\vec y}_n}} \right\|_2^2}
\end{array}} \right] = {\vec 1_m}{\left[ {\begin{array}{*{20}{c}}
{\left\| {{{\vec y}_1}} \right\|_2^2} \\
{\left\| {{{\vec y}_2}} \right\|_2^2} \\
\vdots \\
{\left\| {{{\vec y}_n}} \right\|_2^2}
\end{array}} \right]^T} = {\vec 1_m}{\left( {\left( {Y \circ Y} \right){{\vec 1}_k}} \right)^T} = {\vec 1_m}\vec 1_k^T{\left( {Y \circ Y} \right)^T}$

$\left[ {\begin{array}{*{20}{c}}
{\left\langle {{{\vec x}_1},{{\vec y}_1}} \right\rangle }&{\left\langle {{{\vec x}_1},{{\vec y}_2}} \right\rangle }& \cdots &{\left\langle {{{\vec x}_1},{{\vec y}_n}} \right\rangle } \\
{\left\langle {{{\vec x}_2},{{\vec y}_1}} \right\rangle }&{\left\langle {{{\vec x}_2},{{\vec y}_2}} \right\rangle }& \cdots &{\left\langle {{{\vec x}_2},{{\vec y}_n}} \right\rangle } \\
\vdots & \vdots & \ddots & \vdots \\
{\left\langle {{{\vec x}_m},{{\vec y}_1}} \right\rangle }&{\left\langle {{{\vec x}_m},{{\vec y}_2}} \right\rangle }& \cdots &{\left\langle {{{\vec x}_m},{{\vec y}_n}} \right\rangle }
\end{array}} \right] = \left[ {\begin{array}{*{20}{c}}
{\vec x_1^T} \\
{\vec x_2^T} \\
\vdots \\
{\vec x_m^T}
\end{array}} \right]\left[ {\begin{array}{*{20}{c}}
{{{\vec y}_1}}&{{{\vec y}_2}}& \cdots &{{{\vec y}_n}}
\end{array}} \right] = X{Y^T}$

所以:

上述转化式中出现了 $X{Y^T}$ (矩阵乘) , 矩阵乘在 NumPy 等在很多库中都有高效的实现, 对代码的优化是有好处的.

代码实现

sklearn 中已经包含了用 NumPy 实现的计算 "两个矩阵的成对平方欧氏距离" 的函数 (sklearn.metrics.euclidean_distances), 它利用的就是上面的转化公式. 这里, 我们利用上面的转化公式并借鉴 sklearn, 用 NumPy 重新实现一个轻量级且易于理解的版本:

import numpy as np

def euclidean_distances(x, y, squared=True):

    """Compute pairwise (squared) Euclidean distances.

    """

    assert isinstance(x, np.ndarray) and x.ndim == 2

    assert isinstance(y, np.ndarray) and y.ndim == 2

    assert x.shape[1] == y.shape[1]

    x_square = np.sum(x*x, axis=1, keepdims=True)

    if x is y:

        y_square = x_square.T

    else:

        y_square = np.sum(y*y, axis=1, keepdims=True).T

    distances = np.dot(x, y.T)

    # use inplace operation to accelerate

    distances *= -2

    distances += x_square

    distances += y_square

    # result maybe less than 0 due to floating point rounding errors.

    np.maximum(distances, 0, distances)

    if x is y:

        # Ensure that distances between vectors and themselves are set to 0.0.

        # This may not be the case due to floating point rounding errors.

        distances.flat[::distances.shape[0] + 1] = 0.0

    if not squared:

        np.sqrt(distances, distances)

    return distances

如果想进一步加速, 可以将

x_square = np.sum(x*x, axis=1, keepdims=True)

替换为

x_square = np.expand_dims(np.einsum('ij,ij->i', x, x), axis=1)

将

y_square = np.sum(y*y, axis=1, keepdims=True).T

替换为

y_square = np.expand_dims(np.einsum('ij,ij->i', y, y), axis=0)

使用 np.einsum 的好处是不会产生一个和 x 或 y 同样形状的临时数组 (x*x 或 y*y 会产生一个和 x 或 y 同样形状的临时数组).

PyTorch 中也包含了计算 "两个矩阵的成对平方欧氏距离" 的函数, 不过它利用了如下的转化公式, 感兴趣的朋友可以自己用 NumPy 实现一下.

$\begin{aligned}
\left( {X \circ X} \right){{\vec 1}_k}\vec 1_n^T + {{\vec 1}_m}\vec 1_k^T{\left( {Y \circ Y} \right)^T} - 2X{Y^T} &= \left[ {\begin{array}{*{20}{c}}
{ - 2X}&{\left( {X \circ X} \right){{\vec 1}_k}}&{{{\vec 1}_m}}
\end{array}} \right]\left[ {\begin{array}{*{20}{c}}
{{Y^T}} \\
{\vec 1_n^T} \\
{{{\left( {Y \circ Y} \right)}^T}}
\end{array}} \right] \\
&= \left[ {\begin{array}{*{20}{c}}
{ - 2X}&{\left( {X \circ X} \right){{\vec 1}_k}}&{{{\vec 1}_m}}
\end{array}} \right]{\left[ {\begin{array}{*{20}{c}}
Y&{{{\vec 1}_n}}&{Y \circ Y}
\end{array}} \right]^T} \\
\end{aligned}$

参考

版权声明

版权声明：自由分享，保持署名-非商业用途-非衍生，知识共享3.0协议。

如果你对本文有疑问或建议，欢迎留言！转载请保留版权声明！

如果你觉得本文不错, 也可以用微信赞赏一下哈.

NumPy之计算两个矩阵的成对平方欧氏距离的更多相关文章

【机器学习实战】计算两个矩阵的成对距离（pair-wise distances）
矩阵中每一行是一个样本,计算两个矩阵样本之间的距离,即成对距离(pair-wise distances),可以采用 sklearn 或 scipy 中的函数,方便计算. sklearn: sklear ...
python基础练习题（题目计算两个矩阵相加）
day30 --------------------------------------------------------------- 实例044:矩阵相加题目计算两个矩阵相加. 分析:矩阵可 ...
实现两个矩阵相乘的C语言程序
程序功能:实现两个矩阵相乘的C语言程序,并将其输出代码如下: #include "stdafx.h" #include "windows.h" void Mu ...
机器学习-文本数据-文本的相关性矩阵 1.cosing_similarity(用于计算两两特征之间的相关性)
函数说明: 1. cosing_similarity(array) 输入的样本为array格式,为经过词袋模型编码以后的向量化特征,用于计算两两样本之间的相关性当我们使用词频或者TFidf构造出 ...
OpenCV，计算两幅图像的单应矩阵
平面射影变换是关于其次3维矢量的一种线性变换,可以使用一个非奇异的$3 \times 3$矩阵H表示,$X' = HX$,射影变换也叫做单应(Homography).计算出两幅图像之间的单应矩阵H,那 ...
Python的工具包[0] -> numpy科学计算 -> numpy 库及使用总结
NumPy 目录关于 numpy numpy 库 numpy 基本操作 numpy 复制操作 numpy 计算 numpy 常用函数 1 关于numpy / About numpy NumPy系统是 ...
Numpy科学计算
NumPy介绍 NumPy(Numerical Python)是一个开源的Python科学计算库,用于快速处理任意维度的数组. NumPy支持常见的数组和矩阵操作.对于同样的数值计算任务,使用Nu ...
利用编辑距离(Edit Distance)计算两个字符串的相似度
利用编辑距离(Edit Distance)计算两个字符串的相似度编辑距离(Edit Distance),又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数.许可 ...
【OpenCV学习】计算两幅图像的重叠区域
问题描述:已知两幅图像Image1和Image2,计算出两幅图像的重叠区域,并在Image1和Image2标识出重叠区域. 算法思想: 若两幅图像存在重叠区域,则进行图像匹配后,会得到一张完整的全景图 ...

随机推荐

wangeditor在移动端的web应用
废话不多说,直接上代码前端(前端多说一句,在初始使用阶段,不知道是怎么回事,复制在看云上的文档的配置参数时,一直有错误,后台获取不到$_file,整整一上午,下午上网搜了一下别人的上传图片代码才好用 ...
关于 Blob
博客地址:https://ainyi.com/88 对于 Blob,前端开发中可能比较少遇到:数据库中可使用 Blob 概念,例如 Mysql 存储二进制数据的类型就是 Blob,也就是说图片可存储于 ...
聚类算法——DBSCAN算法原理及公式
聚类的定义聚类就是对大量未知标注的数据集,按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小.聚类算法是无监督的算法. 常见的相似度计算方法闵可夫斯基距离M ...
POJ3255
题目链接:http://poj.org/problem?id=3255 解题思路: 昨晚两点多睡不着翻起来刷<挑战>的题,结果遇到这道求次短路的题,一脸懵逼.想了半小时没什么思路就看他的解 ...
【c#】Visual Studio 的下载及安装
“工欲善其事,必先利其器” 这篇博文我们介绍一下如何正确的安装基于c#使用的vs 2017. 1.首先在官网下载Visual Studio,下载地址:https://www.visualstudio. ...
Excel中遇到的一些问题——持续更新
Q1:excel2007表格里的数字在表格关闭后再打开经常会变成日期格式,怎么解决? A1: 1)打开Excel,选中任意单元格,单击鼠标右键,选择设置单元格格式2)在数字自定义类型中,找到类似[$- ...
特效 css3 渐变背景框
.box{ 子级 position: relative; width: 300px; height: 400px; display: flex; justify-content: center; al ...
sql语句中的删除操作
drop: drop table tb; 删除内容和定义,释放空间.简单来说就是把整个表去掉.以后不能再新增数据,除非新增一个表. truncate: truncate table tb; 删除内容. ...
Java：成员变量、局部变量和静态变量
梳理一下: 根据定义变量位置的不同,可以将变量分成两大类:成员变量和局部变量. 成员变量(俗称全局变量):在类里定义的变量.又分为实例变量和类变量(也成为静态变量). 实例变量:不以static修饰, ...
添加nginx新模块，获取客户真实ip
当前是客户端登录软件后台获取不到客户的真实ip而是云盾的代理ip 为了获取到真实ip后来发现通过配置nginx的read_ip模块就可以了获取客户的真实ip使用Nginx的realip模块当Ngi ...

NumPy之计算两个矩阵的成对平方欧氏距离