背景

在重复图识别领域,对于识别肉眼相同图片,PHash是很有用的,而且算法复杂度很低。它抓住了 ” 人眼对于细节信息不是很敏感 “ 的特性,利用DCT变换把高频信息去掉,再加上合适&简单的二值化方式,使得算法效果比较鲁棒。

PHash算法

  • 附上python代码:
 def phash(image, hash_size=8, highfreq_factor=4):
import scipy.fftpack
img_size = hash_size * highfreq_factor
image = image.convert("L").resize((img_size, img_size), Image.ANTIALIAS)// 1、【预处理】转灰度图,resize
pixels = numpy.asarray(image)
dct = scipy.fftpack.dct(scipy.fftpack.dct(pixels, axis=0), axis=1) //DCT变换
dctlowfreq = dct[:hash_size, :hash_size] //2、只留下直流&&低频变量
med = numpy.median(dctlowfreq) //取中值
diff = dctlowfreq > med //3、【二值化】大于中值为1,小于等于中值为0
return diff

PHash算法其实很简单,主要就3步:

  • 图片预处理
  • DCT变换
  • 二值化

其中图片预处理很简单,这里就不详细讲解了。下面主要给大家直观介绍下DCT变换究竟是什么,还有这里是怎么二值化的。

DCT变换

DCT变换,全称是Discrete Cosine Transform,也就是离散余弦变换,具体的公式跟原理这里就不详述了,具体可以看DCT变换公式&原理

  • DCT变换能把图像转成频谱图,DCT逆变换能把频谱图转回原图,如下图所示。

其中频谱图中,左上角属于低频变量,右下角属于高频变量,然后比较特殊的一点是左上角a[0][0]这点属于直流变量。由于人眼对于细节信息不是很敏感,所以我们在识别肉眼相同级别重复图的时候,只用频谱图中的低频信息就足够了,所以这就是phash中只取DCT低频信息的原因。

怎么理解图片中的低频跟高频

在频谱图中,我们知道左上角那些是低频信息,右下角是高频信息。那么在一张图片中,哪些信息是低频,哪些信息是高频呢?

由于DCT是可逆变换,那么我们可以只用频谱图中某一块进行DCT逆变换,那么就可以直观看到频谱图中这一块代表什么信息?

接下来,我们利用DCT逆变换生成两列图片(如下所示):

  • 【左下角】第一列直接用频谱图左上角N*N的矩阵,进行DCT逆变换生成的图片。
  • 【除左下角】第二列把频谱图中左上角N*N矩阵置0,进行DCT逆变换生成的图片。

从上可以得出结论:

  • 图片中低频信息是那些像素点色块连续的部分
  • 图片中高频信息是那些色块边界点
  • 左上角那一点,属于直流变量,直接置0,影响不大
  • 当N(600)很大的时候,DCT变换可以用坐降噪、压缩

附上代码,方便大家理解

import cv2
import copy
import numpy as np
import matplotlib.pyplot as plt #展示图片
def show_img(img):
plt.imshow(img, cmap='Greys_r')
plt.show() #左上角低频矩阵,进行DCT逆变换
def low_frequency_idct(dct,dct_size):
#非左上角N*N区域置0
dct[dct_size+1:,:] = 0
dct[:,dct_size+1:] = 0
#逆DCT变换
img = cv2.idct(dct)
#展示图片
show_img(img) #把左上角信息清除后,进行DCT逆变换
def hight_frequency_idct(dct,dct_size):
#左上角N*N区域置0
dct[0:dct_size,0:dct_size]=0
#逆DCT变换
img = cv2.idct(dct)
#展示图片
show_img(img) #主函数
def work(image_name, img_size, dct_size):
#图片预处理
img = cv2.imread(image_name,0)
show_img(img)
img = cv2.resize(img,(img_size,img_size),interpolation=cv2.INTER_CUBIC)
show_img(img)
img = np.float32(img)
#DCT变换
dct = cv2.dct(img)
#用左上角,进行逆dct变换
low_frequency_idct(copy.deepcopy(dct),dct_size)
#左上角置0,进行逆dct变换
hight_frequency_idct(copy.deepcopy(dct),dct_size) image_name = '11.png'
img_size = 1000
dct_size = 30
work(image_name,img_size,dct_size)

二值化

目前我们获取到了肉眼最敏感的信息,这里应该怎么二值化呢?

首先我们需要选取一个基准值,然后大于基准值的置1,小于等于基准值的置0。

那么问题来了,怎么选择这个基准值呢?这里有两种方式:

1、均值

由于频谱图左上角那一点(直流变量),就是用原图所有像素点加起来得到的,所以这个点会很大,完全偏离总体的值。

然后这里基准值如果用均值的话,会导致phash值中1的个数会偏少,而且左上角那边大概率是1,右下角那边大概为0。这就会导致phash中0,1的分布不均匀。那么其实对于phash值的特征空间就有一定的缩小很多了。(如上图所示,1个数很少)

PS: 改进策略:去除频谱图中第一行&&第一列的元素。

这样能把一些很离谱的偏离点删除,但是未必偏离点就在第一行&第一列,只是大概率在这里。其实这样还不如直接用中值更加直接。

改进之后效果好很多,但是并没有中值鲁棒。

2、中值

利用中值来当基准值,效果会好很多。phash值中,0,1分布概率一样,并且特征空间比均值大很多。

PHash从0到1的更多相关文章

  1. ZAM 3D 制作简单的3D字幕 流程(二)

    原地址:http://www.cnblogs.com/yk250/p/5663907.html 文中表述仅为本人理解,若有偏差和错误请指正! 接着 ZAM 3D 制作简单的3D字幕 流程(一) .本篇 ...

  2. ZAM 3D 制作3D动画字幕 用于Xaml导出

    原地址-> http://www.cnblogs.com/yk250/p/5662788.html 介绍:对经常使用Blend做动画的人来说,ZAM 3D 也很好上手,专业制作3D素材的XAML ...

  3. 微信小程序省市区选择器对接数据库

    前言,小程序本身是带有地区选着器的(网站:https://mp.weixin.qq.com/debug/wxadoc/dev/component/picker.html),由于自己开发的程序的数据是很 ...

  4. osg编译日志

    1>------ 已启动全部重新生成: 项目: ZERO_CHECK, 配置: Debug x64 ------1> Checking Build System1> CMake do ...

  5. 【AR实验室】OpenGL ES绘制相机(OpenGL ES 1.0版本)

    0x00 - 前言 之前做一些移动端的AR应用以及目前看到的一些AR应用,基本上都是这样一个套路:手机背景显示现实场景,然后在该背景上进行图形学绘制.至于图形学绘制时,相机外参的解算使用的是V-SLA ...

  6. Elasticsearch 5.0 中term 查询和match 查询的认识

    Elasticsearch 5.0 关于term query和match query的认识 一.基本情况 前言:term query和match query牵扯的东西比较多,例如分词器.mapping ...

  7. Swift3.0服务端开发(一) 完整示例概述及Perfect环境搭建与配置(服务端+iOS端)

    本篇博客算是一个开头,接下来会持续更新使用Swift3.0开发服务端相关的博客.当然,我们使用目前使用Swift开发服务端较为成熟的框架Perfect来实现.Perfect框架是加拿大一个创业团队开发 ...

  8. vue2.0实践的一些细节

    最近用vue2.0做了个活动.做完了回头发现,好像并没有太多的技术难点,而自己好像又做了比较久...只能说效率有待提升啊...简单总结了一些比较细节的点. 1.对于一些已知肯定会有数据的模块,先用一个 ...

  9. Linux平台 Oracle 10gR2(10.2.0.5)RAC安装 Part3:db安装和升级

    Linux平台 Oracle 10gR2(10.2.0.5)RAC安装 Part3:db安装和升级 环境:OEL 5.7 + Oracle 10.2.0.5 RAC 5.安装Database软件 5. ...

随机推荐

  1. linux后台开发常用调试工具

    一.编译阶段         nm                 获取二进制文件包含的符号信息 strings           获取二进制文件包含的字符串常量 strip             ...

  2. python之 栈与队列

    忍不住想报一句粗口"卧槽"这尼玛python的数据结构也太特么方便了吧 想到当初学c语言的数据结构的时候,真的是一笔一划都要自己写出来,这python尼玛直接一个模块就ok 真的是 ...

  3. MFC详解

    MFC的消息响应机制详解: 1.MFC是Windows下程序设计的最流行的一个类库,但是该类库比较庞杂,尤其是它的消息映射机制,更是涉及到很多低层的东西,接下来详细讲解. 2.在讲解MFC的消息响应之 ...

  4. (一)廖师兄springboot微信点餐SQL建表脚本

      数据库设计 数据库表之间的关系 类目表(product_category) 商品表(product_info) 订单主表(order_master) 订单详情表(order_detail) 卖家信 ...

  5. .NET 开源工作流: Slickflow流程引擎高级开发(八) -- 审批网关(ApprovalOrSplit)模式的应用

    前言:业务流程流转过程中,审批类型的节点是比较常见的,在审批操作中,常见的操作就是就是主管人员对待办事项进行同意或者拒绝.所以网关处理节点,就是需要对这两种审批结果进行预备处理,审批网关是在或分支(O ...

  6. 面试必看!靠着这份字节和腾讯的面经,我成功拿下了offer!

    准备 敲定了方向和目标后就开始系统准备,主要分为以下几个方面来准备. 算法题 事先已经看过别人的社招面经知道头条每轮技术面都有算法题,而这一块平时练习的比较少,校招时刷的题也忘记了很多.因此系统复习的 ...

  7. ABBYY FineReader 15 文档转换功能

    我们平常工作的时候总会固定地只用某几个文档格式,有的人经常使用office,所以电脑内就没安装PDF阅读器,这个时候就需要文档转换器了,ABBYY FineReader 15 也能够帮助我们实现快速的 ...

  8. 模拟赛38 B. T形覆盖 大模拟

    题目描述 如果玩过俄罗斯方块,应该见过如下图形: 我们称它为一个 \(T\) 形四格拼板 .其中心被标记为\(×\). 小苗画了一个 \(m\) 行 \(n\) 列的长方形网格.行从 \(0\) 至 ...

  9. laravel 返回SQL

    默认情况下,toSql 获取到的 sql 里面的参数使用 "?" 代替的,如下: 1 DB::table('user')->where('id', 1)->toSql( ...

  10. 自学linux——13.Linux下mysql的安装

    MySQL数据库 1.数据库联系 2.软件安装 (1)源码包安装 优点:开源,可以修改源代码编译安装,更加适合自己的系统,稳定高效 缺点:安装步骤较多,容易出错编译过程时间较长 常用语法: #tar  ...