Connectionist Text Proposal Network 简介 CTPN是通过VGG16后在特征图上采用3*3窗口进行滑窗,采用与RPN类似的anchor机制,固定width而只预测anchor的y坐标和高度,达到比较精准的text proposal效果.同时,文章的亮点在于引入了RNN,使用BLSTM使得预测更加精准.CTPN在自然场景下文本提取的效果很不错,不同于传统的bottom-up方法,传统方法通过检测单个字符然后再去连接文本线,其准确性主要依赖于单个字符的识别,而且错误…
Weilin Huang——[ECCV2016]Detecting Text in Natural Image with Connectionist Text Proposal Network 目录 作者和相关链接 几个关键的Idea出发点 方法概括 方法细节 实验结果 总结与收获点 作者和相关链接 个人主页:Zhi Tian,黄伟林,Tong He,Pan He,乔宇 作者简单信息: 论文下载:论文传送门 代码下载:代码传送门 几个关键的Idea出发点 文本检测和一般目标检测的不同——文本线是…
前面曾提到过CTPN,这里就学习一下,首先还是老套路,从论文学起吧.这里给出英文原文论文网址供大家阅读:https://arxiv.org/abs/1609.03605. CTPN,以前一直认为缩写一般是从题目的开始依次排序选取首字母的,怕是孤陋寡闻了,全称是“ Detecting Text in Natural Image with Connectionist Text Proposal Network”,翻译过来是基于连接Proposal(直译太难受!!)网络的文本检测. 作者在论文中描述了…
论文标题:Detecting Text in Natural Image with Connectionist Text Proposal Network 论文作者:Zhi Tian , Weilin Huang, Tong He , Pan He , and Yu Qiao 论文源代码的下载地址:https://github.com/tianzhi0549/CTPN 论文代码的下载地址:https://github.com/eragonruan/text-detection-ctpn 论文地址…
摘要:语言模型往往被用于文字识别的后处理阶段,本文将语言模型的先验信息和文字的视觉特征进行交互和增强,从而进一步提升文字识别的性能. 本文分享自华为云社区<Multi-Model Text Recognition Network>,作者:谷雨润一麦 . 语言模型经常被用于文字识别的后处理阶段,用来优化识别结果.但该先验信息是独立作用于识别器的输出,所以之前的方法并没有充分利用该信息.本文提出MATRN,对语义特征和视觉特征之间进行跨模态的特征增强,从而提高识别性能. 方法 方法的流程图如上图所…
Zhuoyao Zhong--[aixiv2016]DeepText A Unified Framework for Text Proposal Generation and Text Detection in Natural Images 目录 作者和相关链接 方法概括 创新点和贡献 方法细节 实验结果 问题讨论 总结与收获点 参考文献 作者和相关链接 作者 Zhuoyao Zhong, z.zhuoyao@mail.scut.sdu.cnLianwen Jin, lianwen.jin@gm…
Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks 简介 Faster R-CNN是很经典的two-stage的目标检测方法,前面看了Selective Search以为在这里可以用到,但是作者在这篇文章里面没有采用Selective Search方法得到候选框,而是采用了Edge Boxes方法得到的候选框,好吧,再去看看这个方法到底快在哪里.Faster R-CNN分为两个过程,第一个过…
读这篇论文“ Multi Column Deep Neural Network for Traffic Sign Classification”是为了更加理解,论文“Multi-column Deep Neural Networks for Image Classification”…
论文<Piexel Recurrent Nerual Network>总结 论文:<Pixel Recurrent Nerual Network> 时间:2016 作者:Aaron van den Oord, Nal Kalchbrenner, Koray Kavukcuoglu 期刊:CCF A类会议 ICML 谷歌学术引用量:326 意义:将RNN和CNN用于像素的生成 由于这篇论文在阅读的时候有一些前置知识不是很懂,因此根据这篇论文的引用,以及引用论文的引用论文大概略读了以下…
[论文理解] CornerNet: Detecting Objects as Paired Keypoints 简介 首先这是一篇anchor free的文章,看了之后觉得方法挺好的,预测左上角和右下角,这样不需要去管anchor了,理论上也就w*h个点,这总比好几万甚至好几十万的anchor容易吧.文章灵感来源于Newell et al. (2017) on Associative Embedding in the context of multi-person pose estimation…
论文笔记: Dual Deep Network for Visual Tracking  2017-10-17 21:57:08  先来看文章的流程吧 ... 可以看到,作者所总结的三个点在于: 1. 文章将 边界和形状信息结合到深度网络中.底层 feature 和 高层 feature 结合起来,得到 coarse prior map,然后用 ICA-R model 得到更加显著的物体轮廓,以得到更好的似然性模型: 2. Dual network 分别处理两路不同的网络,使得前景和背景更加具有…
论文<A Deep Neural Network Compression Pipeline: Pruning, Quantization, Huffman Encoding> Pruning by learning only the important connections. all connections with weights below a threshold are removed from the network. retrain the network to learn the…
[论文理解]关于ResNet的理解 这两天回忆起resnet,感觉残差结构还是不怎么理解(可能当时理解了,时间长了忘了吧),重新梳理一下两点,关于resnet结构的思考. 要解决什么问题 论文的一大贡献就是,证明了即使是深度网络,也可以通过训练达到很好的效果,这跟以往的经验不同,以往由于网络层数的加深,会出现梯度消失的现象.这是因为,在梯度反传的时候,由于层数太深,传递过程又是乘法传递,所以梯度值会越乘越小,梯度消失在所难免.那么怎么才能解决这个问题呢?resnet提供了很好的思路. 怎么解决…
High Performance Visual Tracking with Siamese Region Proposal Network 2018-11-26 18:32:02 Paper:http://openaccess.thecvf.com/content_cvpr_2018/papers/Li_High_Performance_Visual_CVPR_2018_paper.pdf PyTorch Code:https://github.com/songdejia/siamese-RPN…
[论文阅读笔记] Structural Deep Network Embedding 本文结构 解决问题 主要贡献 算法原理 参考文献 (1) 解决问题 现有的表示学习方法大多采用浅层模型,这可能不能捕获具有高度非线性的网络结构,导致学习到一个局部最优的节点向量表示. (2) 主要贡献 Contribution: 提出一个半监督的深度模型SDNE,包含多个非线性层,同时优化一阶和二阶相似度的目标函数来保留原始网络的局部和全局网络结构,因此可能能够捕获高度非线性的网络结构. (3) 算法原理 简单…
[论文阅读笔记] Unsupervised Attributed Network Embedding via Cross Fusion 本文结构 解决问题 主要贡献 算法原理 实验结果 参考文献 (1) 解决问题 现在常常用来处理属性网络表征的方式有两种:(1)在网络结构上传播属性(2)通过自编码器架构. 这两种常用的属性网络表征方法有各自的局限性和优点:(1)基于传播的方法依赖于网络中现有的边来传播信息,因此往往偏向于建模网络结构信息而非节点属性信息,从而更加擅长于处理结构信息(可以通过多层叠…
懒得转成文字再写一遍了,直接把做过的PPT放出来吧. 论文连接:https://link.zhihu.com/?target=https%3A//arxiv.org/pdf/1804.09003v1.pdf          …
这篇经典论文,甚至可以说是2015年最牛的一篇论文,早就有很多人解读,不需要自己着摸,但是看了论文原文Batch normalization: Accelerating deep network training by reducing internal covariate shift 和下面的这些解读之后,还有感觉有些不明白.比如, 是怎么推导出来的,我怎么就是没搞懂呢? 1.论文翻译:论文笔记-Batch Normalization 2.博客专家 黄锦池 的解读:深度学习(二十九)Batch…
Learning Efficient Convolutional Networks through Network Slimming 简介 这是我看的第一篇模型压缩方面的论文,应该也算比较出名的一篇吧,因为很早就对模型压缩比较感兴趣,所以抽了个时间看了一篇,代码也自己实现了一下,觉得还是挺容易的.这篇文章就模型压缩问题提出了一种剪枝针对BN层的剪枝方法,作者通过利用BN层的权重来评估输入channel的score,通过对score进行threshold过滤到score低的channel,在连接的…
一.创新点和解决的问题 创新点 设计Region Proposal Networks[RPN],利用CNN卷积操作后的特征图生成region proposals,代替了Selective Search.EdgeBoxes等方法,速度上提升明显: 训练Region Proposal Networks与检测网络[Fast R-CNN]共享卷积层,大幅提高网络的检测速度. 解决的问题 继Fast R-CNN后,在CPU上实现的区域建议算法Selective Search[2s/image].EdgeB…
在faster-r-cnn 中,因为引入rpn层,使得算法速度变快了不少,其实rpn主要作用预测的是 “相对的平移,缩放尺度”,rpn提取出的proposals通常要和anchor box进行拟合回归,就像 卡尔曼滤波一样,最终结果是基于观测量加上一个预测量.这里将的不错,公式和代码也 切合. 下面部分来源:http://www.cnblogs.com/dudumiaomiao/p/6560841.html主要步骤, 回归/微调: 回归/微调的对象是什么? (4)   Bounding-box…
一.R-FCN初探 1. R-FCN贡献 提出Position-sensitive score maps来解决目标检测的位置敏感性问题: 区域为基础的,全卷积网络的二阶段目标检测框架: 比Faster-RCNN快2.5-20倍(在K40GPU上面使用ResNet-101网络可以达到 0.17 sec/image); 2. R-FCN与传统二阶段网络的异同点 图1 R-FCN与传统二阶段网络的异同点相同点:首先,两者二阶段的检测框架(全卷积子网络+RoI-wise subnetwork); 其次两…
YOLO3主要的改进有:调整了网络结构:利用多尺度特征进行对象检测:对象分类用Logistic取代了softmax. 1.Darknet-53 network在论文中虽然有给网络的图,但我还是简单说一下.这个网络主要是由一系列的1x1和3x3的卷积层组成(每个卷积层后都会跟一个BN层和一个LeakyReLU)层,作者说因为网络中有53个convolutional layers,所以叫做Darknet-53(我数了下,作者说的53包括了全连接层但不包括Residual层).下图就是Darknet-…
概述 YOLO(You Only Look Once: Unified, Real-Time Object Detection)从v1版本进化到了v2版本,作者在darknet主页先行一步放出源代码,论文在我们等候之下终于在12月25日发布出来. 新的YOLO版本论文全名叫“YOLO9000: Better, Faster, Stronger”,主要有两个大方面的改进: 第一,作者使用了一系列的方法对原来的YOLO多目标检测框架进行了改进,在保持原有速度的优势之下,精度上得以提升.VOC 200…
Deep Residual Learning for Image Recognition 简介 这是何大佬的一篇非常经典的神经网络的论文,也就是大名鼎鼎的ResNet残差网络,论文主要通过构建了一种新的网络结构来解决当网络层数过高之后更深层的网络的效果没有稍浅层网络好的问题,并且做出了适当解释,用ResNet很好的解决了这个问题. 背景 深度卷积神经网络已经在图像分类问题中大放异彩了,近来的研究也表明,网络的深度对精度起着至关重要的作用.但是,随着网络的加深,有一个问题值得注意,随着网络一直堆叠…
Region-Based Convolutional Networks for Accurate Object Detection and Segmentation 概括 这是一篇2016年的目标检测的文章,也是一篇比较经典的目标检测的文章.作者介绍到,现在表现最好的方法非常的复杂,而本文的方法,简单又容易理解,并且不需要大量的训练集. 文章的大致脉络如图. 产生region proposal 文章提到了滑窗的方法,由于滑窗的方法缺点非常明显,就是每次只能检测一个aspect ratio,所以确…
持续更新...... 概括:以往很多论文借助深度信息将2D上升到3D,这篇论文则是想要用网络训练代替深度数据(设备成本比较高),提高他的泛性,诠释了只要合成数据集足够大和网络足够强,我就可以不用深度信息.这篇论文的思路很清晰,主要分为三个部分: 1.HandSegNet 2.PoseNet 3.the PosePrior network 第1.2个网络主要是借助 Convolutional Pose Machines 这篇论文的网络进行设置, 通过卷积图层表达纹理信息和空间信息提取出手的位置(只…
论文链接:https://arxiv.org/abs/1903.09784v1 Abstract 社交关系智能代理在人工智能领域中越来越引人关注.为此,我们需要一个可以在不同社会关系上下文中理解社交关系的系统.在给定的视觉场景中推断社会情境不仅涉及对象的识别,而且还需要更深入地了解所涉人员的关系和属性.因此,一种表示人际关系和属性的计算方法是使用显式的知识图谱来进行更高级别的推理.我们介绍了一种新颖的可训练的端到端的神经网络,其能够生成社交关系图-对给定的输入图像中的社交关系和属性进行结构化.统…
论文地址:基于动态注意的递归网络单耳语音增强 论文代码:https://github.com/Andong-Li-speech/DARCN 引用格式:Li, A., Zheng, C., Fan, C., Peng, R., Li, X. (2020) A Recursive Network with Dynamic Attention for Monaural Speech Enhancement. Proc. Interspeech 2020, 2422-2426 摘要 听觉动态注意理论已经…
论文地址:http://www.interspeech2020.org/uploadfile/pdf/Thu-1-10-5.pdf 基于GAN的回声消除 摘要 生成对抗网络(GANs)已成为语音增强(如噪声抑制)中的热门研究主题.通过在对抗性场景中训练噪声抑制算法,基于GAN的解决方案通常会产生良好的性能.在本文中,提出了卷积循环GAN架构(CRGAN-EC),以解决线性和非线性回声情况.所提出的体系结构在频域中进行了训练,并预测了目标语音的时频(TF)掩码.部署了几种度量损失函数,并研究了它们…