重在图像的定位和检测的内容. 一张图片中只有一种给定类别标签的对象,定位则是图像中有对象框:再这些类中,每一个训练目标都有一个类和许多的图像内部对应类的位置选框. 猜想的仅是类标签,不如说它们是位置选框.正确的位置选框,代表你的结果很接近分割的准确率. 研究定位的简单有用基础的范式,就是回归. 这张图片经过一系列的处理过程,最终生成四个代表选框大小的实数,有很多不同的参数来描述选框,人们常用的是用XY坐标定位选框的左上角 .宽度和高度,还有一些ground truth(真实准确的选框),计算欧…
分类与回归 分类(Classification)与回归(Regression)的区别在于输出变量的类型.通俗理解,定量输出称为回归,或者说是连续变量预测:定性输出称为分类,或者说是离散变量预测. 回归问题的预测结果是连续的,通常是用来预测一个值,如预测房价.未来的天气情况等等.一个比较常见的回归算法是线性回归算法(LR,Linear Regression).回归分析用在神经网络上,其最上层不需要加上softmax函数,而是直接对前一层累加即可.回归是对真实值的一种逼近预测. 分类问题的预测结果是…
本文大部分内容总结于其他文章 1.介绍 HOG(Histogram of Oriented Gradient)是2005年CVPR会议上,法国国家计算机科学及自动控制研究所的Dalal等人提出的一种解决人体目标检测的图像描述子,该方法使用梯度方向直方图(Histogram of Oriented Gradients,简称HOG)特征来表达人体,提取人体的外形信息和运动信息,形成丰富的特征集.   2.生成过程 1)图像归一化 归一化图像的主要目的是提高检测器对光照的鲁棒性,因为实际的人体目标可能…
Canny 边缘检测算法 Steps: 高斯滤波平滑 计算梯度大小和方向 非极大值抑制 双阈值检测和连接 代码结构: Canny Edge Detection | Gaussian_Smoothing | | convolution.py | | | convolution() | | gaussion_smoothing.py | | | dnorm() | | | gaussian_kernel() | | | gaussian_blur() | Sobel_Filter | | sobel…
论文标题:OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks 标题翻译:OverFeat:使用卷积神经网络集成识别,定位和检测 论文作者:Pierre Sermanet  David Eigen  Xiang Zhang  Michael Mathieu  Rob Fergus  Yann LeCun 论文地址:https://arxiv.org/pdf/1312.62…
目标:我们有几个类别,然后我们要在这张图中找到这些类的所有实例 解决思路:是否可以按照回归的思路进行求解呢? 但是受限制于确定的种类输出问题. 方法:分类和回归是解决问题的两个套路,我们现在对于目标的探测问题不把它看作是回归问题, 而是看作是分类问题.所以我们将一张图片的一部分作为分类器的输入,进行判断:再重复运行判断. 问题:如何确定窗口的大小? 答案就是把所以尺寸都是一次,但是这是低效的方法,太多不确定.同时需要加入两个东西:背景的类和多标签的分类(你可以加入很多正值,不计算softmax损…
在(一)中,我将肺结节检测项目总结为三阶段,这里我要讲讲这个项目的第三阶段,至于第二阶段,由于数据增强部分的代码我始终看不大懂,先不讲. 结果评估的程序在evaluationScript文件夹下,这个文件夹下的文件名比较烦,看的比较懵. annotations文件夹里面放的是结节标签文件,无关结节标签文件(是结节,但是不统计在内,也不作为非结节区域,就是评估的时候如果你检测到了它,既不算正确,也不算错误,略过),还有用户id文件. tool文件夹放的是读取csv文件的模块. frocwrtdet…
CS231n Winter 2016: Lecture 8 : Localization and Detection CS231n Winter 2017: Lecture 11: Detection and Segmentation https://zhuanlan.zhihu.com/qianxiaosi 本篇整理得比较杂,毕竟这一块小知识点较多,故,这里只是笔记收集,暂且不能称之为笔记整理. 以下三篇博文读来甚好,推荐: [目标检测]RCNN算法详解 [目标检测]Fast RCNN算法详解…
2014 ICLR 纽约大学 LeCun团队 Pierre Sermanet, David Eigen, Xiang Zhang, Michael Mathieu, Rob Fergus, Yann LeCun 简单介绍(What) Ovefeat是2013年ImageNet定位任务的冠军,同时在分类和检测任务也取得了不错的结果. 它用一个共享的CNN来同时处理图像分类,定位,检测三个任务,可以提升三个任务的表现. 它用CNN有效地实现了一个多尺度的,滑动窗口的方法,来处理任务. 提出了一种方法…
细粒度图像识别Object-Part Attention Driven Discriminative Localization for Fine-grained Image Classification(OPADDL) 论文笔记 原文:"Object-Part Attention Model for Fine-grained Image Classification", IEEE Transactions on Image Processing (TIP), Vol. 27, No.…
Lukas Neuman--[ICDAR2015]Efficient Scene Text Localization and Recognition with Local Character Refinement 算法介绍 Fig. 2. Overview of the method. Initial text hypotheses efficiently generatedby a MSER detector are further refined using a local text mod…
一点最重要的学习方法:  当你读一篇论文读不懂时,如果又读了两遍还是懵懵懂懂时怎么办???方法就是别自己死磕了,去百度一下,如果是很好的论文,大多数肯定已经有人读过并作为笔记了的,比如我现在就把我读过以后的收获记下来(我也看了好几篇前人的博文的)...百度没有去试试google吧...如何快速读懂读明白一篇文章也是一种能力,选择的方法往往大于努力的. 对于这篇论文,网上有很多写的好的总结,大家可以去看,以下我写的内容零零散散,建议大家不要浪费时间看了哦. 文章基于 ILSVRC2013 的数据集…
本文为作者原创,转载请注明出处(http://www.cnblogs.com/mar-q/)by 负赑屃 最近事情比较多,前面坑挖的有点久,今天终于有时间总结一下,顺便把Windows下训练跑通.Linux训练建议仔细阅读https://zhuanlan.zhihu.com/p/27469690,我借鉴颇多,此外还可以参考GitHub上的官方文档https://github.com/tensorflow/models/tree/master/research/object_detection.…
1. Semantic Segmentation 把每个像素分类到某个语义. 为了减少运算量,会先降采样再升采样.降采样一般用池化层,升采样有各种"Unpooling"."Transpose Convolution"(文献中也叫"Upconvolution"之类的其他名字). 这个问题的训练数据的获得非常昂贵,因为需要一个像素一个像素的贴标签. 2. Classification + Localizatoin 一般用同一个网络,一方面得出分类,一…
1. 异常检测 VS 监督学习 0x1:异常检测算法和监督学习算法的对比 总结来讲: . 在异常检测中,异常点是少之又少,大部分是正常样本,异常只是相对小概率事件 . 异常点的特征表现非常不集中,即异常种类非常多,千奇百怪.直白地说:正常的情况大同小异,而异常各不相同.这种情况用有限的正例样本(异常点)给有监督模型学习就很难从中学到有效的规律 0x2:常见的有监督学习检测算法 这块主要依靠庞大的打标样本,借助像DLearn这样的网络对打标训练样本进行拟合 0x3:常见的异常检测算法 基于模型的技…
0 - Abstract 深度神经网络(DNNs)最近在图像分类任务上表现出了突出的性能.在这篇文章中,我们进一步深入探究使用DNNs进行目标检测的问题,这个问题不仅需要对物体进行分类,并且还需要对各种各样类别的物体进行精确定位.我们提出了简单但依然有效的将目标检测问题形式化为回归问题从而来对物体边界框进行定位.我们提出了一个多尺度推理程序(模型?),它可以通过应用少量网络层来产生高分辨率的具有小误差的目标检测.并在Pascal VOC上展示了当前最好方法的效果. 1 - Introductio…
0 - 摘要 我们提出了YOLO,一种新的物体检测方法.之前的物体检测工作是通过重新使用分类器来进行检测.相反,我们将对象检测抽象为一个回归问题,描述为以空间分隔的边界框和相关的类别概率.一个简单的神经网络通过对完整图片的一次检验直接预测出边界框和分类类别.因为整个识别的依据是一个单一的网络,所以可以在检测性能上进行端到端优化. 我们整体的框架非常快.我们的基础模型YOLO实时处理图片速度达到45帧/秒.我们网络的一个小规模版本,Fast YOLO,达到了惊人的处理155帧/秒的图片速率,并且仍…
1. Semantic Segmentation 把每个像素分类到某个语义. 为了减少运算量,会先降采样再升采样.降采样一般用池化层,升采样有各种“Unpooling”.“Transpose Convolution”(文献中也叫“Upconvolution”之类的其他名字). 这个问题的训练数据的获得非常昂贵,因为需要一个像素一个像素的贴标签. 2. Classification + Localizatoin 一般用同一个网络,一方面得出分类,一方面得出Bounding box的位置和大小. 3…
Xiang Bai--[arXiv2016]Scene Text Detection via Holistic, Multi-Channel Prediction 目录 作者和相关链接 方法概括 创新点和贡献 方法细节 实验结果 问题讨论 总结与收获点 参考文献 作者和相关链接 作者 白翔个人主页 论文下载 方法概括  Step 1: 用修改版的hed(参考文献1)得到text region map(binary), character map(binary), linking orientat…
Xiang Bai--[CVPR2016]Multi-Oriented Text Detection with Fully Convolutional Networks 目录 作者和相关链接 方法概括 方法细节 创新点和贡献 实验结果 问题讨论 总结与收获点 作者和相关链接 作者: paper下载 方法概括 Step 1--文本块检测: 先利用text-block FCN得到salient map,再对salient map进行连通分量分析得到text block: Step 2--文本线形成:…
"Speed/accuracy trade-offs for modern convolutional object detectors." Huang J, Rathod V, Sun C, Zhu M, Korattikara A, Fathi A, Fischer I, Wojna Z, Song Y, Guadarrama S, Murphy K, CVPR 2017 ------------------------------------ 本文为作者原创,转载请注明出处(ht…
3.1 MNIST 本章介绍分类,使用MNIST数据集.该数据集包含七万个手写数字图片.使用Scikit-Learn函数即可下载该数据集: >>> from sklearn.datasets import fetch_mldata >>> mnist = fetch_mldata('MNIST original') >>> X, y = mnist["data"], mnist["target"] >>…
善始善终,这篇文章是Coursera课程Robotics: Estimation and Learning最后一周的课程总结.里面的小哥讲得不是很清晰,留下的作业很花功夫(第二周课程也是酱紫). 这周讲的是使用蒙特卡罗定位法(Monte Carlo Localization,也作Particle Filter Localization)进行机器人定位(Localization).这篇总结分为两部分: 问题介绍和算法步骤 使用雷达数据进行的小实验 1. 蒙特卡罗定位 在第三周中,我们讲到了机器人在…
一.概念 复杂网络:现实生活中各种系统都可以看做成复杂网络,复杂网络构成包括节点和边,节点是网络中的基本组成单元,节点之间的联系或者关系是网络中的边.例如 电力网络:基站代表节点,基站之间是否互通表示边: 社交网络:用户代表节点,用户的关注关系表示边: 万维网络:网页代表节点,网页的链接关系代表边: 交通运输网络,神经网络,经济贸易网络,科学家合作网络等等 社区发现:社区发现在数据挖掘领域有重要的作用,在一个网络中,如果一个团体有共同的爱好或者特征,并紧密联系在一起,那么我们称网络中这个小集体为…
原文地址:智能单元 图像分类:所谓图像分类问题,就是已有固定的分类标签集合,然后对于输入的图像按照标签类别,将其打上标签. 下面先介绍一下一个简单的图像如何利用计算机进行分类: 例子:以下图为例,图像分类模型读取该图片,并生成该图片属于集合 {cat, dog, hat, mug}中各个标签的概率.需要注意的是,对于计算机来说,图像是一个由数字组成的巨大的3维数组.在这个例子中,猫的图像大小是宽248像素,高400像素,有3个 v颜色通道,分别是红.绿和蓝(简称RGB).如此,该图像就包含了24…
在机器学习或者是模式识别其中有一种重要的分类器叫做:SVM .这个被广泛的应用于各个领域.可是其计算的复杂度以及训练的速度是制约其在实时的计算机应用的主要原因.因此也非常非常多的算法被提出来.如SMO,Kernel的方法. 可是这里要提到的 Regularized least-squares classification 是一个和他有着相同的效果的分类器.比較而言计算却比較的简单(We see that a Regularized Least-Squares Classification pro…
一. abstract 这些年来,目标检测取得了令人瞩目的成就.尽管改进很大,但对于小目标和大目标的检测性能差异还是蛮大的.我们在 MS COCO 数据集上分析了如今一个比较先进的算法,Mask-RCNN.我们发现小目标的 GT 和检测框之间 IOU 远小于期望的阈值(比如0.5).我们推测这是由于两个因素: 1) 包含小目标的图片的数量忒少, 2) 即使每张图片里都有小目标,这些小目标在整图中占比也太少了.因此我们建议对这些包含小目标的图像进行 oversample,并通过多次复制粘贴小目标的…
1. 蒙特卡罗定位 定位:机器人知道地图信息的情况下如何利用传感器信息确定自己的位置(Localization). 有人会说,定位是不需要地图信息的.机器人知道初始位置,知道左右轮的速度,就可以算出在一段时间内左右轮分别走了多少距离,进而算出机器人的转角和位移,以便更新位置信息.但是显然,这种方法存在很大的问题.首先,速度是传感器获得的,然而传感器是有精度限制的,这就意味着误差的存在,对时间积分求距离误差就更大了:另外,机器人也可能存在打滑之类的机械问题.结合地图来对机器人进行定位能有效减小误差…
目录 概 主要内容 Sermanet P., Eigen D., Zhang X., Mathieu M., Fergus R., LeCun Y. OverFeat:integrated recognition, localization and detection using convolutional networks. In International Conference on Learning Representations (ICLR), 2014. 概 通常的sliding wi…
A review of applications in federated learning Authors Li Li, Yuxi Fan, Mike Tse, Kuo-Yi Lin Keywords Federated learning; Literature review; Citation analysis; Research front Abstract FL是一种协作地分散式隐私保护技术,它的目标是克服数据孤岛与数据隐私的挑战.本研究旨在回顾目前在工业工程中的应用,以指导未来的落地应…