论文笔记《Deep Hand: How to Train a CNN on 1 Million Hand Images When Your Data Is Continuous and Weakly Labelled》

一、概述

　　这个是最近的核心工作了，基本上都是靠着这篇paper的model过日子了啊..

　　论文主要讲的是hand gesture recognition，实际上是用googlenet做的一个classification的工作，他的工作也就是在googlenet上做了fine-tuning，那么论文的关键是什么呢...当然就是标题啦..关键工作是CNN+EM，通过EM算法对隐变量参数进行预测，用CNN代替stepE的高斯模型的预测，这样迭代下来，最终训练了在这个值标记了3000张但是有1 Million的数据集上训练了一个CNN模型。

二、state-of-the-Art

　　最牛逼的地方在于解决了对大量continuous且weakly labeled的数据的处理，这个在其他地方也会有很好的应用，所以得了CVPR 2016的oral啊..

　　1. 首次在CNN上用weakly labelled data sets 来训练

　　2.第一次使用posture and pose-independent hand shape classification，也就是当你的pose(手势)固定以后，把它作为一个符号，即使你旋转或者翻转，只要作为刚体的pose不变，那么就是一类的，这个在手语识别和一些其他地方还是有不错的用处的。

　　3.其他都是在自吹自擂..

三、weakly supervised CNN training

　　对他的算法进行了说明，对于一个视频序列而言，首先提取手部画面，然后他对每个image有一个标记，其中识别不出来的术语garbage class，然后通过CNN+Em来迭代计算，这里就是之前说的，用CNN来预测类别来代替传统EM中用Guassian mixtures做概率预测，每次迭代的时候，都会有个新的预测，有时候可能会改变之前的label。然后关键也是每个类别之间的boundaries的改变。

　　然后这里有一句对整体算法最好的一个概括:we solve the problem in an iterative fashion withthe EM algorithm in a HMM setting and use the CNN for modelling p(k|x).

四、一堆废话以及没搞懂的HMM在其中的应用。

　　　　有时间要去彻底弄懂HMM。

五、整体流程

　　1、数据准备

　　　　在数据集上跑我之前的一篇dp跟踪手的程序，得到手部画面的数据集。

　　2、建立字典

　　　　个人理解是不同的数据集的表示不同。这里是把他们统一起来，可能有问题。

　　3、初始化算法

　　　　随机的对整个视频序列进行label，并且认为每个video的开始和结束时garbage class

　　4.隐马尔科夫模型的设置

　　　　这里它是基于一个RASR的开源软件，具体不是很清楚

　　5、CNN训练

　　　　CNN训练的一些tricks

六、拓展-手语识别

　　这里话是前面工作的衍生了，首先把最后fc变回了1024层，整个CNN作为了一个feature提取的工具，然后通过PCA降维到200，具体的实现方法他也是参考的另一篇paper，以后要是用到这里可以去看一下。

七、总结

　　总的来说两点是state of art 的：1、用CNN+EM的方法对大量连续弱标记数据的处理

　　　　　　　　　　　　　　　　　2、在手势识别的时候是pose-independt的。

论文笔记《Deep Hand: How to Train a CNN on 1 Million Hand Images When Your Data Is Continuous and Weakly Labelled》的更多相关文章

《Vision Permutator: A Permutable MLP-Like ArchItecture For Visual Recognition》论文笔记
论文题目:<Vision Permutator: A Permutable MLP-Like ArchItecture For Visual Recognition> 论文作者:Qibin ...
[place recognition]NetVLAD: CNN architecture for weakly supervised place recognition 论文翻译及解析（转）
https://blog.csdn.net/qq_32417287/article/details/80102466 abstract introduction method overview Dee ...
论文笔记系列-Auto-DeepLab:Hierarchical Neural Architecture Search for Semantic Image Segmentation
Pytorch实现代码:https://github.com/MenghaoGuo/AutoDeeplab 创新点 cell-level and network-level search 以往的NAS ...
论文笔记——Rethinking the Inception Architecture for Computer Vision
1. 论文思想 factorized convolutions and aggressive regularization. 本文给出了一些网络设计的技巧. 2. 结果用5G的计算量和25M的参数. ...
论文笔记：Fast Neural Architecture Search of Compact Semantic Segmentation Models via Auxiliary Cells
Fast Neural Architecture Search of Compact Semantic Segmentation Models via Auxiliary Cells 2019-04- ...
论文笔记：ProxylessNAS: Direct Neural Architecture Search on Target Task and Hardware
ProxylessNAS: Direct Neural Architecture Search on Target Task and Hardware 2019-03-19 16:13:18 Pape ...
论文笔记：DARTS: Differentiable Architecture Search
DARTS: Differentiable Architecture Search 2019-03-19 10:04:26accepted by ICLR 2019 Paper:https://arx ...
论文笔记：Progressive Neural Architecture Search
Progressive Neural Architecture Search 2019-03-18 20:28:13 Paper:http://openaccess.thecvf.com/conten ...
论文笔记：Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Image Segmentation
Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Image Segmentation2019-03-18 14:4 ...
论文笔记系列-DARTS: Differentiable Architecture Search
Summary 我的理解就是原本节点和节点之间操作是离散的,因为就是从若干个操作中选择某一个,而作者试图使用softmax和relaxation(松弛化)将操作连续化,所以模型结构搜索的任务就转变成了 ...

随机推荐

ethereum(以太坊)(七)--枚举/映射/构造函数/修改器
pragma solidity ^0.4.10; //枚举类型 contract enumTest{ enum ActionChoices{Left,Right,Straight,Still} // ...
web worker，SSE，WebSocket，AJAX 与后端交互的方式
一 web worker web worker 是运行在后台的 JavaScript,独立于其他脚本,不会影响页面的性能.您可以继续做任何愿意做的事情:点击.选取内容等等,而此时 web worker ...
thinkphp3.2 where 条件查询复查的查询语句
复查的查询语句有的时候,我们希望通过一次的查询就能解决问题,这个时候查询条件往往比较复杂,但是却比多次查询库来的高效. 实在是搞不定的话就直接用$where[‘_string’] = ‘xxxx’, ...
python-无参函数
#!/usr/local/bin/python3 # -*- coding:utf-8 -*- ''' #-----------定义函数---------- def func1(): "te ...
数据分析处理库Pandas——数据透视表
数据按指定的行列值显示求和按行求和按列求和数据求平均备注:按性别计算每个等级船票的平均价格. 备注:每个等级船舱中每种性别获救的平均值,也就是获救的比例. 备注:每种性别未成年人获救的平 ...
笔记-python-standard library-17.7 queue
笔记-python-standard library-17.7 queue 1. queue source code:Lib/queue.py 该模块实现了多生产者,多消费者队列. 此模块实现了所有 ...
linux c 调用子文件函数
今天在学习初级linux c的时候遇到了如下问题:通过主函数调用同路径下的子文件函数调用失败.博主是这样一一解决的: 首先:hello.c: hello.c: #include<bool.c&g ...
Y86模拟器的安装
说白了就几个指令,跟实验楼里面并不完全一样. tar -xvf sim.tar cd sim sudo apt-get install tk sudo ln -s /usr/lib/x86_64-li ...
STM8S PWM输出停止后 IO口电平输出
STM8S有许多定时器支持PWM输出,但在停止定时器后,IO口电平到底是多少呢?或高或低. 因此,为了确定PWM停止输出电平后其对应的值是多少,我们在停止PWM输出时需要对CCMR1寄存器进行设置. ...
HDU 5293 Tree chain problem 树形DP
题意: 给出一棵$n$个节点的树和$m$条链,每条链有一个权值. 从中选出若干条链,两两不相交,并且使得权值之和最大. 分析: 题解 #include <cstdio> #incl ...

论文笔记《Deep Hand: How to Train a CNN on 1 Million Hand Images When Your Data Is Continuous and Weakly Labelled》

论文笔记《Deep Hand: How to Train a CNN on 1 Million Hand Images When Your Data Is Continuous and Weakly Labelled》的更多相关文章

随机推荐

热门专题