RGBD动作识别的多视图层融合模型

摘要

基于视觉的动作识别在实践中遇到了不同的挑战，包括从任何角度识别主题，实时处理数据以及在现实环境中提供隐私。甚至识别基于配置文件的人类动作（基于视觉的动作识别的一个子集），在计算机视觉中也是一个巨大的挑战，它构成了理解复杂动作，活动和行为的基础，尤其是在医疗保健应用和视频监控系统中。因此，介绍了一种构建图层特征模型的新方法用于基于配置文件的解决方案，该解决方案允许融合多视图深度图像的功能。该模型能够以63 fps的实时运行速度从多个低复杂度的角度进行识别，以进行基于配置文件的四个动作：站立/行走，坐着，弯腰和躺着。使用Northwestern-UCLA 3D数据集进行的实验得出的平均精度为86.40％。使用i3DPost数据集，该实验的平均精度达到93.00％。使用PSU多视图基于配置文件的动作数据集（一个用于多视点的新数据集，该数据集提供基于配置文件的动作RGBD图像），平均精度达到了99.31％。

1.简介

自2010年以来，动作识别方法得到了越来越多的发展，并已逐步应用于医疗保健应用中，尤其是用于监视老年人。行动分析在调查日常生活活动中正常或异常事件中起重要作用。在此类应用中，必须充分考虑隐私和使用所选技术的便利性这两个关键因素。公认的行为模式是监视复杂活动和行为的系统的重要功能，该系统由构成长期活动结果的几个简短行为组成。例如，睡眠过程涉及站立/行走，坐着和躺着的动作；跌倒过程包括除坐外的上述所有动作。

近来，已经研究并提出了两种用于确定这些动作的主要方法：基于可穿戴传感器的技术和基于视觉的技术。

基于可穿戴惯性传感器的设备尺寸小，功耗低，成本低，并且易于嵌入到其它便携式设备（例如手机和智能手表）中，因此已广泛用于动作识别。用于执行导航的惯性传感器通常包括运动和旋转传感器（例如，加速度计和陀螺仪）。它提供了被跟踪对象的运动，视点，速度和加速度的路径。一些研究已经使用穿戴式传感器，移动电话和智能手表用于识别不同的动作。在某些研究中，重点是检测异常动作，例如跌倒，或者报告正常和异常情况下的状态。此外，要识别复杂的动作，必须在身体的不同位置嵌入多个传感器。惯性传感器的唯一局限在于带来的不便，因为传感器最终必须连接到身体，不方便且麻烦。

对于基于视觉的技术，许多研究都强调使用单视图或多视图方法来识别人类动作。

在单视图方法中，已经使用了四种类型的特征表示：基于关节/基于骨骼，基于运动/流，基于时空体积和基于网格：

（1）基于关节/基于骨骼的表示法定义了人体物理结构的特征并区分了其动作，例如，关节和部位的多级姿势特征，使用骨骼四边形的Fisher向量，人体的时空特征joints-mHOG，来自3D骨架的Lie向量空间，使用15个关节的不变轨迹跟踪，直方图骨架代码字，使用3D骨架的掩盖关节轨迹，具有SVM的3D骨骼关节的姿态特征，以及使用HMM的星状骨骼用于缺少观测值。尽管关节/骨骼估计的复杂性要求跟踪和预测具有良好的准确性，但这些表示仍可实现清晰的人体建模。

（2）基于运动/流的表示是一种基于全局特征的方法，该方法使用对象的运动或流，例如不变运动历史记录量，来自光流轨迹的局部描述符，基于KLT运动的摘录轨迹，发散度-卷曲剪切描述符，使用轮廓和光流的混合特征，运动历史和光流图像，多级运动集，累积运动能量的投影，时空运动描述符的金字塔以及具有遮挡估计的马尔可夫随机场的运动和光流。这些方法不需要精确的背景去除，而是利用需要策略和描述符来管理的获取的，不稳定的特征。

（3）基于体积的表示是通过使用多个框架构建模型的轮廓，形状或表面的堆栈来建模的，例如来自形状历史体积的时空轮廓，来自连续体积的几何属性，时空来自3D点云的形状，来自3D二元立方体时空的小波的时空特征，具有SVM的仿射不变量，使用二元轮廓的时空微体积，视觉的整体体积-运动历史量，以及来自亮度，颜色和方向分量的权重。这些方法获得了详细的模型，但必须处理特征的高维度，这些特征需要无背景的准确人为分割。

（4）基于网格的表示将感兴趣的观察区域划分为单元，网格或重叠块以编码局部特征，例如，定向矩形的网格或直方图，时空小型单元的流量描述符，来自空间网格和矩形光流网格的本地二进制模式直方图，定向梯度直方图的码字特征和光流直方图，多尺寸窗口中的3D兴趣点，运动梯度，以及运动历史，局部二进制模式和定向梯度的直方图的组合。这种方法对于空间域中的特征建模很简单，但是必须处理一些重复的和无关紧要的特征。

尽管单视图方法中描述的四种表示形式通常都不错，但是在监视大面积区域时，由于视角变化，遮挡和信息丢失，单个摄像机将无法确定连续的人体日常生活动作，等等。因此，引入了多视图方法以减轻单视图方法的局限性。

在多视图方法中，可以将方法分为2D和3D方法。

二维方法的示例包括：人体模型结构的基于层的图形表示，使用时空兴趣点进行人体建模和分类的视觉，视图不变动作和运动表示，R变换特征，具有PCA的轮廓特征空间，人体特征的低级特征，使用过渡HMM的光流直方图和关注点词组合，具有SVM的基于轮廓的统一局部二进制模式，具有关键姿势学习的多特征，降维轮廓，在多视图动作图像上使用线性判别分析的动作图，使用具有投票功能的自组织图和贝叶斯框架的姿势原型图，使用卷积神经网络进行多视图动作学习具有长短期记忆的功能，以及具有自动编码器神经网络的多视图动作识别功能，用于学习视图不变的功能。

3D方法的示例是从视图之间的特征重建或建模人体模型，包括金字塔的时空描述符和基于部分的特征（具有诱导的多任务学习），具有描述符的时空逻辑图部分，3D视频的时间形状相似度，图形的圆形FFT特征，多个时间自相似特征的包，DFT从运动的圆形移位不变性和带卷积神经网络的3D全身/姿势词典特征。所有这些3D方法都试图构建一个时空数据模型，该模型能够提高模型精度，从而提高识别率的准确性。

但是，多视图方法有一些缺点。这些方法需要更多的相机，因此成本更高。视点之间的相机校准和模型构建而言，这是一种更为复杂的方法，因此更加耗时。但是，在实际应用中，安装和设置应该简单，灵活并且尽可能容易。寻找在视点之间无校准或自动自校准的系统。

摄像头视野内的人（无论是一台摄像机还是许多摄像机）面临的一个问题是隐私和照明条件。基于视觉和基于配置文件的技术涉及使用RGB或非RGB。前者对隐私构成了严重的问题。使用RGB摄像机在私人区域监视动作会使被监视的人感到不舒服，因为这些图像会更清晰地暴露其物理轮廓。至于照明条件，RGB也容易受到强度的影响。图像通常在昏暗的环境中会变差。深度的方法帮助解决两个问题；物体的粗略深度轮廓足以确定动作，并且深度信息可以防止照明变化问题，这在全天候监视的实际应用中是一个严重的问题。研究中采用的深度方法与多视图方法一起被认为比单视图方法更值得。

对于大多数多视图非RGB结果，需要注意的一个问题是透视图的鲁棒性，视图定向的稳定性以及模型的复杂性。在无标定设置下，研究旨在为融合技术的发展做出贡献，该技术在评估人类动作识别的深度特征方面既强大又简单。已经开发了一个图层融合模型，以便融合来自多视图的深度轮廓特征，并在验证和效率的三重数据集上测试技术。测试的三个数据集是Northwestern-UCLA数据集，i3DPost数据集和用于从各种角度进行多视图动作的PSU数据集。

2.层融合模型

图层融合模型分为三个部分：预处理以提高图像质量；使用单视图层特征提取模块进行人体建模和特征提取；并使用图层特征融合模块从任何角度将特征融合到一个模型中，并分类为动作。系统概述如图1所示。

2.1. 预处理

图1. 预处理

2.2．图层人体特征提取

图2.特征提取

3．测试实验

图3. PSU数据集基于配置文件的操作的两个多视图方案示例。

RGBD动作识别的多视图层融合模型的更多相关文章

Action4D：人群和杂物中的在线动作识别：CVPR209论文阅读
Action4D:人群和杂物中的在线动作识别:CVPR209论文阅读 Action4D: Online Action Recognition in the Crowd and Clutter 论文链接 ...
Django - - - -视图层之视图函数(views)
视图层之视图函数(views) 一个视图函数,简称视图,是一个简单的Python 函数,它接受Web请求并且返回Web响应.响应可以是一张网页的HTML内容,一个重定向,一个404错误,一个XML文档 ...
【Django】视图层说明
[Django视图层] 视图层的主要工作是衔接HTTP请求,Python程序和HTML模板,使他们能够有机互相合作从模型层lou到数据并且反馈.说到视图层的工作就有以下几个方面要说 ■ URL映射对 ...
Django 的路由层视图层模板层
--------------------------------------------------------------通过苦难,走向欢乐.——贝多芬 Django-2的路由层(URLconf) ...
Django的视图层简介
Django的视图层视图函数所谓视图函数,其实就是我们Django项目中各个应用中的views.py文件中定义的每个用来处理URL路由映射到这里的逻辑函数.一个视图函数简称视图,它是个简单的Pyt ...
Django-1版本的路由层、Django的视图层和模板层
一.Django-1版本的路由层(URLconf) URL配置(URLconf)就像Django所支撑网站的目录.它的本质是URL与要为该URL调用的视图函数之间的映射表:我们就是以这种方式告诉Dja ...
Django--路由层、视图层、模版层
路由层: 路由匹配 url(正则表达式,视图函数内存地址) 只要正则匹配到了内容,就不再往下匹配,而是直接运行后面的视图函数匹配首页) url(r'^&', home) 匹配尾页 url(r ...
Django系列（二）：Django的路由层，视图层和模板层
1.Django的路由层 URL配置(URLconf)就像Django所支撑网站的目录.它的本质是URL与要为该URL调用的视图函数之间的映射表:我们就是以这种方式告诉Django,对于客户端发来的某 ...
第十二篇视图层之视图函数(views)-三件套
视图层之视图函数(views) 阅读目录(Content) 视图层之视图函数(views) 一个简单的视图 HttpRequest HttpResponse redirect 函数对比render与 ...

随机推荐

Vue学习(二)-Vue中组件间传值常用的几种方式
版本说明:vue-cli:3.0 主要分为两类: 1.父子组件间的传值 2.非父子组件间的传值 1.父子组件间传值父组件向子组件传值第一种方式: props 父组件嵌套的子组件中,使用v-bind ...
mysqli_fetch_array()、mysqli_fetch_assoc、mysqli_fetch_row()和mysqli_fetch_object()的区别
mysqli_fetch_array() 来使用或输出所有查询的数据. mysqli_fetch_array() 函数从结果集中取得一行作为关联数组,或数字数组,或二者兼有返回根据从结果集取得的行生 ...
LA4851餐厅（求好的坐标的个数）
题意: 有一个m*m的格子,左下角(0,0)右上角(m-1,m-1),网格里面有两个y坐标相同的宾馆(A,B),每个宾馆里面有一个餐厅,一共用n个餐厅,第1,2个都在宾馆里,3,4...在 ...
POJ1328贪心放雷达
题意: 有一个二维坐标,y>0是海,y<=0是陆地,然后只能在y=0的岸边上放雷达,有n个城市需要被监控,问最少放多少个雷达. 思路: 贪心去做就行了,其实题目不 ...
node-OS&Domain&Net&Path
OS--------------------------------------------- Node.js os 模块提供了一些基本的系统操作函数. var os = require(" ...
[花式栈溢出]栈上的 partial overwrite
[花式栈溢出]栈上的 partial overwrite 希望能在这几天对Pwn中的栈上的各种利用和其他一些较小的分支做一个收尾,以便全力投入学习堆的相关知识.初步计划是对照ctf-wiki查缺补漏. ...
Docker搭建开发环境（Nginx+MySQL+PHP）
注意事项 1.像MySQL配置文件.Nginx配置文件.网站根目录这种比较经常操作的需要先使用 docker cp 将文件从容器里复制到主机目录,docker run的时候直接挂载目录就可以了 2.d ...
CodeForces - 879
A 题意:就是一共有n个医生,每个医生上班的时间是第Si天,之后每隔d天去上班,问最少多少天能够访问完这n名医生思路:直接进攻模拟就可以代码: 1 #include<iostream> ...
自定义WPF分页控件
一.分页控件功能说明实现如上图所示的分页控件,需要实现一下几个功能: 可以设置每页能够展示的最大列数(例如每页8列.每页16列等等). 加载的数组总数量超过设置的每页列数后,需分页展示. 可以直接点 ...
Fiddler抓包工具使用记录
前言 Fiddler是一款强大的Web调试代理工具,又称抓包软件,本文记录如何使用Flidder进行抓包 Fiddler官网:https://www.telerik.com/fiddler 下载安装 ...

RGBD动作识别的多视图层融合模型

2.2．图层人体特征提取

RGBD动作识别的多视图层融合模型的更多相关文章

随机推荐

热门专题