摘要

基于视觉的动作识别在实践中遇到了不同的挑战,包括从任何角度识别主题,实时处理数据以及在现实环境中提供隐私。甚至识别基于配置文件的人类动作(基于视觉的动作识别的一个子集),在计算机视觉中也是一个巨大的挑战,它构成了理解复杂动作,活动和行为的基础,尤其是在医疗保健应用和视频监控系统中。因此,介绍了一种构建图层特征模型的新方法用于基于配置文件的解决方案,该解决方案允许融合多视图深度图像的功能。该模型能够以63 fps的实时运行速度从多个低复杂度的角度进行识别,以进行基于配置文件的四个动作:站立/行走,坐着,弯腰和躺着。使用Northwestern-UCLA 3D数据集进行的实验得出的平均精度为86.40%。使用i3DPost数据集,该实验的平均精度达到93.00%。使用PSU多视图基于配置文件的动作数据集(一个用于多视点的新数据集,该数据集提供基于配置文件的动作RGBD图像),平均精度达到了99.31%。

1.简介

自2010年以来,动作识别方法得到了越来越多的发展,并已逐步应用于医疗保健应用中,尤其是用于监视老年人。行动分析在调查日常生活活动中正常或异常事件中起重要作用。在此类应用中,必须充分考虑隐私和使用所选技术的便利性这两个关键因素。公认的行为模式是监视复杂活动和行为的系统的重要功能,该系统由构成长期活动结果的几个简短行为组成。例如,睡眠过程涉及站立/行走,坐着和躺着的动作;跌倒过程包括除坐外的上述所有动作。

近来,已经研究并提出了两种用于确定这些动作的主要方法:基于可穿戴传感器的技术和基于视觉的技术。

基于可穿戴惯性传感器的设备尺寸小,功耗低,成本低,并且易于嵌入到其它便携式设备(例如手机和智能手表)中,因此已广泛用于动作识别。用于执行导航的惯性传感器通常包括运动和旋转传感器(例如,加速度计和陀螺仪)。它提供了被跟踪对象的运动,视点,速度和加速度的路径。一些研究已经使用穿戴式传感器,移动电话和智能手表用于识别不同的动作。在某些研究中,重点是检测异常动作,例如跌倒,或者报告正常和异常情况下的状态。此外,要识别复杂的动作,必须在身体的不同位置嵌入多个传感器。惯性传感器的唯一局限在于带来的不便,因为传感器最终必须连接到身体,不方便且麻烦。

对于基于视觉的技术,许多研究都强调使用单视图或多视图方法来识别人类动作。

在单视图方法中,已经使用了四种类型的特征表示:基于关节/基于骨骼,基于运动/流,基于时空体积和基于网格:

(1)基于关节/基于骨骼的表示法定义了人体物理结构的特征并区分了其动作,例如,关节和部位的多级姿势特征,使用骨骼四边形的Fisher向量,人体的时空特征joints-mHOG,来自3D骨架的Lie向量空间,使用15个关节的不变轨迹跟踪,直方图骨架代码字,使用3D骨架的掩盖关节轨迹,具有SVM的3D骨骼关节的姿态特征,以及使用HMM的星状骨骼用于缺少观测值。尽管关节/骨骼估计的复杂性要求跟踪和预测具有良好的准确性,但这些表示仍可实现清晰的人体建模。

(2)基于运动/流的表示是一种基于全局特征的方法,该方法使用对象的运动或流,例如不变运动历史记录量,来自光流轨迹的局部描述符,基于KLT运动的摘录轨迹,发散度-卷曲剪切描述符,使用轮廓和光流的混合特征,运动历史和光流图像,多级运动集,累积运动能量的投影,时空运动描述符的金字塔以及具有遮挡估计的马尔可夫随机场的运动和光流。这些方法不需要精确的背景去除,而是利用需要策略和描述符来管理的获取的,不稳定的特征。

(3)基于体积的表示是通过使用多个框架构建模型的轮廓,形状或表面的堆栈来建模的,例如来自形状历史体积的时空轮廓,来自连续体积的几何属性,时空来自3D点云的形状,来自3D二元立方体时空的小波的时空特征,具有SVM的仿射不变量,使用二元轮廓的时空微体积,视觉的整体体积-运动历史量,以及来自亮度,颜色和方向分量的权重。这些方法获得了详细的模型,但必须处理特征的高维度,这些特征需要无背景的准确人为分割。

(4)基于网格的表示将感兴趣的观察区域划分为单元,网格或重叠块以编码局部特征,例如,定向矩形的网格或直方图,时空小型单元的流量描述符,来自空间网格和矩形光流网格的本地二进制模式直方图,定向梯度直方图的码字特征和光流直方图,多尺寸窗口中的3D兴趣点,运动梯度,以及运动历史,局部二进制模式和定向梯度的直方图的组合。这种方法对于空间域中的特征建模很简单,但是必须处理一些重复的和无关紧要的特征。

尽管单视图方法中描述的四种表示形式通常都不错,但是在监视大面积区域时,由于视角变化,遮挡和信息丢失,单个摄像机将无法确定连续的人体日常生活动作,等等。因此,引入了多视图方法以减轻单视图方法的局限性。

在多视图方法中,可以将方法分为2D和3D方法。

二维方法的示例包括:人体模型结构的基于层的图形表示,使用时空兴趣点进行人体建模和分类的视觉,视图不变动作和运动表示,R变换特征,具有PCA的轮廓特征空间,人体特征的低级特征,使用过渡HMM的光流直方图和关注点词组合,具有SVM的基于轮廓的统一局部二进制模式,具有关键姿势学习的多特征,降维轮廓,在多视图动作图像上使用线性判别分析的动作图,使用具有投票功能的自组织图和贝叶斯框架的姿势原型图,使用卷积神经网络进行多视图动作学习具有长短期记忆的功能,以及具有自动编码器神经网络的多视图动作识别功能,用于学习视图不变的功能。

3D方法的示例是从视图之间的特征重建或建模人体模型,包括金字塔的时空描述符和基于部分的特征(具有诱导的多任务学习),具有描述符的时空逻辑图部分,3D视频的时间形状相似度,图形的圆形FFT特征,多个时间自相似特征的包,DFT从运动的圆形移位不变性和带卷积神经网络的3D全身/姿势词典特征。所有这些3D方法都试图构建一个时空数据模型,该模型能够提高模型精度,从而提高识别率的准确性。

但是,多视图方法有一些缺点。这些方法需要更多的相机,因此成本更高。视点之间的相机校准和模型构建而言,这是一种更为复杂的方法,因此更加耗时。但是,在实际应用中,安装和设置应该简单,灵活并且尽可能容易。寻找在视点之间无校准或自动自校准的系统。

摄像头视野内的人(无论是一台摄像机还是许多摄像机)面临的一个问题是隐私和照明条件。基于视觉和基于配置文件的技术涉及使用RGB或非RGB。前者对隐私构成了严重的问题。使用RGB摄像机在私人区域监视动作会使被监视的人感到不舒服,因为这些图像会更清晰地暴露其物理轮廓。至于照明条件,RGB也容易受到强度的影响。图像通常在昏暗的环境中会变差。深度的方法帮助解决两个问题;物体的粗略深度轮廓足以确定动作,并且深度信息可以防止照明变化问题,这在全天候监视的实际应用中是一个严重的问题。研究中采用的深度方法与多视图方法一起被认为比单视图方法更值得。

对于大多数多视图非RGB结果,需要注意的一个问题是透视图的鲁棒性,视图定向的稳定性以及模型的复杂性。在无标定设置下,研究旨在为融合技术的发展做出贡献,该技术在评估人类动作识别的深度特征方面既强大又简单。已经开发了一个图层融合模型,以便融合来自多视图的深度轮廓特征,并在验证和效率的三重数据集上测试技术。测试的三个数据集是Northwestern-UCLA数据集,i3DPost数据集和用于从各种角度进行多视图动作的PSU数据集。

2.层融合模型

图层融合模型分为三个部分:预处理以提高图像质量;使用单视图层特征提取模块进行人体建模和特征提取;并使用图层特征融合模块从任何角度将特征融合到一个模型中,并分类为动作。系统概述如图1所示。

2.1. 预处理

图1. 预处理

2.2.图层人体特征提取

图2.特征提取

3.测试实验

3.  PSU数据集基于配置文件的操作的两个多视图方案示例。

RGBD动作识别的多视图层融合模型的更多相关文章

  1. Action4D:人群和杂物中的在线动作识别:CVPR209论文阅读

    Action4D:人群和杂物中的在线动作识别:CVPR209论文阅读 Action4D: Online Action Recognition in the Crowd and Clutter 论文链接 ...

  2. Django - - - -视图层之视图函数(views)

    视图层之视图函数(views) 一个视图函数,简称视图,是一个简单的Python 函数,它接受Web请求并且返回Web响应.响应可以是一张网页的HTML内容,一个重定向,一个404错误,一个XML文档 ...

  3. 【Django】 视图层说明

    [Django视图层] 视图层的主要工作是衔接HTTP请求,Python程序和HTML模板,使他们能够有机互相合作从模型层lou到数据并且反馈.说到视图层的工作就有以下几个方面要说 ■ URL映射 对 ...

  4. Django 的路由层 视图层 模板层

    --------------------------------------------------------------通过苦难,走向欢乐.——贝多芬 Django-2的路由层(URLconf) ...

  5. Django的视图层简介

    Django的视图层 视图函数 所谓视图函数,其实就是我们Django项目中各个应用中的views.py文件中定义的每个用来处理URL路由映射到这里的逻辑函数.一个视图函数简称视图,它是个简单的Pyt ...

  6. Django-1版本的路由层、Django的视图层和模板层

    一.Django-1版本的路由层(URLconf) URL配置(URLconf)就像Django所支撑网站的目录.它的本质是URL与要为该URL调用的视图函数之间的映射表:我们就是以这种方式告诉Dja ...

  7. Django--路由层、视图层、模版层

    路由层: 路由匹配 url(正则表达式,视图函数内存地址) 只要正则匹配到了内容,就不再往下匹配,而是直接运行后面的视图函数 匹配首页) url(r'^&', home) 匹配尾页 url(r ...

  8. Django系列(二):Django的路由层,视图层和模板层

    1.Django的路由层 URL配置(URLconf)就像Django所支撑网站的目录.它的本质是URL与要为该URL调用的视图函数之间的映射表:我们就是以这种方式告诉Django,对于客户端发来的某 ...

  9. 第十二篇视图层之视图函数(views)-三件套

    视图层之视图函数(views) 阅读目录(Content) 视图层之视图函数(views) 一个简单的视图 HttpRequest HttpResponse redirect 函数 对比render与 ...

随机推荐

  1. Windows中的权限设置、文件压缩、文件加密、磁盘配额和卷影副本

      目录 权限设置 文件夹的NTFS权限 文件的NTFS权限 NTFS权限的应用规则 文件压缩 文件加密 磁盘配额 卷影副本 权限设置的应用 遇到的一个权限问题的小bug 权限问题的实际应用 权限设置 ...

  2. C/C++ 介绍的PE文件遍历工具

    在前面的笔记中,我总结了Pe结构的一些结构含义,并手动编写了几段PE结构遍历代码,这里我直接把之前的C语言代码进行了封装,形成了一个命令行版的PE文件查看工具,该工具只有20kb,但却可以遍历出大部分 ...

  3. hdu 1867 求两个串的"和"最小 ,KMP

    题意:       给你两个字符串,让你求str1+str2,就是把1的后面和2的前面重叠的地方只显示一遍就行了 abc + bcd = abcd,要求和的长度最小,和最小的前提下求字典序最小,还有就 ...

  4. Python中os模块、csv模块和xlrd模块的使用

    目录 os模块的使用 open("test.txt","mode") 读取文件中的内容 f.read() f.readline(size) f.readline ...

  5. 求曲线y=lnx在区间(2,6)内的一条切线,使得该切线与直线x=2,x=6及曲线y=lnx所围成的图形的面积最小。

    求曲线y=lnx在区间(2,6)内的一条切线,使得该切线与直线x=2,x=6及曲线y=lnx所围成的图形的面积最小. 1.先画图. 2.设切点为(a,lna) (2<a<6) 3.切线方程 ...

  6. 多种方法实现实现全排列 + sort调用标准函数库函数的简述

    全排列:所有不同顺序的元素组组成的一个集合.这里使用使用递归实现全排列. 使用递归算算法呢,首先我们先找一下结束的条件:我们要对一组元素(这里使用数字举例)实现全排列,临界条件就是递归到只有一个元素的 ...

  7. buaaoo_fourth_assignment

    你轻轻地走了 一.架构设计 (1)第一次作业 类图 复杂度分析 如上图是本单元第一次作业的架构设计,由于本人最开始未发现可以直接继承官方的类,所以自己将所用到的各种type都重新建了类,于是这就导致了 ...

  8. PostgreSQL实现字符串拼接

      在日常工作中会遇到将多行的值拼接为一个值展现,如果使用过Oracle数据库,可以使用list_agg的聚合函数来实现.那么PostgreSQL也有这样的功能,函数为string_agg.具体用法如 ...

  9. EasyBPM打印模板的缓存问题

    业务平台EasyBPM(易实管理软件)有一个功能是模板打印的功能.就是可以使用一个docx格式的模板,输出一个docx格式的单据的文档. 打印的逻辑是先从服务端获取模板,如果没有对应的模板,就提示先上 ...

  10. wrk 及扩展支持 tcp 字节流协议压测

    wrk 及扩展支持 tcp 字节流协议压测 高性能.方便使用的 HTTP(s) 的流量压测工具,结合了多个开源项目开发而成: redis 的 ae 事件框架 luajit openssl http-p ...