立即注册
查看: 814|回复: 2

[资料] 基于双流卷积神经网络的改进人体行为识别算法

已绑定手机
发表于 2022-2-27 13:00:01 | 显示全部楼层 |阅读模式 来自 广东省深圳市
摘要:近年来人体行为识别成为计算机视觉领域的一个研究热点,而卷积神经网络 (convolutional neural network,CNN)在图像分类和识别领域取得了重要突破,但是人体行为识别是基于视频分析的,视频包含空间域和时间域两部分的信息;针对基于视频的人体行为识别问题,提出一种改进的双流卷积神经网络(Two-Stream CNN)模型,对于空间域,将视频的单帧 RGB 图像作为输入,送入VGGNet_16模型;对于时间域,将多帧叠加后的光流图像作为输入,送入 Flow_Net 模型;最终将两个模型的 Softmax输出加权融合作为输出结果,得到一个多模型融合的人体行为识别器。基于JHMDB公开数据库的实验,结果证明了改进的双流CNN 在人体行为识别任务上的有效性。

人体行为识别的目的是分析并理解视频中的人体的动 作和行为,与静态图像中二维空间的物体识别不同,行为 识别主要研究如何感知目标对象在图像序列中的时空运动 变化,将人体行为的表现形式从二维空间拓展到了三维时 空。人体行为识别有着重要的理论意义且在很多领域有着 重要的应用价值,如智能监控、视频检索和人机交互等。 随着大规模数据集的涌现,传统算法已经很难满足如 今大数据处理的需求,深度学习成为近几年国内外的研究 热点。深度学习是机器学习领域的重点研究问题,它模拟 人脑认知机制的多层次模型结构,通过组合低层特征形成 更为抽象的高层特征来获得数据更有效的特征表示,相比传统的人工提取特征更适合目标的检测和识别。
卷积神经网络是深度学习模型的典型代表,应用最为广泛,已经成为目前图像识别和语音分析等领域的一个应用热点。在人体行为识别方面,基于卷积神经网络的研究也有很多新进展。Ji等人在传统 CNN 基础上加入时间信息构成三维CNN,将灰度、垂直和水平方向梯度、垂直和水平方向光流信息作为多通道输入,对于多个连续帧通过三维卷积操作实现视频数据在时间和空间维度的特征计算;Karpathy 等人提出双分辨率的CNN 模型,使用原始分辨率和低分辨率的视频帧分别作为输入,学习两个 CNN 模型,并在最后两个全连接层实现数据融合,以实现视频的最终特征描述用于后续识别;Karen 等人提出双流 CNN 模型,将视频数据分成空间静态帧数据流和时域帧间动态数据流,分别将原始单帧 RGB 图像和多帧堆叠的光流图像分别作为两个CNN 模型的输入进行特征提取,最后使用SVM分类器进行行为识别;Cheron 等人提出使用根据人体姿势的关节点分割的单帧 RGB图像和光流图像分别作为两个CNN模型的输入进行特征提取,并使用特征融合策略将视频数据转换为固定维度的特征向量,最后使用SVM分类器进行行为识别。
本文借鉴文献 【4】 中双流卷积神经网络模型中的"双流"概念,提出了一种基于改进双流卷积神经网络的人体行为识别模型,将 VGGNet_16模型应用于双流卷积神经网络的空间流 CNN,替换原始的类 AlexNet 模型,从而加深网络结构;将 Flow__Net 模型应用于双流卷积神经网络的时间流CNN,替换原始的类 AlexNet 模型,使得模型更适用于提取光流图的特征,然后将空间流CNN模型和的时间流CNN模型的输出结果进行加权融合后作为双流 CNN 模型的输出结果,最终得到一个多模型融合的人体行为识别方法。

1、双流卷积神经网络1.1 卷积神经网络
卷积神经网络是一种特殊设计的深层模型,最早应用于图像识别领域。CNN 模型通过卷积和下采样操作自动学习图像特征,并把特征提取和分类输出合并为一个整体,从而获得更高的识别效率和更佳的性能表现。CNN 的核心思想是局部感受野、权值共享以及空间下采样,这使得网络的权值参数个数大幅减少,并获得了对图像位移、尺度、形变的不变性。典型的 CNN 网络结构如图1所示。
1.jpg
这是一个简单的卷积神经网络,共有七层网络结构,其中基础层有卷积层、下采样层和全连接层,卷积层和下采样层是实现特征提取的关键,输出层采用 Softmax 分类器作类别判断。

1.2 双流CNN网络结构
双流卷积神经网络的结构示意图如图 2 所示,该模型的核心在于空间流CNN 和时间流CNN 构成的"双流"结构,其中∶空间流 CNN 以视频的单帧 RGB 图像作为输入,实现人体在空间域上表观信息的特征描述;而时间流 CNN 则是以多帧叠加后的光流图像作为输入,得到关于行为的运动特征表述,从而达到时间和空间互补的目的。针对给定的视频行为样本,首先分别通过时间流 CNN 和空间流CNN 进行特征提取,最终将两个分支的分类结果进行加权融合,以得到关于视频中人体行为类别的最终决策结果。
2.jpg
原始双流卷积神经网络模型结构设计基本 上和 AlexNet 模型是同一种思路,包括5层卷积层和3层全连接层,网络的输入图像尺寸被固定为 224×224。与 AlexNet 相比,原始双流CNN 包含更多的卷积滤波器,第一层卷积层的卷积核尺寸缩小为7×7,卷积步长减小为2,其他层次的参数都与 AlexNet相同。
随着对深度学习研究的深入,现在的网络结构发展呈现出层次结构更深,卷积核尺寸更小,滤波器数量更多,卷积操作步长更小的趋势,这些转变应用在物体检测任务上并获得了较好的效果。目前应用较广泛的深层次卷积神经网络结构有GoogleNet 和 VGGNet 和 ResNet 等。
本文选用 VGGNet一16 模型作为空间流CNN 模型,VGGNet一16是在数据库 ImageNet 上训练得到的具有 1000 个分类 的模 型,在 2014 年 大 规模 视觉 识别挑战赛(ILSVRC)中获得了第二名的成绩。VGGNet一16 模型继承了AlexNet模型的网络框架,采用了16 层的深度网络,包含 13个卷积层和 3层全连接层,与 AlexNet 模型相比,VGGNet一16模型使用了更深的网络,且所有卷积层都使用大小为3×3的卷积核,卷积步长也缩小到1,能够模仿出更大的感受野,且减少了自由参数数目。

更多详细内容请下载附件查看
游客,如果您要查看本帖隐藏内容请回复

已绑定手机
发表于 2023-3-9 17:14:12 | 显示全部楼层 来自 广东省深圳市
基于双流卷积神经网络的改进人体行为识别算法 666
已绑定手机
发表于 2023-9-15 07:29:18 | 显示全部楼层 来自 四川省成都市
感谢分享
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

合作/建议

TEL: 19168984579

工作时间:
周一到周五 9:00-11:30 13:30-19:30
  • 扫一扫关注公众号
  • 扫一扫打开小程序
Copyright © 2013-2024 一牛网 版权所有 All Rights Reserved. 帮助中心|隐私声明|联系我们|手机版|粤ICP备13053961号|营业执照|EDI证
在本版发帖搜索
扫一扫添加微信客服
QQ客服返回顶部
快速回复 返回顶部 返回列表