编辑: 麒麟兔爷 2019-07-04

deep learning;

key frame extraction;

inter-frame redundancy - -189 《电子设计工程》 2019年第11期 关键帧并用关键帧来表示整个视频片段的数据.对 应的, 在视频解码端通过帧插值的方法来由关键帧 恢复出整个视频片段的数据.通过三维卷积神经网 络[2] 分析视频帧序列的时间和空间信息对视频片段 进行分类, 每个视频片段由

16 个视频帧构成, 视频 片段分为

3 类: 剧变、 渐变和普通. 要对视频片段进行分类, 我们需要一个足够大 的已经标注数据集, 尽管 TRECVID challenge[1] 和[3] 提 供了一些数据集, 但是通过实验我们发现这些数据 集不足以训练出一个高度准确的 CNN.另外, 这些 数据集主要用来测试和评估不同的技术, 而不应用 于训练.因此, 我们准备了一个足够大的数据集, 包 括清晰且准确的标注, 用于训练足够准确的 CNN, 同 时我们也能将 TRECVID 数据 (包括

390 万帧图像) 用 于测试.我们准备的数据集共包括 249,

411 个视频 片段, 其中包括 192,

321 个剧变和渐变视频片段, 每 个视频片段由

16 帧图像序列组成. 视频片段检测技术[1, 4-5, 13] 中在时序上提取特征, 图1 视频片段变化的不同类别 生成满足视频片段变化模型的时序描述, 然后对视 频片段进行分类.剧变类的时序描述发生在一帧 内, 而渐变类在时序上的变化更平滑.现有的视频 片段检测技术可以被分为两类: 基于空间信息的和 基于时空信息的.前者通过帧间的空间信息特征估 计视频片段的时序描述[1, 4-5, 13] , 很多空间信息特征的 提取是通过颜色直方图[5, 11] , 边缘检测[7] , 相关信息和 熵[8] , 小波[4] , SURF 特征[14] 以及一些其他的方法[9-10, 12, 15] 来实现的.基于空间信息的方法通过帧间采样来提 高处理速度, 而基于时间信息的技术采用光流法来 达到更高的鲁棒性[4, 6] .采用光流法的视频片段检测 技术准确率更高但是其对帧采样的适应性更低, 因 此在计算开销上往往无法达到更高的实时性. 现有的方法中, 最优的方法主要有

4 种, 来自于 [4-5, 13, 16] .但是, 如上所述, 能在性能上达到实时性需 求方法往往不具备足够高的准确率, 而准确率足够 高的方法因为不满足实时性需求而无法在实际场景 中应用.

2 系统方案设计 本文提出的方法通过 CNN 同时考虑视频帧在 时序信息和空间信息, 通过提取视频片段基于时空 信息的特征来对视频片段进行分类.文献[17]提出 一种方法扩展 CNN 的连续性以利用时空信息的优 点.实验表明, CNN 相对于人工设计的特征具备极 大的优势,然而多帧模型要比[17] 中的单帧模型更好.文献[18]中提出一种双通道的 CNN 网络模型用 于提取视频片段特征, 两个网络分别分析视频帧的 空间信息和光流, 相比[17] 中的方法, 文献[18] 得到了极 大的提升. 本文提出的方法是一个完备的系统 , 包括基于 CNN 的分类部分、 视频片段组合部分和后处理部 分.该方法的核心部分主要受到[2] 的启发, 但是和[2] 中所描述的方法不同, 本文提出的方法采用了批归 一化并且准备了满足视频片段检测需求的数据集. 实验表明, 本方法在视频片段检测上的准确率和处 理速度要优于现有方法. 2.1 视频片段分类算法设计 一个完整的视频可被分为多个由视频帧序列组 成的视频片段, 本文提出一种方法对视频片段进行 检测并分类, 视频片段分为

下载(注:源文件不在本站服务器,都将跳转到源网站下载)
备用下载
发帖评论
相关话题
发布一个新话题