编辑: 麒麟兔爷 | 2019-07-04 |
3 类: 1) 剧变, 2) 渐变, 3) 普通.每个视频片段由一段长度为
16 帧的序列组 成, 视频片段之间的重叠帧数设置为
8 帧以避免发 生视频片段间变化分类的漏检.通过一个深度
3 维--190 卷积神经网络分析视频片段的时空信息, 本文所采 用的网络从[2] 中得到启发.网络输出的特征被用于 一个 SVM 分类器, 用于估计视频片段的类别.同时, 具有相同类别的相邻视频片段可以连接成一个 视频片段.然后对视频片段分类的结果进行后处 理, 后处理部分先计算视频片段中首帧和尾帧的颜 色直方图, 然后计算两帧图像颜色直方图之间的 Bhatta-charyya 距离, 如果上述距离足够小, 则该片 段被认为属于普通类别.实验表明, 通过后处理过 程能有效地降低 false-positive 的比例, 特别是对那 些帧间运动较小的场景. 图2 视频片段分类框架 图2所示是本文视频片段检测方法的主要流 程.本文所采用的网络包括
5 层3维卷积层 (如表
1 中所示) , 每层卷积层都包括一个Rectified Linear Unit (ReLU) , 随后是一个池化层, 前两层卷积层分别 还有一个 Local Response Normalization (LRN) 操作. 第6层和第
7 层为全连接层, 分别包括
2048 个神经 元, 最后一层, 也就是第
8 层为一个含有
3 个神经元 的全连接层, 一个神经元对应一个视频片段类别. 跟文献[2]中所述不同的是, 本文采用的网络中, 在前 两层卷积层中采用了批归一化操作. 图2以视频作为输入, 将整个视频分为多个视 频片段, 每个视频片段由
16 帧图像构成, 视频片段 之间的重叠长度为
8 帧.将视频片段输入到 C3D 网 络中, 以最后一层全连接层的输出特征作为 SVM 分 类器的输入并预测视频片段的类别.然后将具有相 同类别的相邻片段进行连接得到更大的片段, 最后 通过后处理部分降低渐变类别的 False-Position. 2.2 视频压缩算法设计 如2.1 中所述, 通过视频片段检测过程, 将一个 完整的视频分为多个视频片段, 视频片段包括
3 类: 剧变、 渐变和普通.因为剧变和渐变都表示当前视 频片段的帧序处于变化中, 因此我们对这两类视频 片段不做处理, 实际上这两类视频片段总长在完整 视频中占比不超过百分之十.我们用普通类别的视 频片段中的首尾两帧来表征整个视频片段, 特别的, 限制视频片段总长度不超过
32 帧, 即如 2.1 中所述 在对具有相同类别的相邻视频片段进行连接时保证 视频片段连接倍数最大为
2 倍.由于我们用一个视 频片段的首尾两帧来表示整段视频片段的信息, 因 此相应的在视频解码时, 需要在帧间做插帧, 同类别 视频片段以及较小的 Bhatta-charyya 距离保证我们 做帧间插帧时能得到比较好的效果.
3 算法具体实现 要训练一个足够准确的网络需要大量的标注好 的数据, 我们准备了两个数据集: 合成数据集和增量 数据集.通过图像混合模型[19] 从正常视频帧序列中 生成足够的剧变和渐变样本数据, 然后将初始的合 成数据集用于训练, 并得到初步的分类器模型.然 后用得到的分类器模型对未标注数据进行预测, 从 中选出结果正确的数据集作为增量数据集.重复上 述过程直到网络模型误差足够小, 再利用最终的数 据集训练得到性能更优的分类器.最终我们得到的 数据集共包括 249,
411 个视频片段, 其中包括 192,