编辑: 达达恰西瓜 | 2015-08-22 |
1940 年生, 教授, 博士生导师, 主要研究领域为计算机视觉, 多媒体技术. 史元 春, 女,
1967 年生, 在职博士生, 副教授, 主要研究领域为计算机支持的协同工作, 多媒体技术. 本文通讯联系人: 白雪生, 北京 100084, 清华大学计算机科学与技术系信息教研组 本文
1998206216 收到原稿,
1998209217 收到修改稿 ? 1994-2006 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
1 视频镜头的组织问题 1.
1 视频流的分割与镜头描述 根据视频信号的产生原理和编辑特性可知, 一般的视频信号本身是由多段 (摄像机从 RECORD 到STO P 期间所获得的) 连续视频信号通过拼接编辑而成. 在镜头转换处, 帧特性会发生改变. 通过采用针对此特性而设 计的检测算法, 可将连续的视频流分割成一组镜头序列. 在完成分割后, 需要对每个镜头建立内容描述以便于检索. 一种有效的方法是, 用一幅或多幅图像――代 表帧来代表镜头, 从而给用户一个直观的、 可视化的浏览检索界面. 代表帧是一幅能充分反映镜头内容的图像, 一般通过选择镜头视频序列中的图像或对视频流进行拼接(mo saic) 而得到[3] . 1.
2 视频镜头的组织 直接对镜头浏览检索仅适用于镜头较少的情况, 对于较长或内容丰富的视频信号, 分割视频流可能会产生 大量的镜头. 在这种情况下, 若仍对镜头进行浏览检索, 将会面对大量代表帧而变得困难, 因此, 对镜头进行组 织并建立高层索引结构就显得十分必要了. 镜头组织的常用方法是, 对每个镜头根据建立的内容描述先在内容描述空间进行聚类(如对代表帧的差设 阈值) , 再通过时间轴上的聚类以形成高层组织结构. 内容描述一般是通过图像理解技术得到的, 但就目前的技 术水平而言, 建立的镜头内容描述还不能贴切地反映其内容, 自动聚类得到的组织结果也往往与人的要求相距 甚远. 从实用性出发, 镜头组织将不可避免地需要人工交互以保证组织的正确性. 这样, 提供一种方法以便于用 户交互地完成镜头组织则具有十分重要的意义. 聚类算法的缺点在于分类结果由计算机决定, 而分类准则仅是对人的感知的一个近似. 针对这一点, 我们 提出如下思想: 对镜头的内容描述(代表帧) 重排序形成一个新序列, 使得感官意义上相近的代表帧在序列中位 置相距较近, 相差较多的代表帧的位置相距较远. 这样所形成的新序列就提供给用户一个可视化的、 易调整的 组织界面, 用户只需简单的交互就可完成镜头的组织工作.
2 相似顺序图及其求解方法 2.
1 相似距离与相似顺序图 从第
1 节的分析可知, 问题实质上是对镜头序列重排, 使内容描述相近的镜头在新序列中位置相近. 为便 于对序列中相近代表帧的相似性进行定量比较, 我们引入如下的相似距离概念. 定义
1 (相似距离). 已知空间点集{P i, i= 0, 1,. . . ,N }, 根据给定距离定义, 对一条遍历非封闭路径 P i0 , P i1 P iN , 路径长度L 1= ∑ N l=
1 P il-
1 P il 称为该路径的一阶相似距离. 显然, 一阶相似距离仅考虑了序列中相 邻点(1 邻域) 的距离. 进一步地, 考虑了序列中 n 邻域点距离的度量,L n= ∑ n m =
1 W m ・∑ n l= m P il- m P il 称为该路径的 n 阶相似距离, 其中W m (m = 1, 2,n) 分别为对应于序列中位置相差m 的点间距离的权重. 在引入相似距离定义后, 我们可用一个序列相应路径的 n 阶相似距离来作为序列中相邻代表帧相似程度 的度量. 这样, 序列重排问题就可形式化地描述如下. 定义