编辑: bingyan8 | 2015-12-23 |
1
1 基于词向量的土木工程监理基本术语构建 词向量( w o r de m b e d d i n g ) [
1 5 ] 是近年来自然语言处理方面 的热门技术, 在训练样本较大的情况下, 通过它可以很好地展 示出不同词汇之间的联系, 并可以简单使用欧氏距离等方法计 算出词间关系, 更好地表示土木工程监理数据.本文通过使用 基于维基中文部分词条及土木工程专项词条的数据集, 使用 w o r d
2 v e c 工具训练得出相关词向量数据, 从而为提高土木工程 监理视频的索引和检索效率提供了基础. 训练集的数据量决定了词向量训练的效果, 为了实现对土 木工程监理视频更加准确与高效的检索, 本文使用包含
2 8万 余词条的中文维基百科词条库作为基础, 维基百科的词条格式 为〈 k e y w o r d ,t e x t 〉 , 其中 k e y w o r d为关键词, t e x t 为关键词的描 述, 例如〈 土木工程, 土木工程是指一切和土、 水、 文化有关的 基础建设的计划、 建造和维修等等〉 .利用这些词条训练得出 了约
9 0余万词向量. 此外, 鉴于土木工程监理相关的很多词条没有收录在维基 词条库中, 因此本文同时通过参考土木工程监理行业的《 土木 工程建筑基本术语》 《 监理文件档案分类明细表》 等相关标准 文件, 挑选出
86 0 0余土木工程监理专项词条, 并将专项词条 整理成〈 s u p e r v i s i o nw o r d , s u p e r v i s i o na n n o t a t i o n 〉 的格式, 例如 〈 钢筋砼, 即为钢筋混凝土〉 .将它们与上述
2 8万多词条合并 后进行训练得到
9 0余万词向量. 虽然总的词向量数变化不大, 但是后者得到的词向量提高 了土木工程监理相关词条处理的准确度.本研究利用后者的 词向量对土木工程监理视频标注进行处理, 转换为以关键帧为 单位的向量集.这样做主要有以下优点: 一是高维向量的空间 结构能使用 R树处理;
二是不同词向量间可以直接通过欧氏 距离得出相互关系, 在检索过程中能够通过简单的距离阈值将 检索出关键词的近义词.
1
2 土木工程监理视频内容的语义划分 随着关键帧提取及图像标注等技术的快速发展, 对视频进 行标注的速度及准确度越来越高, 随之而来的问题是如何对这 些标注视频进行高效的检索.针对这个问题, 本文基于项目组 已有的研究, 通过对相关语义数据进行基于土木工程监理相关 标准文件的规范处理, 构建出一种基于土木工程监理视频的语 义模型. 在实际的土木工程监理视频中, 单个土木工程监理视频的 内容由一个或者多个土木工程监理事件组成, 而土木工程监理 视频内容可以表示为 监理事件( 时间, …) ← 监理对象 +监理场景 其中: 监理对象主要是指人员对象及事物对象, 人员对象包含 施工人员、 监理人员等, 事物对象主要指各种监理工具及监理 资料等.本文对监理对象的划分如图 1所示. 监理场景在本文中主要分为合同管理、 进度管理、 质量管 理、 安全监理、 人员管理、 成本管理六部分. 通过这些划分能够有效增强对土木工程监理视频的理解, 在后文实验中可以看出, 这些工作有效提升了土木功能监理视 频索引及检索的性能.在实际的细分过程中, 例如对于图 2事件 监理人员在楼顶视察施工现场 , 可以按照监理........