编辑: 颜大大i2 | 2019-07-18 |
1 1.1 课题背景和意义
1 1.2 国内外对双语术语自动抽取的相关研究
2 1.2.1 国外的研究情况
2 1.2.2 国内的研究情况
3 1.3 本文研究的思路和目标
3 1.4 相关知识及工具介绍
5 1.4.1 Hadoop 系统.5 1.4.2 条件随机场(CRFs)10 1.4.3 AP 聚类算法
12 第2章若干尝试性实验
15 2.1 中英文术语候选语料生成
15 2.1.1 语言模板的选定
15 2.1.2 语料库的生成
17 2.2 若干尝试性实验
21 2.2.1 基于 CRFs 的词频峰值的抽取算法
22 2.2.2 基于 CRFs 的词频词长积抽取算法
25 2.2.3 基于 AP 聚类的抽取算法
29 2.3 本章小结
30 第3章算法设计
31 3.1 引言
31 3.2 两种算法
31 3.2.1 基于公共子串聚类的优化 LCS 算法.33 3.2.2 基于 CRFs 分词和公共子串聚类的优化 LCS 算法.39 3.3 本章小结
43 第4章实验结果对比分析
44 4.1 引言
44 Abstract V 4.2 测试集的构造及候选语料的生成
44 4.3 结果对比分析
46 4.4 本章小结
48 第5章总结与展望
49 参考文献
50 致谢52 声明52 附录 A 测试集
53 附录 B 结果举例.57 个人简历
62 第1章引言
1 第1章引言 1.1 课题背景和意义 随着当今世界信息量的急剧增加和国际交流的日益频繁, 计算机网络技术普 及和发展,语言障碍愈加明显和严重,对机器翻译的潜在需求也越来越大[1]. 随着机器翻译技术的进步和日趋成熟,将会带动整个社会的信息化水平产生实 质性提高,在各行各业、各种应用中产生难以估量的社会效益和经济效益.近 十几年,机器翻译由于巨大的市场需求和广阔的应用前景,正受到越来越多的 重视.尤其随着互联网时代的来临,大量信息的涌现,据《中国互联网路发展 状况统计报告》显示,截至到
2009 年底,中国网页的总数超过了
160 亿个,大约428T 的数据[2].海量的文本数据信息的出现,一方面对机器翻译的实际需求 更为迫切,另一方面也对机器翻译提出了面向海量文本翻译的更高要求.在这 个背景下,机器翻译的研究价值日益提高.与此同时,随着采用各种语言的信 息资源的飞速增长,我们越来越需要一种新的手段对专业技术信息来有效进行 数据获取和综合. 术语作为特定专业领域中的一般概念词语,有着很强的专业性.它传递了专 业文献尤其是技术文献中复杂领域的知识,对翻译质量和翻译效益有着举足轻 重的影响.它集中地体现和承载了一个学科领域的核心知识,在一定程度上术 语的变化反映了一个学科领域的发展变化.1998 年的计算语言学国际会议 COLING-ACL'
98 上,组织了第一次计算术语学的讨论会(First Workshop on Computational Terminology)[3] . 这次讨论会首次使用了 计算术语学 (Computational Terminology)这个学科名称.之后,术语自动抽取成为信息处理 中的一个很重要的课题.双语术语抽取对信息检索、信息抽取、数据挖掘、机 器翻译、建立领域概念体系等自然语言处理课题的研究,以及深入了解和把握 一个学科领域的发展现状、未来趋向等具有重要的理论和现实意义.如果不及 时提取、分析、理解并解释这些新术语,将势必影响到科学技术信息在大众中 的理解和传播,给信息获取带来不便,同时也会成为中国与国际接轨的障碍;
另一方面,在信息爆炸的今天,传统的手工方式翻译术语已远远不能满足中英 第1章引言