编辑: 被控制998 | 2019-07-05 |
在最新版的 NiuTrans 中,包含 当前主流的统计机器翻译模型,即:基于短语的翻译模型,基于层次短语的翻译模型,基于句法(树到串/ 串到树/树到树)的翻译模型.与此同时,NiuTrans 包含中英文的数据预处理工具,以及自主开发的精简且 高效的语言模型工具. 为方便机器翻译研究人员使用, NiuTrans 开发接口对用户开放. 经实验证明, NiuTrans 系统在 NIST 和CWMT 的多个翻译任务中表现出优异的翻译性能. 关键词:NiuTrans;
统计机器翻译;
开源工具包 中图分类号:TP391 文献标识码:A Technical Analysis of NiuTrans Open Source Statistical Machine Translation System LI Qiang, SUN Kun-Jie, LIU Zhuo, XIAO Tong, ZHU Jing-Bo (Northeastern University NLP Lab, Shenyang, Liaoning 110819, China) Abstract: This paper introduces the technical features for the latest version of NiuTrans open source machine translation toolkit. The toolkit supports the state-of-the-art models in statistical machine translation, including the phrase-based model, the hierarchical phrase-based model, and various syntax-based models (tree-to-string/string-to-tree/tree-to-tree). Furthermore, NiuTrans supports a preprocessing module for Chinese/English, and a simple and fast language model. In order to make it easy to use for machine translation researchers, several interfaces are available for further development with NiuTrans. We evaluate the NiuTrans system on the NIST and CWMT translation datasets. Experiments show that NiuTrans exhibits the state-of-the-art translation performance. Key words: NiuTrans;
Statistical Machine Translation;
Open Source Toolkit
1 简介 自1949 年美国人 Weaver 发表 Translation 备忘录并正式提出机器翻译思想以来,机器 翻译已经发展了六十四年. 目前, 性能优异的机器翻译方法不需要人工书写大量的翻译规则, 而是自动从大规模双语平行语料中统计翻译信息, 在翻译的过程中从巨大的搜索空间中搜索 得到翻译结果, 这种基于统计模型的翻译方法称之为统计机器翻译. 在基于统计的机器翻译 模型中,分为基于短语的翻译模型[1][2] ,基于层次短语的翻译模型[3][4] ,基于句法(树到串/ 串到树/树到树)的翻译模型[5][6][7][8][9] .基于短语、层次短语的翻译模型不需要对源语言及 目标语言进行深入的语言学分析, 而是直接利用表层串的对应关系来进行翻译. 与之不同的 ? 收稿日期:
2013 年9月27 日 定稿日期:2013 年10 月13 日 基金项目:国家自然科学基金(61073140;
61272376;
61100089) ;
高等院校博士学科点专项科研基金 (20100042110031) ;
中国博士后基金(2013M530131) ;
中央高校基本科研基金(N100204002) 作者简介:李强(1988―) ,男,博士研究生,主要研究方向为机器翻译;
孙坤杰(1990―) ,男,硕士 研究生,主要研究方向为机器翻译;
刘卓(1989―) ,男,硕士研究生,主要研究方向为机器翻译;
肖桐 (1982―) ,男,博士,主要研究方向为机器翻译;
朱靖波(1973―) ,男,教授,博士生导师,主要研究 方向为机器翻译. 是, 基于句法的翻译模型则主要使用句法分析的结果来指导翻译. 由于句法树可以更加全面 深入地表示句子的结构信息,因此它可以为翻译模型提供更多的依据来进行结构翻译和调 序. NiuTrans[10] 是东北大学自然语言处理实验室开发的一套开源统计机器翻译系统, 是一个 完整构建高质量统计机器翻译系统的平台.目前 NiuTrans 在统一架构下支持上文提到的基 于短语、层次短语、句法的翻译模型.NiuTrans 遵循 GNU 通用公共许可协议1 .自2011 年7月公开发布以来,经过