编辑: ZCYTheFirst | 2017-09-15 |
23 双语语料库(Bilingual Corpora)加工 ? 段落对齐 ? 句子对齐 ? 词对齐 ? 短语对齐
24 双语句子对齐 ? 基于长度(length-based)的对齐方法 Gale &
Church (1993) 纯粹基于句子的长度来估计对齐可能性 资源要求少,算法效率相对较高 ? 基于词(word-based)的对齐方法 一般要依赖词典资源,算法效率相对较低
25 双语句子对齐示例 中国支持在平等参与、协商一致、 求同存异、循序渐进的基础上,开 展多层次、多渠道、多形式的地区 安全对话与合作. 中国参加了东盟地区论坛、亚洲建 立协作与建立信任措施会议、亚太 安全合作理事会和东北亚合作对话 会等活动,主张通过这些政府和民 间讨论安全问题的重要渠道,增进 各国的相互了解与信任,促进地区 和平与稳定. …… China advocates regional-security dialogue and cooperation at different levels, through various channels and in different forms. Such dialogue and cooperation should follow these principles: participation on an equal footing, reaching unanmimity through consultation, seeking common ground while reserving differences, and proceeding in an orderly way and step by step. China has participated in the ASEAN Regional Forum (ARF), Conference on Interaction and Confidence-Building Measures in Asia (CICA), Council on Security Cooperation in Asia and Pacific Regional (CSCAP), Northeast Asia Cooperation Dialogue (NEACD) and other activities, holding that all countries should further mutual understanding and trust by discussions on security issues through these important governmental and non-governmental channels, so as to promote regional peace and stability. ……
26 双语句子对齐问题 s1 s2 s3 s4 … sm t1 t2 t3 t4 … tn ? 配对模式 ? 句长差距 影响对齐猜测 的两个因素:
27 句子配对模式(记做Match) ? Gale &
Church(1993) 定义了六种配对模式,在 实际语料1中的分布频度为: 句子配对模式 (Match) 出现次数 概率 P(Match) 1-0 或0-1
13 0.0099 1-1
1167 0.89 1-2 或2-1
117 0.089 2-2
15 0.011
1312 1.00 Note1: UBS/Union Bank of Switzerland出版的经济报告, 同时使用英、法、德三种语言
28 句长相关性 Gale &
Church(1993)
29 句子长度差距关系(记做δ) ? 任一个双语句对 ( Si, Tj ) S表示原文,T表示译文 m i s s s S ...
2 1 = n j t t t T ...
2 1 = ) ( i i S L l = ) ( j j T L l = S中任意一个字符在T中所对应的字符数是个随机变量,记做X X呈正态分布,X的期望记做c,X的方差记做V2 由此则可定义随机变量 δ 来度量两个句子之间的长度差距关系
2 ) , ( V l l c l l l i i j j i * * ? = δ
30 δ 呈正态分布 Gale &
Church(1993)
31 句子长度差距关系(续) ? 随机变量X的期望c和方差V2可以从已经对齐好的 双语平行语料库中估算得到 比如:英语-法语 c ≈ 72302/68450 ≈ 1.06 V2 ≈ 5.6 Gale &
Church (1993) 英语-汉语 c ≈ 1.46 V2 ≈ 2.9 刘昕 等(1995)
32 基于长度的双语句子对齐方法 ? 任意句子Si与Tj对齐的可能性就可以表示为一个 条件概率: ) ( ) ( ) | ( )) , ( | ) , ( ( δ δ δ P Match P Match P l l t s Match P j i j i * = )) (
1 (
2 ) | ( δ δ P Match P ? ≈ δ 服从标准正态分布,P(| δ |) 可通过查标准正态函数分布表得到 公式1 ) ( ) | ( Match P Match P * ≈ δ
33 基于长度的双语句子对齐方法(续) ? 对公式1取对数,将乘法运算变为加法运算 ))) ( ( log )) | ( ( (log ) , (