编辑: 苹果的酸 | 2017-10-09 |
16 C. 语料应用 应用领域 通用 | 词典编纂 | 机器翻译 | … 辅助软件 检索工具 | 人机界面 | 数据接口 | … 语料的选取 ? 精品原则 ? 有影响力原则 ? 随机挑选原则 ? 高流通度原则 ? 典型性原则 ? 易于获得原则 ? 具有统计样本意义原则 具有统计样本 义则?符合语言规范原则
17 语料库的编码体系 ? SGML(标准置标语言) 标准置标语言 http://www.w3.org/MarkUp/SGML/ ? XML(可扩展的置标语言) 范围 缩小, http://www.w3.org/TR/REC-xml ? TEI(文档编码计划) 缩小, 针对 性加 强http://www.tei-c.org/ ? CES(语料库编码标准) 强http://www.tei-c.org/Applications/index-co02.html 冯志伟,1998,《标准通用置标语言SGML及其在自然语言处
18 冯志伟,1998,《标准通用置标语言SGML及其在自然语言处 理中的应用》,载《当代语言学》1998年第4期. CES标准(Corpus Encoding Standard) 标准 p g 语料库/n 标记/n 应该/v 有/v 规范/n 语料库 不符合 … 语料库A: 不符合CES 语料库 标记 应该 有 规范 语料库B: 符合CES 规范
19 p … DTD(Document Type Definition) 非终结符 p ( ) 终结符: 字符值(Parsable Character Data) ]>
终结符: 字符值(Character Data) ]>
DTD声明(declaration) 终结符: 字符值(Character Data) 属性名
20
4 语料库的加工 语料库标注(Annotation) 语料库标注(Annotation) 1)词性标记(Part-of-speech tagging) 2)句法层次和范畴标记(Grammatical parsing) p g 3)词义标记(Word sense tagging) 4)篇章指代标记(Anaphoric annotation) )韵律标记( d ) 5)韵律标记(Prosodic annotation) …… http://www.comp.lancs.ac.uk/computing/research/ucrel/annotation.html
21 语料库加工工具 分类 工具名称 功能描述 A.文件处理工具 文本过滤器 将不同的文件格式转成为纯文本文件格式 文本分类器 自动判别文本领域 语料库辅助校对工具及 致 按照语料库加工规范 对语料质量进行管理 语料库辅助校对工具及一致 性检查工具 按照语料库加工规范,对语料质量进行管理 B. 语言处理工具 分词与词性标注工具 对语料进行词语识别,词性标记处理 词义标注工具 对词义进行标注 浅层分析工具 对语块(chunk)进行标注 句法分析工具 对句子进行完全句法分析 双语语料对齐工具 对双语语料进行各个层级(段落、句子、小句、词) 的对齐加
22 的对齐加工 双语语料库(Bilingual Corpora)加工 段落对齐 ? 段落对齐 ? 句子对齐 ? 词对齐 ? 短语对齐 ? 短语对齐
23 双语句子对齐 基于长度(l h b d)的对齐方法 ? 基于长度(length-based)的对齐方法 Gale &
Church (1993) 纯粹基 句子的长度来估计对齐 能性 纯粹基于句子的长度来估计对齐可能性 资源要求少,算法效率相对较高 ? 基于词(word-based)的对齐方法 一般要依赖词典资源,算法效率相对较低
24 双语句子对齐示例 中国支持在平等参与、协商一致、 求同存异 循序渐进的基础上 开China advocates regional-security dialogue and cooperation at different levels, through various channels and in different f 求同存异、循序渐进的基础上,开 展多层次、多渠道、多形式的地区 安全对话与合作. 中国参加了东盟地区论坛 亚洲建 forms. Such dialogue and cooperation should follow these principles: participation on an equal footing, reaching unanmimity through consultation, seeking common ground 中国参加了东盟地区论坛、亚洲建 立协作与建立信任措施会议、亚太 安全合作理事会和东北亚合作对话 会等活动,主张通过这些政府和民 unanmimity through consultation, seeking common ground while reserving differences, and proceeding in an orderly way and step by step. China has participated in the ASEAN Regional Forum (ARF), C f I i d C fid B ildi 间讨论安全问题的重要渠道,增进 各国的相互了解与信任,促进地区 和平与稳定. Conference on Interaction and Confidence-Building Measures in Asia (CICA), Council on Security Cooperation in Asia and Pacific Regional (CSCAP), Northeast Asia Cooperation Dialogue (NEACD) and other activities, holding th t ll t i h ld f th t l d t di d …… that all countries should further mutual understanding and trust by discussions on security issues through these important governmental and non-governmental channels, so as to promote regional peace and stability.