编辑: ZCYTheFirst | 2017-09-15 |
12 ? COBUILD语料库 ? Longman语料库 第二代语料库 千万词级 词典编纂 - 应用导向 建于1980年代,由英国Birmingham大学 与Collins出版社合作完成,规模达2000 万词次,基于该语料库出版的Collins Cobuild词典(1987)受到了广泛的好评 建于1980年代,包括三个语料库: LLELC语料库(Longman/Lancaster英语语料库) LSC语料库(Longman口语语料库) LCLE(Longman英语学习语料库) 目标是编撰英语学习词典,为外国人学习英语服 务,词典规模达5000万词次
13 第三代语料库 ? ACL/DCI语料库 ? UPenn树库 ? LDC 超大规模(上亿词级) 标准编码体系 深度标注/多语种 NLP应用 美国计算语言学会倡议发起 数据采集 计划 (Data Collection Initiative), 由宾州大学M.Liberman主持,保存语 料原始文本形式以及SGML标注信息
14 UPenn Treebank ? 美国Pennsylvania大学1980年代末开始发起 ? 由该校计算机系M.Marcus主持 ? 1993年,完成了对近300万英语词的句子语法 结构标注 ? 2000年发布中文树库(第一版) 10万词,4185个句子,325 data files(新华社语料) ? 2004年发布中文树库 4.0版404,156 words, 664,633 Hanzi, 15,162 sentences, and
838 data files(大陆、香港、台湾语料)
15 宾州大学中文树库示例 他还提出一系列具体措施和政策要点. 他/PN 还/AD 提出/VV 一/CD 系列/M 具体/JJ 措施/NN 和/CC 政策/NN 要点/NN ./PU
16 3 语料库的设计 语料库三方面 属性 值A. 语料本身 规模 百万词级 | 千万词级 | 亿万词级 | … 领域 政治 | 经济 | 体育 | 心理学 | … 体裁 文学 | 应用文 | 新闻 | … 时代 共时 | 历时 语体 书面语 | 口语 语种 单语 | 双语 | 多语 双语平行语料库 | 双语比较语料库 语言层次 语音(音节,韵律) | 语法(词,句,…) B. 语料加工 数据形式 Text文本 | HTML文本 | 数据库 | … 编码体系 TEI标准 | 自定义编码体系 | … 加工层次 词性|句法|语义|语篇|…双语句子对齐 | 词对齐 | … 加工方式 自动 | 人机互助 | 人工 C. 语料应用 应用领域 通用 | 词典编纂 | 机器翻译 | … 辅助软件 检索工具 | 人机界面 | 数据接口 | …
17 语料的选取 ? 精品原则 ? 有影响力原则 ? 随机挑选原则 ? 高流通度原则 ? 典型性原则 ? 易于获得原则 ? 具有统计样本意义原则 ? 符合语言规范原则
18 语料库的编码体系 ? SGML(标准置标语言) http://www.w3.org/MarkUp/SGML/ ? XML(可扩展的置标语言) http://www.w3.org/TR/REC-xml ? TEI(文档编码计划) http://www.tei-c.org/ ? CES(语料库编码标准) http://www.tei-c.org/Applications/index-co02.html 冯志伟,1998,《标准通用置标语言SGML及其在自然语言处 理中的应用》,载《当代语言学》1998年第4期. 范围 缩小, 针对 性加 强19 CES标准(Corpus Encoding Standard) 语料库/n 标记/n 应该/v 有/v 规范/n … 语料库 标记 应该 有 规范 … 语料库B: 符合CES 语料库A: 不符合CES
20 DTD(Document Type Definition) ]>
DTD文件, corpus.dtd DTD声明(declaration) 非终结符 终结符: 字符值(Parsable Character Data) 终结符: 字符值(Character Data) 属性名
21 4 语料库的加工 语料库标注(Annotation) 1)词性标记(Part-of-speech tagging) 2)句法层次和范畴标记(Grammatical parsing) 3)词义标记(Word sense tagging) 4)篇章指代标记(Anaphoric annotation) 5)韵律标记(Prosodic annotation) …… http://www.comp.lancs.ac.uk/computing/research/ucrel/annotation.html
22 语料库加工工具 分类 工具名称 功能描述 A.文件处理工具 文本过滤器 将不同的文件格式转成为纯文本文件格式 文本分类器 自动判别文本领域 语料库辅助校对工具及一致 性检查工具 按照语料库加工规范,对语料质量进行管理 B. 语言处理工具 分词与词性标注工具 对语料进行词语识别,词性标记处理 词义标注工具 对词义进行标注 浅层分析工具 对语块(chunk)进行标注 句法分析工具 对句子进行完全句法分析 双语语料对齐工具 对双语语料进行各个层级(段落、句子、小句、词) 的对齐加工