编辑: 苹果的酸 | 2017-10-09 |
8 * * 同步发音 (simultaneous speech) - 一个重音单位的停顿 (pause of one stress unit) 语料库与语言知识库 语言知识库 (Linguistic Database) 语言知识库 g 语料库(corpora/corpus) 语料库(corpora/corpus)
9 2 语料库发展简史 20世纪50年代 Chomsky的影响 ? 20世纪50年代 Chomsky的影响 ? 第一代(1970-80年代) 第二代(1980 90年代) ? 第二代(1980-90年代) ? 第三代(1990年代) ?第四代 (21世纪) ? ?第四代 (21世纪)
10 第一代语料库 1960年代初,美国Brown大学, 100万词次,当代美国英语, 根据系统性原则采样 根据系统性原则采样,…… 1970年代初,英国Lancaster大学挪威Oslo大学 挪威Bergen ? Brown语料库 百万词级 学,挪威Oslo大学,挪威Bergen 大学,当代英国英语,…… ? LOB语料库 以语言研究为导向 ? LLC语料库 1960年代初,由London大学Randolph Quirk 1960年代初,由London大学Randolph Quirk 主持,收集2000小时的谈话和广播等口语素材 并整理成书面材料,由瑞典Lund大学J. Svartvik主持全部录入计算机,1975年建
11 成…… 建于1980年代,由英国Birmingham大学 与Collins出版社合作完成,规模达2000 第二代语料库 与 出版社合作完成,规模达 万词次,基于该语料库出版的Collins Cobuild词典(1987)受到了广泛的好评 COBUILD语料库 ? COBUILD语料库 Longman语料库 千万词级 词典编纂 - 应用导向 ? Longman语料库 词典编纂 应用导向 建于1980年代 包括三个语料库 建于1980年代,包括三个语料库: LLELC语料库(Longman/Lancaster英语语料库) LSC语料库(Longman口语语料库) LCLE(Longman英语学习语料库) LCLE(Longman英语学习语料库) 目标是编撰英语学习词典,为外国人学习英语服 务,词典规模达5000万词次
12 第三代语料库 美国计算语言学会倡议发起 数据采集 计划 (Data Collection Initiative), 计划 (Data Collection Initiative), 由宾州大学M.Liberman主持,保存语料 原始文本形式以及SGML标注信息 ? ACL/DCI语料库 树库 超大规模(上亿词级) 标准编码体系 ? UPenn树库 标准编码体系 深度标注/多语种 应用 ? LDC NLP应用 ? BNC (英国国家语料库)
13 ? …… UPenn Treebank ? 美国Pennsylvania大学1980年代末开始发起 ? 美国Pennsylvania大学1980年代末开始发起 ? 由该校计算机系M.Marcus主持 1993年 完成了对近300万英语词的句子语法 ? 1993年,完成了对近300万英语词的句子语法 结构标注 年发布中 树库 第版?2000年发布中文树库(第一版) 10万词,4185个句子,325 data files(新华社语料) ? 2004年发布中文树库 4.0版404,156 words, 664,633 Hanzi, 15,162 sentences, d
838 d t fil (大陆 香港 台湾语料)
14 and
838 data files(大陆、香港、台湾语料) 宾州大学中文树库示例 他还提出一系列具体措施和政策要点. 他/PN 还/AD 提出/VV 一/CD 系列/M 具体/JJ 措施/NN 和/CC 政策/NN 要点/NN ./PU
15 3 语料库的设计 语料库三方面 属性 值A. 语料本身 规模 百万词级 | 千万词级 | 亿万词级 | … 领域 政治 | 经济 | 体育 | 心理学 | 领域 政治 | 经济 | 体育 | 心理学 | … 体裁 文学 | 应用文 | 新闻 | … 时代 共时 | 历时 语体 书面语 | 口语 语体 书面语 | 口语 语种 单语 | 双语 | 多语 双语平行语料库 | 双语比较语料库 语言层次 语音(音节,韵律) | 语法(词,句,…) B. 语料加工 数据形式 Text文本 | HTML文本 | 数据库 | … 编码体系 TEI标准 | 自定义编码体系 | … 加工层次 词性|句法|语义|语篇|…双语句子对齐 | 词对齐 | … 加工方式 自动 | 人机互助 | 人工