编辑: ZCYTheFirst | 2017-09-15 |
第六章 语料库 詹卫东 http://ccl.
pku.edu.cn/doubtfire/
2 提纲 ?
1 什么是语料库 ?
2 语料库的发展简史 ?
3 语料库的设计 ?
4 语料库的加工 ?
5 语料库的应用
3 1 什么是语料库 在今天,仅仅将语料库视为存放语言材料的仓库, 是令人无法忍受的观点.新一代的兆亿级的大规 模语料库可以作为语言模型的训练和测试手段, 来评价一个语言模型的质量;
此外,诸如困惑度 之类的统计方法也可利用语料库来评估一个语法 模型对语料的解释能力. ―― Geoffrey Leech, The State of The Art in Corpus Linguistics, 1991, In Aijmar, K. and Altenberg, B. , eds. , English Corpus Linguistics: Studies in Honor of Jan Svartvik, London: Longman, 1991.
4 关于语料库的三点基本认识 ? 语料库中存放的是在语言的实际使用中真实出现过 的语言材料;
? 语料库是以电子计算机为载体承载语言知识的基础 资源;
? 真实语料需要经过加工(分析和处理),才能成为 有用的资源;
5 语料库的分类 ? 口语语料 ? 书面语料 ? 单语 ? 双语 ? 多语 ? 词性标注语料 ? 树库语料 ? … ? 平行语料库 ? 比较语料库 ? 共时语料 ? 历时语料 ? 平衡语料 ? 专门语料 ? 监控语料 ? 样本语料
6 语料库示例
(一) 北京大学计算语言所富士通人民日报标注语料库样例: 历史/n 将/d 铭记/v 这个/r 坐标/n :/w 北纬/b 41.1/m 度/q 、/w 东经/b 114.3/m 度/q ;
/w 人们/n 将/d 铭记/v 这/r 一/m 时刻/n :/w 1998年/t 1月/t 10日/t 11时/t 50分/t ./w …… [中国/ns 政府/n]nt 顺利/ad 恢复/v 对/p 香港/ns 行使/v 主权 /n ,/w 并/c 按照/p /w 一国两制/j /w 、/w /w 港人治港 /l /w 、/w 高度/d 自治/v 的/u 方针/n 保持/v 香港/ns 的/u 繁荣/an 稳定/an ./w
7 语料库示例
(二) London-Lund英语口语语料库样例 ^what a_bout a cigar\ette# . / *((4 sylls))* / *I ^w\on'
t have one th/anks# ^aren'
t you .going to sit d/own# - / ^[/\m]# - / ^have my _coffee in p=eace# ^quite a nice .room to !s\it in ((actually))# / *^\isn'
t* it# / *^y/\es# 转引自Tony McEnery &
Andrew Wilson, 1996, Corpus Linguistics, p55,
8 London-Lund英语口语语料库部分标记 一个重音单位的停顿 (pause of one stress unit) - 同步发音 (simultaneous speech) * * 不清晰的音节 (unclear) (( )) 高音跟前一个音节相当的重音 (booster: continuance) = 高音高于前一个音节的重音 (booster: higher pitch than preceding prominent syllable) ! 标准重音 (normal stress) . 不完整的词语和音节符号 (enclose partial words and phonetic symbols) [ ] 平型核心语调 (level nuclear tone) _ 先升后降型核心语调 (rise-fall nuclear tone) ^ 下降型核心语调 (falling nuclear tone) \ 上升型核心语调 (rising nuclear tone) / 语音开始 (onset) ^ 语调群的结束 (end of tone group) # 含义 标记
9 语料库与语言知识库 语言知识库 (Linguistic Database) 语料库(corpora/corpus)
10 ? 20世纪50年代 Chomsky的影响 ? 第一代(1970-80年代) ? 第二代(1980-90年代) ? 第三代(1990年代) ? ?第四代 (21世纪)
2 语料库发展简史
11 第一代语料库 ? Brown语料库 ? LOB语料库 ? LLC语料库 百万词级 以语言研究为导向 1960年代初,美国Brown大学, 100万词次,当代美国英语, 根据系统性原则采样,…… 1970年代初,英国Lancaster大学,挪威Oslo大学,挪威Bergen 大学,当代英国英语,…… 1960年代初,由London大学Randolph Quirk 主持,收集2000小时的谈话和广播等口语素 材并整理成书面材料,由瑞典Lund大学J. Svartvik主持全部录入计算机,1975年建成……