编辑: 苹果的酸 2017-10-09
第六讲 语料库 第六讲 语料库 詹卫东 http://ccl.

pku.edu.cn/doubtfire/ 提纲 ?

1 什么是语料库 ?

1 什么是语料库 ?

2 语料库的发展简史 ?

3 语料库的设计 ?

4 语料库的加工 ?

4 语料库的加工 ?

5 语料库的应用

2 1 什么是语料库 在今天 仅仅将语料库视为存放语言材料的仓库 在今天,仅仅将语料库视为存放语言材料的仓库, 是令人无法忍受的观点.新一代的兆亿级的大规 模语料库可以作为语言模型的训练和测试手段, 模语料库可以作为语言模型的训练和测试手段, 来评价一个语言模型的质量;

此外,诸如困惑度 之类的统计方法也可利用语料库来评估一个语法 模型对语料的解释能力 模型对语料的解释能力. ―― Geoffrey Leech, The State of The Art in Corpus Linguistics

1991 In Aijmar K Corpus Linguistics, 1991, In Aijmar, K. and Altenberg, B. , eds. , English Corpus Linguistics: Studies in Honor of Jan S ik L d L

1991 3 Svartvik, London: Longman, 1991. 关于语料库的三点基本认识 ? 语料库中存放的是在语言的实际使用中真实出现过 ? 语料库中存放的是在语言的实际使用中真实出现过 的语言材料;

? 语料库是以电子计算机为载体承载语言知识的基础 ? 语料库是以电子计算机为载体承载语言知识的基础 资源;

? 真实语料需要经过加工(分析和处理),才能成为 真实 才 有用的资源;

4 语料库的分类 ? 口语语料 ? 词性标注语料 ? 书面语料 ? 单语 ? 词性标注语料 ? 树库语料 ? … ? 共时语料 单语 ? 双语 ? 多语 ? 平行语料库 ? 共时语料 ? 历时语料 parallel ? 平行语料库 ? 比较语料库 ? 平衡语料 ? 专门语料 p comparable ? 监控语料 ? 样本语料

5 样本语料 语料库示例

(一) 北京大学计算语言所富士通人民日报标注语料库样例: 北京大学计算语言所富士通人民日报标注语料库样例: 历史/n 将/d 铭记/v 这个/r 坐标/n :/w 北纬/b 41.1/m 度/q 、/w 东经/b 114.3/m 度/q ;

/w 人们/n 将/d 铭记这时刻 年月日记/v 这/r 一/m 时刻/n :/w 1998年/t 1月/t 10日/t 11时/t 50分/t ./w …… [中国/ns 政府/n]nt 顺利/ad 恢复/v 对/p 香港/ns 行使/v 主权 /n ,/w 并/c 按照/p /w 一国两制/j /w 、/w /w 港人治港 并 按照 p 两制 j /l /w 、/w 高度/d 自治/v 的/u 方针/n 保持/v 香港/ns 的/u 繁荣/an 稳定/an ./w

6 语料库示例

(二) London-Lund英语口语语料库样例 ^what a_bout a cigar\ette# . / *((4 sylls))* / ((4 sylls)) / *I ^w\on'

t have one th/anks# ^aren'

t you .going to sit d/own# - / ^[/\m]# - / ^have my _coffee in p=eace# ^quite a nice .room to !s\it in ((actually))# / *^\isn'

t* it# / *^y/\es#

7 转引自Tony McEnery &

Andrew Wilson, 1996, Corpus Linguistics, p55, London-Lund英语口语语料库部分标记 标记 含义 # 语调群的结束 (end of tone group) # 语调群的结束 (end of tone group) ^ 语音开始 (onset) / 上升型核心语调 (rising nuclear tone) \ 下降型核心语调 (falling nuclear tone) ^ 先升后降型核心语调 (rise-fall nuclear tone) _ 平型核心语调 (level nuclear tone) [ ] 不完整的词语和音节符号 (enclose partial words and phonetic symbols) . 标准重音 (normal stress) ! 高音高于前一个音节的重音 (booster: higher pitch than preceding prominent syllable) = 高音跟前一个音节相当的重音 (booster: continuance) (( )) 不清晰的音节 (unclear)

下载(注:源文件不在本站服务器,都将跳转到源网站下载)
备用下载
发帖评论
相关话题
发布一个新话题