编辑: 飞翔的荷兰人 | 2017-10-04 |
第七章 词汇分析
(三) ―― 从词串到词义标记串 詹卫东 http://ccl.
pku.edu.cn/doubtfire
2 提纲 ?
1 词的多义现象 ?
2 词义排歧(WSD) ? (1) 如何确定一个词的义项? ? (2) 如何找到能够判定词义的指示信息? ? (3) 如何在具体语境中判定词义? ?
3 WSD方法简介 ?
4 小结
3 1 词的多义现象(polysemous word) 所谓词的多义,就是一个 词形式 可以对应多种不同的变 换形式(比如一个词对应着多个不同的翻译) 打酱油 打电话 打毛衣 打手势 打哈欠 …… 修门 进门 门上有把锁 | 拍子坏了 打拍子 生意很清淡 口味比较清淡 我就来 我就不来 我就记得一句话 开车 吃你的车 bank table title book eye fly …
4 常用词(字)的多义情况 Marrian-Webster袖珍词典 《现代汉语通用字典》 词形 义项数 词形 义项数 go
63 打26 fall
35 上20 run
35 下19 turn
31 干19 way
31 子18 work
31 着18 do
30 生18 draw
30 和18 play
29 点18 get
26 折17 引自童翔1993,《汉语真实文本的语义自动标注》
5 同义词词林 单字词 多字词 词条数 百分比 词条数 百分比 单义词
1973 52.3%
40751 87.9%
42724 多义词
1801 47.7%
5629 12.1% 7430(14.8%) 总计
3774 100%
46380 100%
50154 《同义词词林》,梅家驹 等,1983,上海辞书出版社 引自黄昌宁 等《词义排歧的一种语言模型》,载《语言文字应用》2000年第3期6多义词的分类
1 甲类多义词:不同词性 ―― 不同意思 制服 编辑 建议 突出 秘密 特别 ……
2 乙类多义词:相同词性 ―― 不同义类 ―― 不同意思 便衣 单位 图书馆 保管 老红……
3 丙类多义词:相同词性/义类 ―― 不同特征 ――不同意思 表 材料 兄弟 大家 ……
7 2 词义排歧(Word Sense Disambiguation) WSD需要解决的三个问题: 1)如何判断一个词是不是多义词,如何表示一个多义 词的不同意思 2)对每个需要进行义项标注处理的多义词,预先得有 关于它的各个不同义项的清晰的区分标准 3)对出现在具体语境中的每个多义词,给它确定一个 合适的义项 解决这两个 问题是提供 WSD所需的 基础资源
8 如何确定一个 word 的 sense ? 看电影 ―― 看电视 ―― 看病 开飞机 ―― 开汽车 ―― 开门 ―― 开发票 炒菜 ―― 炒外汇 ―― 炒绯闻 …… ? 你在搞什么飞机? 你这个人真是很机车耶(台湾用法) 把多余的粮食卖给国家 ―― 把多余的字句删除 ?
9 在言语中如何判定词义 ? You shall know a word by the company it keeps (观其伴、知其意) ―― J.R. Firth, 1957, A Synopsis of Linguistic Theory 1930-1955, In Studies in Linguistic Analysis, Philological Society, Oxford. W S2 S1 Sn … Context1 Context2 Contextn … ? 什么是Context ? 如何找Context
10 3 各种WSD方法简介 ? 3.1 基于Bayes判别的方法 ? 3.2 基于互信息的方法 ? 3.3 基于词典释义的方法 ? 3.4 基于义类词典的方法 ? 3.5 基于实例相似度比较的方法 ? 3.6 基于判定表的方法 (词义搭配知识的自动抽取)
11 3.1 基于Bayesian Discrimination的方法 ? Gale et al., 1992,试验了6个多义词,准确率90% 1) 标注好词义的语料库(training corpus) 2) 从标注语料库训练 语境 与词义之间的依赖关系, 得到 词义知识库 3) 对于一个输入句子中的多义词,根据 词义知识库 中的知识,计算它在当前 语境 下,取哪一个义 项的可能性最高,就将该义项判定为这个多义词在 当前语境下的意思.