编辑: 飞翔的荷兰人 | 2017-10-04 |
12 Bayes decision rule ? 如果 P(s'
| c) >
P(si | c) 则sense(w)=s'
, s'
? si ) ( ) ( ) | ( ) | ( C P s P s C P C s P i i i ? ) ( ) | ( max arg i i s s P s C P i ? ) | ( max arg '
C s P s i si ? ) ( ) ( ) | ( max arg C P s P s C P i i si ? ) ( ) , ( ) | } | ({ ) | ( i i j C w i j j i s Count s w Count s C w w P s C P j ? ? ? ? ? ) ( ) ( ) ( w Count s Count s P i i ?
13 Bayes decision rule(续) ? 如果 ? ? ? ? C w i j i s j i s w P s P s )] | ( log ) ( [log max arg '
则sense(w)=s'
)] | ( log ) ( [log max arg )] ( ) | ( log[ max arg '
i i s i i s s C P s P s P s C P s i i ? ? ? )] | ( log ) ( [log max arg i j C w i s s w P s P j i ? ? ? ?
14 获取词义知识算法(Training) for all sense si of w do for all words wj in the vocabulary do end end for all sense si of w do end ) ( ) , ( ) | ( i i j i j s Count s w Count s w P ? ) ( ) ( ) ( w Count s Count s P i i ?
15 词义排歧算法(Disambiguation) for all sense si of w do score(si)=logP(si) for all words wj in the context of w do score(si)=score(si)+logP(wj|si) end end choose ) ( max arg '
i s s score s i ?
16 词义知识库示例 wj si P(si) … 书 武侠 电影 股市 行情 桌子 小说 … 看1 0.3 … 0.40 0.10 0.01 0.01
0 0.20 0.27 … 看2 0.5 …
0 0.25 0.5 0.01
0 0 0.15 … 看3 0.2 … 0.01 0.03 0.05 0.45 0.45
0 0 …
17 基于Bayes判别的WSD示例 我看过由同名武侠小说改编的电影
01 .
0 log
27 .
0 log
1 .
0 log
3 .
0 log ) (
1 ? ? ? ? 看score
5 .
0 log
15 .
0 log
25 .
0 log
5 .
0 log ) (
2 ? ? ? ? 看score
05 .
0 log
03 .
0 log
2 .
0 log ) (
3 ? ? ? 看score 显然,score(看2)最大,所以当前语境下是 看 的第2个义项 我看过由同名武侠电影改编的小说 中的 看 该是哪个义项?
18 ? Brown, et al, 1991,应用于MT,将MT准确率从37%提高到45% 3.2 基于互信息的WSD方法 多义词(法语)译词(英语) 示意特征 示意特征的具体取值 Prendre [pr?:dr] take 当前词的宾语 当prendre的宾语是mesure时make 当前词的宾语 当prendre的宾语是décision时vouloir [vulwa:r] want 当前词的时态 当vouloir为现在时形式时 like 当前词的时态 当vouloir为条件时态形式时 cent [s?] percent 当前词的左边一个词 当cent左边词语为per时c. 当前词的左边一个词 当cent左边是数字时
19 flip-flop算法 ? 假定一个法语词在英语中存在若干译词t1,t2,…,tm,这个法语词 就是一个多义词;
? 对于一个多义词,其示意特征可能的取值为v1,v2,…,vn;
1) 随机地将t1,t2,…,tm分为两类,可记作R={r1, r2};
2) 寻找v1,v2,…,vn的一个分类Q={q1,q2},使得Q与R的互信息值最 大.根据Q,再调整R的分类,反复进行这个过程,直到I(R,Q) 的值不能再提高(或变化甚微)为止. 约定算法?????QqjijijiRrjiqPrPqrPqrPQRI)()(),(log ) , ( ) , (
20 基于互信息方法示意图 t1 t2 t3 tm … v1 v2 v3 … vn t1 t2 t3 … tm v1 v2 v3 … vn t1 t3 t2 … tm v1 v2 v3 … vn
21 基于互信息的WSD方法示例 {t1=读, t2=观看} {v1=电影,v2=报,v3=书,v4=小说,v5=电视} 样本容量N=10 Count(t1)=3, Count(t2)=2, Count(v1)…=Count(v5)=1 Count(t1,v1)=Count(t1,v5)=0, Count(t1,v2)=Count(t1,v3)=Count(t1,v4)=1 Count(t2,v1)=Count(t2,v5)=1 Count(t2,v2)=Count(t2,v3)=Count(t2,v4)=0 看电影(观看) 看报(读) 看书(读)........