编辑: 向日葵8AS 2019-07-16

… xyd …;

… xyd … xyz没有出现过我们能够说:p(a|xy)=1/3, p(d|xy)=2/3, p(z|xy)=0/3吗?不能,因为xyz可能是一个常见的组合,但在现有的训练集中不应有的缺失了 分析 被除数越小,越不可靠1/3可能太高, 100/300可能是对的除数越小,越不可靠1/300可能太高,100/30000可能是对的 字符语言模型 使用单独的字符而不是词使用相同的公式和方法可以考虑使用4-gram,5-gram,因为数据比较充足对交叉语言的比较很有用基于字和基于词的交叉熵的换算关系HS(pc) = HS(pw) / 句子S中的平均词长 举例2 训练数据: He can buy you the can of soda Unigram: (8 words in vocabulary)p1(He) = p1(buy) = p1 (you) = p1 (the) = p1(of) = p1(soda)= .125, p1(can) = .25 Bigram:p2(He|) = 1, p2(can|He) = 1, p2(buy|can) = .5, p2(of|can) = .5, p2(you |buy) = 1,... Trigram:p3(He|,) = 1, p3(can|,He) = 1, p3(buy|He,can) = 1, p3(of|the,can)= 1, ..., p3(|of,soda) = 1. Entropy: H(p1) = 2.75, H(p2) = 1, H(p3) =

0 交叉熵 交叉熵S = It was the greatest buy of all HS(p1) = HS(p2) = HS(p3) =∞,原因是:所有的unigrams除了p1(the), p1(buy), and p1(of) 都是0所有bigram的概率都是 0.所有trigram的概率都是 0.我们希望使每个概率都是非零的 零概率问题 原始的Trigram模型估计一定会有很多概率为0的情况因为参数空间太大,trigram:8T,而数据只有1G哪些参数真的应该是0呢?理想情况是:最低频的trigram也应该出现几次,以便把它的概率和其它trigram的概率区别开来但是理想情况不会发生,到底需要多少数据,我们不知道我们必须去除概率为0的情况包括:p(w|h)=0,或者p(h)=0 为什么我们需要非零的概率? 避免无穷大的交叉熵当测试数据中出现了一个在训练数据中没有出现过的事件,就会发生H(p)=∞的情况使系统更健壮低频的估计值更加细腻(detailed),但相对来说很少出现高频的估计值更可靠但是不够细腻 基本平滑算法 避免零概率:数据平滑 p'(w) ≈p(w), 但p'(w)≠0对一些p(w)>0,生成p'(w)c(h),甚至|V|>>c(h)举例:T: what is it what is small? |T|=8V={what,is,it,small,?,,

flying,birds,are,a,bird,.}, |V|=12p(it)=0.125, p(what)=0.25, p(.)=0, p(what is it?)=0.252*0.1252≈0.001 p(it is flying.)=0.125*0.25*02=0p'(it)=0.1, p'(what)=0.15,p'(.)=0.05, p'(what is it?)=0.152*0.12 ≈0.0002 p'(it is flying.)=0.1*0.15*0.052 ≈0.00004 Trigramthey,do,approach 1they,do,have 2they,do,Link 1they,do,not 7they,do,on 3they,do,open 1they,do,so 1they,do,under

5 Bigramdo,anything 2do,approach 1do,no 1do,not 97do,Novell 1do,offer 1...they,do

22 Unigramdo 384... C(they,do,not) C(do,not) =

7 =

97 PMLE(not|they,do) PMLE(not|do) = 7/22 = 0.318 = 97/384 = 0.253 PMLE(offer|they,do) = 0/22 =

0 PMLE(have|they,do) = 2/22 = 0.091 举例 Add one举例 P+1(not|they,do) P+1(offer|they,do) P+1(have|they,do) Vocabulary Size (V) = 10,543 小于1平滑 加入λ系数-T:训练数据,V:词表,w: 词 预测 p'(w|h)=(c(h,w)+λ)/(c(h)+ λ |V|), λ

下载(注:源文件不在本站服务器,都将跳转到源网站下载)
备用下载
发帖评论
相关话题
发布一个新话题