编辑: ZCYTheFirst | 2017-09-15 |
2 2 Match P Match P t s Score j i + ? = δ Score是对两个句子配对可能性的一个评估,可 以形象地理解为两个句子之间的距离.得分越 低,表示两个句子之间距离越近,因而配对的 可能性越高
34 求解双语句子对齐示意图 英语文本 汉语文本 s1 s2 s3 s4 … si tj t4 t3 t2 t1 … 表示句 子对齐 (包括各 种可能的 模式) 蓝线表示 最佳路径
35 ? 支持自然语言处理应用系统开发 ? 支持语言学研究和语言教学研究
5 语料库应用
36 语料库对NLP的支持 ? 基于大规模语料库的语音识别;
? 基于大规模语料库的音字转换技术(中文输入);
? 基于大规模语料库的自动文本校对技术;
? 利用语料库训练HMM模型进行分词,词性标注,词义标 注,等等;
? 基于语料库的句法分析;
? 基于语料库的机器翻译;
? 基于机器学习技术,通过语料库获取语言知识,包括搭 配特征,句法规则,等等;
? 基于语料库的语言模型训练和语法模型评价;
支持NLP自动评测;
37 中文音字转换 拼音串(无声调) xue xi dian nao ji shu 候选字串 雪系点脑机树共有 14*98*41*15 *167*68=95.8 亿种可能性 学洗电闹给述学西颠挠记书…… 候选词串 学习 电脑 级数 共有2*1*7=14 种可能性 血洗 电脑 奇数 血洗 电脑 基数 …… 正确文字串 学习电脑技术
38 中文音字转换(续) 拼音串(无声调) xue xi dian nao ji shu 候选字串 雪系点脑机树共有 14*98*41*15 *167*68=95.8 亿种可能性 学洗电闹给述学西颠挠记书…… 候选词串 学习 电脑 级数 共有2*1*7=14 种可能性 血洗 电脑 奇数 血洗 电脑 基数 …… 正确文字串 学习电脑技术
39 中文音字转换(续) 拼音串(无声调) xue xi dian nao ji shu 候选字串 雪系点脑机树共有 14*98*41*15 *167*68=95.8 亿种可能性 学洗电闹给述学西颠挠记书…… 候选词串 学习 电脑 级数 共有2*1*7=14 种可能性 血洗 电脑 奇数 血洗 电脑 基数 …… 正确文字串 学习电脑技术
40 中文音字转换(续) 拼音串(无声调) xue xi dian nao ji shu 候选字串 雪系点脑机树共有 14*98*41*15 *167*68=95.8 亿种可能性 学洗电闹给述学西颠挠记书…… 候选词串 学习 电脑 级数 共有2*1*7=14 种可能性 血洗 电脑 奇数 血洗 电脑 基数 …… 正确文字串 学习 电脑 技术
41 基于语料库的语言研究 ? Concordan........