编辑: 摇摆白勺白芍 | 2019-04-28 |
13312345678 -> 13d9 -> 国内移动电话号码 ? 珠穆朗玛峰 -> *峰-> 山峰名 ? 更好的方法:WordNet 系统结构:统计候选答案 ? 将与猜测的答案类型相关的词进行统计,并根据提交 查询的关键词的权对结果进行打分 ? 词频统计 ? 带权的词频统计 ? 将得分最高的词作为问题的答案,同时输出得分较低 的几个作为参考 ? 在原型系统中,我们为简化起见,只实现对词的出现频率进行统计, 不再应用加权 ? 输出所有可能答案的可能性百分比(其实就是出现频率百分比) 测试结果 ? 人名类问题35个,如:"大江东去浪淘尽"是谁写的? ? 地点类问题22个,如:世界第五高峰是哪一座? ? 时间类问题20个,如:美国独立日是哪一天? ? 通讯方式问题18个,如:北京大学计算机系教务的电 话号码是什么? ? 数字类问题18个,如:上海金茂大厦有多高? 答案分别为:苏轼,马卡鲁峰,7月4日,62751890,420米 测试结果 在第x个位置前出现 正确答案的比例 在第x个位置前出现 正确答案的比例 (分类) 总结: ? AskTheWeb:QA领域中的一次尝试 ? 原型系统为今后的扩展搭建了平台 ? 前处理:完善的同义词库,WordNet,类型猜测 ? 统计公式、算法 ? 向多搜索引擎和本地数据库的移植 AskTheWeb的缺点和将来的工作 ? 缺少有力的理论支持和实验数据 ? 基于统计的打分模型,没有建立一个完善的理论模型 ? 没有完善的类型猜测子系统 ? 缺少足够的同义词库 AskTheWeb 谢谢!