编辑: 摇摆白勺白芍 | 2019-04-28 |
为什么要QA? 2. 互联网上的的QA系统 3. AskTheWeb:我们的特点 4. 系统结构 5. 测试结果 6. 待完善的地方和将来的工作 为什么要QA:现在的搜索引擎 ? Web搜索引擎已成为人 们获得信息不可或缺 的工具. ? 但是它的可用性和易用性还有待进一步提高. ? 我想知道非洲最高峰是哪座,高多少米,怎 么办? 为什么要QA:搜索引擎的不足 ? 使用全文检索的搜索引擎: ? 用户输入的关键词是决定能否找到目标网页的决定因素,由 问题转换到查询关键词,既不方便,还需要有构思恰当的关 键词的经验 ? 搜索引擎返回大量网页,用户在其中查找相关信息需要花费 很多精力 问题 关键词 答案 搜索引擎 相关网页 为什么要QA:搜索引擎的不足 ? 具有分类目录的搜索引擎 ? 对网站的简短描述无法提供足够的信息:我 在这个站点上能不能找到答案? ? 网站分类过程耗费大量人力 为什么要QA:搜索引擎的不足 ? 中文Yahoo!在"科学>地理"下提供的站点 目录: 为什么要QA:QA的理想 问题 关键词 搜索引擎 相关网页 答案 问题 QA系统 答案 为什么要QA: QA的理想 ? 用自然语言提问,而不需要考虑关键字和关键 字的组合 ? 系统自动从相关网页中提取答案,而不需要用 户在数十个页面中查找 互联网上的QA系统:现实 ? 限于目前计算机的智能水平,QA系统只能接受 一些基于事实的、短答案的问题. ? 无需推理即可获得答案 ? 具有确定的答案 ? 对某个属性的简短回答,而不是对过程的描述 互联网上的QA系统:AskJeeves ? www.ask.com 相关网页而不 是问题答案 互联网上的QA系统:AnswerBus www.answerbus.com,给出可能含有答案的句子 互联网上的QA系统:MIT START ? http://www.ai.mit.edu/projects/infolab/ailab.html ? 直接给出答案 AskTheWeb:我们的特点 ? 面向中文的QA系统 ? 利用网页的冗余信息提取答案 ? 利用搜索引擎和其他异构信息源 ? 答案类型猜测和概念匹配 ? 给出基于短语的答案,而不是句子 ? 从一个课程设计发展而来 AskTheWeb界面 AskTheWeb系统结构 系统结构:类型猜测 ? 将查询问句分词,提取关键词,猜测用户的问 句的类型(问是谁,问什么地方…)及答案类型 (数字,地名,人名,物品…) ? 原型系统中采用的方法:正则表达式匹配 ? "…是谁"->问人名 ? "…是哪一座"->问山峰名 更好的方法=? 系统结构:查询改写 ? 获取查询的关键词,并从同义词库中或者其他 的规则库中,将关键词进行扩展 ? "北大"-》"北京大学"、"燕园";
唱-》歌手;
写-》作者 ? 查询问句:珠穆朗玛峰有多高? ? 答案类型=数字, ? 关键词={高度(同义词=海拔…),珠穆朗玛峰(同义词=喜 马拉雅山…)} 系统结构:查询搜索引擎 ? 向Google或其他搜索引擎发出查询 ? 不同的查询条件应该有不同的weight ? 获取Google返回的查询结果页面,得到 相关网页的摘要 ? 因为效率的原因,只分析Google返回页面上的网页 摘要(称为summary)而不再获取原始网页 ? 因为网络的限制,这一步中获得的网页通常不超过 10张,最多100个摘要 系统结构:确定候选答案 ? 首先对summary进行中文切词,并标注词性 ? 切词程序已经提供了粗略的类型信息 ? 例如:人名,地名,数字,等等 ? 进一步的分类 ? 原型系统中采用的方法:正则表达式匹配 ?