编辑: 牛牛小龙人 2015-08-29
领域自适应的中文实体关系抽取研究 导师:秦兵教授 学生:王莉峰 大纲 绪论 关系类型发现 关系种子集抽取 关系描述模式挖掘 结论 问题的提出 现有的关系抽取方法存在一些问题 人工参与较多 预先定义关系类型体系 构建标注语料库 构造关系种子集 可移植性差 集中在特定领域的关系抽取 不适用于海量、多样化的Web信息抽取需求 领域自适应的研究相对滞后 2007年Banko提出了Open IE的概念 领域自适应的中文关系抽取研究较少 解决思路 领域自适应的中文实体关系抽取研究框架 只需一定规模的未标注语料库作为输入 最大程度避免人工参与 提高关系抽取自动化程度 增强可移植性,扩大应用范围 关键技术 关系类型自动发现 关系种子集自动构建 关系描述模式挖掘 关系元组抽取 数据存储及可视化 关系实例抽取 上下文模式生成 模式泛化与过滤 基于Bootstrapping的关系描述模式挖掘 领域自适应的中文实体关系抽取 存储与可视化 大规模 网页库 实体关系 知识库 Web检索 和问答系统 元组抽取与评价 大纲 绪论 关系类型发现 关系种子集抽取 关系描述模式挖掘 结论 关系类型发现(1) 语言现象 绝大多数产生关系的实体对均可以由其上下文中的一般动词和一般名词触发描述 统称为特征词(Feature Word,FW) 主要思想 以实体对类型为单位进行处理――领域 如 人名―人名 、 人名―机构名 基于大规模语料库统计,抽取与特定实体对类型相关度较大的特征词集 利用语义词典计算特征词之间的相似度 特征词聚类,聚类结果即为关系类型 Arg1 Arg2 Relation 王树国 哈尔滨工业大学 校长 王树国 法国荣誉勋章 荣获 Arg1 Arg2 Relation 刘德华 巩俐 携手 刘德华 《我知女人心》 打造 巩俐 《我知女人心》 打造 《我知女人心》 博纳悠唐国际影城 首映 PER LOC ORG MISC FW 哈尔滨工业大学校长王树国荣获法国荣誉勋章.

巨星刘德华携手巩俐等人气明星打造的都市爱情大片《我知女人心》在博纳悠唐国际影城正式首映. 关系类型发现(2) 基于特征词聚类的关系类型发现 网页库 正文抽取 文本处理 种子实体 抽取 特征词抽取 特征词聚类 关系类型体系 特征词集 语义词典 关系类型发现(3) 特征词抽取 抽取由种子实体形成的高频实体对及其句子集 统计与高频实体对共现的动、名词 使用启发式通用规则过滤,得到候选特征词 必须出现在实体对之间 动词细分类,仅保留一般动词 名词细分类,仅保留一般名词 动词必须满足与实体对中的任一实体存在主谓关系SBV或动宾关系VOB 计算候选特征词与实体对类型相关度,取Top-K FreqT(wk) 和FreqA(wk) 分别表示 wk 在特定实体对类型上下文中和整个语料库中的出现频率 关系类型发现(4) 特征词聚类 相似度计算 基于HowNet 相同义原个数 基于《同义词词林(扩展版)》 树距离 语义代码是否相同(如level=

3、4) 聚类算法 层次聚类 HAC(single link、complete link、average link) Affinity Propagation(AP),Science 2007提出 语义代码直接聚类(只针对语义代码相似度) Ni 和Nj 分别为wi 和wj 义原个数,NCij 为相同义原个数 关系类型发现(5) 语料库获取 RE100W:9个门户网站的100W娱乐资讯网页 实验实体对类型 人名―人名,即人物社会关系抽取 测试数据 多人协作构建标准聚类结果 共1,225个特征词,256类 评价标准 F值 纯度Purity 关系类型发现(6) 大纲 绪论 关系类型发现 关系种子集抽取 关系描述模式挖掘 结论 关系种子集抽取(1) 人工构建关系种子集存在的问题 关系类型繁多,完全依靠人工选择困难 难以保证种子覆盖面 投入成本较大,可移植性差 主要思想 关系表示成三元组: e1为种子实体,e2未知 R为关系类型,对应一个特征词集合 将e2槽填充问题看作事实型答案抽取问题 利用搜索引擎收集和处理海量数据的能力和优势 基于Web Mining方法抽取答案e2 关系种子集抽取(2) 基于Web Mining的关系种子集抽取 查询构造 查询扩展 网页检索 答案抽取 问答系统 检索系统 页面 摘要 关系种子集抽取(3) 查询构造 根据e2类型,定义启发式规则,构造基本查询 查询扩展 借助问答系统百度知道扩展查询 相关性排序问句列表 针对单个问句的相似问题推荐 名词性特征词的查询构造规则 e1 + + fw,例如:周杰伦 父亲,周杰伦 老爸 fw + + e1,例如:父亲 周杰伦,老爸 周杰伦 e1 + fw + 是谁?,例如:周杰伦的父亲是谁?,周杰伦的老爸是谁? 谁是 + e1 + 的+fw?,例如:谁是周杰伦的父亲?,谁是周杰伦的老爸? 动词性特征词的查询构造规则 e1 + + fw,例如:赵薇 饰演,赵薇 出演 fw + + e1,例如:饰演 赵薇,出演 赵薇 关系种子集抽取(4) 网页检索 百度网页:snippet 百度新闻:snippet 百度知道:snippet,最佳答案 答案抽取 基于频率统计的方法(baseline) 基于上下文模式的方法 基于频率统计与上下文模式相结合的方法 关系种子集抽取(5) 基于上下文模式的方法 权威媒体TVBS娱乐记者正式对外公布了周杰伦的父亲周耀中的一篇关于杰伦身世之迷的博客文章. 对外/v 公布/v 了/u 周杰伦/Nh 的/u 父亲 关系种子集抽取(6) 基于频率统计与上下文模式相结合的方法 关系种子集抽取(7) 实验数据 种子实体e1:Top-500 关系类型R:9种 评价标准 每类随机选取100个进行人工评价 准确率、平均准确率 不直接评价召回率,通过关系种子总数间接反映 夫妻关系、经纪人关系、合作关系 情侣关系、父母-子女、好友关系 角色扮演、兄弟姐妹、伯乐关系 大纲 绪论 关系类型发现 关系种子集抽取 关系描述模式挖掘 结论 关系描述模式挖掘(1) 基于Bootstrapping的关系描述模式挖掘 关系元组 模式泛化 关系实例 抽取 上下文模式生成 模式过滤 关系描述 模式 大规模语料库 特征词集 关系元组集 候选元组 抽取 元组过滤 关系描述模式挖掘(2) 上下文模式生成 梁朝伟和刘嘉玲自本月21日于不丹正式结婚后,24日早上首次公开露面. 梁朝伟和刘嘉玲7月21日将于不丹完婚. 梁朝伟/Nh 和/c 刘嘉玲/Nh 自/p 本月21日/Nr 于/p 不丹/Ns 正式/a 结婚/v 梁朝伟/Nh 和/c 刘嘉玲/Nh 7月21日/Nr 将/d 于/p 不丹/Ns 完婚/v ./wp {结婚,完婚} [SLOT1]/Nh 和/c [SLOT2]/Nh 自/p /Nr 于/p /Ns 正式/a/Ed53A 结婚/v/Hj51C [SLOT1]/Nh 和/c [SLOT2]/Nh /Nr 将/d 于/p /Ns 完婚/v/Hj51C ./wp 关系实例 候选 上下文模式 上下文模式 关系描述模式挖掘(3) 软模式生成 对任意两个上下文模式计算最佳匹配长度(带权重的最长公共子序列) 匹配度J定义为: 仅当匹配度大于阈值minJaccard时,用于生成软模式,即构造最长公共子序列 cPi cPj 代价 [SLOT1]/Nh [SLOT1]/Nh

下载(注:源文件不在本站服务器,都将跳转到源网站下载)
备用下载
发帖评论
相关话题
发布一个新话题