编辑: 牛牛小龙人 | 2015-08-29 |
巨星刘德华携手巩俐等人气明星打造的都市爱情大片《我知女人心》在博纳悠唐国际影城正式首映. 关系类型发现(2) 基于特征词聚类的关系类型发现 网页库 正文抽取 文本处理 种子实体 抽取 特征词抽取 特征词聚类 关系类型体系 特征词集 语义词典 关系类型发现(3) 特征词抽取 抽取由种子实体形成的高频实体对及其句子集 统计与高频实体对共现的动、名词 使用启发式通用规则过滤,得到候选特征词 必须出现在实体对之间 动词细分类,仅保留一般动词 名词细分类,仅保留一般名词 动词必须满足与实体对中的任一实体存在主谓关系SBV或动宾关系VOB 计算候选特征词与实体对类型相关度,取Top-K FreqT(wk) 和FreqA(wk) 分别表示 wk 在特定实体对类型上下文中和整个语料库中的出现频率 关系类型发现(4) 特征词聚类 相似度计算 基于HowNet 相同义原个数 基于《同义词词林(扩展版)》 树距离 语义代码是否相同(如level=
3、4) 聚类算法 层次聚类 HAC(single link、complete link、average link) Affinity Propagation(AP),Science 2007提出 语义代码直接聚类(只针对语义代码相似度) Ni 和Nj 分别为wi 和wj 义原个数,NCij 为相同义原个数 关系类型发现(5) 语料库获取 RE100W:9个门户网站的100W娱乐资讯网页 实验实体对类型 人名―人名,即人物社会关系抽取 测试数据 多人协作构建标准聚类结果 共1,225个特征词,256类 评价标准 F值 纯度Purity 关系类型发现(6) 大纲 绪论 关系类型发现 关系种子集抽取 关系描述模式挖掘 结论 关系种子集抽取(1) 人工构建关系种子集存在的问题 关系类型繁多,完全依靠人工选择困难 难以保证种子覆盖面 投入成本较大,可移植性差 主要思想 关系表示成三元组: e1为种子实体,e2未知 R为关系类型,对应一个特征词集合 将e2槽填充问题看作事实型答案抽取问题 利用搜索引擎收集和处理海量数据的能力和优势 基于Web Mining方法抽取答案e2 关系种子集抽取(2) 基于Web Mining的关系种子集抽取 查询构造 查询扩展 网页检索 答案抽取 问答系统 检索系统 页面 摘要 关系种子集抽取(3) 查询构造 根据e2类型,定义启发式规则,构造基本查询 查询扩展 借助问答系统百度知道扩展查询 相关性排序问句列表 针对单个问句的相似问题推荐 名词性特征词的查询构造规则 e1 + + fw,例如:周杰伦 父亲,周杰伦 老爸 fw + + e1,例如:父亲 周杰伦,老爸 周杰伦 e1 + fw + 是谁?,例如:周杰伦的父亲是谁?,周杰伦的老爸是谁? 谁是 + e1 + 的+fw?,例如:谁是周杰伦的父亲?,谁是周杰伦的老爸? 动词性特征词的查询构造规则 e1 + + fw,例如:赵薇 饰演,赵薇 出演 fw + + e1,例如:饰演 赵薇,出演 赵薇 关系种子集抽取(4) 网页检索 百度网页:snippet 百度新闻:snippet 百度知道:snippet,最佳答案 答案抽取 基于频率统计的方法(baseline) 基于上下文模式的方法 基于频率统计与上下文模式相结合的方法 关系种子集抽取(5) 基于上下文模式的方法 权威媒体TVBS娱乐记者正式对外公布了周杰伦的父亲周耀中的一篇关于杰伦身世之迷的博客文章. 对外/v 公布/v 了/u 周杰伦/Nh 的/u 父亲 关系种子集抽取(6) 基于频率统计与上下文模式相结合的方法 关系种子集抽取(7) 实验数据 种子实体e1:Top-500 关系类型R:9种 评价标准 每类随机选取100个进行人工评价 准确率、平均准确率 不直接评价召回率,通过关系种子总数间接反映 夫妻关系、经纪人关系、合作关系 情侣关系、父母-子女、好友关系 角色扮演、兄弟姐妹、伯乐关系 大纲 绪论 关系类型发现 关系种子集抽取 关系描述模式挖掘 结论 关系描述模式挖掘(1) 基于Bootstrapping的关系描述模式挖掘 关系元组 模式泛化 关系实例 抽取 上下文模式生成 模式过滤 关系描述 模式 大规模语料库 特征词集 关系元组集 候选元组 抽取 元组过滤 关系描述模式挖掘(2) 上下文模式生成 梁朝伟和刘嘉玲自本月21日于不丹正式结婚后,24日早上首次公开露面. 梁朝伟和刘嘉玲7月21日将于不丹完婚. 梁朝伟/Nh 和/c 刘嘉玲/Nh 自/p 本月21日/Nr 于/p 不丹/Ns 正式/a 结婚/v 梁朝伟/Nh 和/c 刘嘉玲/Nh 7月21日/Nr 将/d 于/p 不丹/Ns 完婚/v ./wp {结婚,完婚} [SLOT1]/Nh 和/c [SLOT2]/Nh 自/p /Nr 于/p /Ns 正式/a/Ed53A 结婚/v/Hj51C [SLOT1]/Nh 和/c [SLOT2]/Nh /Nr 将/d 于/p /Ns 完婚/v/Hj51C ./wp 关系实例 候选 上下文模式 上下文模式 关系描述模式挖掘(3) 软模式生成 对任意两个上下文模式计算最佳匹配长度(带权重的最长公共子序列) 匹配度J定义为: 仅当匹配度大于阈值minJaccard时,用于生成软模式,即构造最长公共子序列 cPi cPj 代价 [SLOT1]/Nh [SLOT1]/Nh