编辑: 牛牛小龙人 | 2015-08-29 |
0 和/c 和/c
0 [SLOT2]/Nh [SLOT2]/Nh
0 自/p ?
10 ?/Nr /Nr
0 将/d
10 于/p 于/p
0 /Ns /Ns
0 正式/a/Ed53A ?
10 结婚/v/Hj51C 完婚/v/Hj51C
5 ? ./wp
10 上下文模式最佳匹配过程 J=7/(9+9-7)=0.636 关系描述模式挖掘(4) 软模式生成及元组抽取 * [SLOT1]/Nh 和/c [SLOT2]/Nh * /Nr * 于/p /Ns * 结婚/v/Hj51C * [SLOT1]/Nh 和/c [SLOT2]/Nh 自/p /Nr 于/p /Ns 正式/a/Ed53A 结婚/v/Hj51C [SLOT1]/Nh 和/c [SLOT2]/Nh /Nr 将/d 于/p /Ns 完婚/v/Hj51C ./wp 软模式 关系元组 上下文模式 李亚鹏和王菲昨日于乌鲁木齐正式登记结婚,两人爱情终于修得正果! 关系实例 李亚鹏/Nh 和/c 王菲/Nh 昨日/Nt 于/p 乌鲁木齐/Ns 正式/a/Ed53A 登记/v/Hc15A 结婚/v/Hj51C ,/wp 上下文模式 关系描述模式挖掘(5) 关系元组评价 新抽取元组将作为下一轮迭代的种子 过滤噪声元组,避免错误蔓延现象 根据关系元组与特征词fw共现情况,定义元组T可信度计算公式: 仅保留可信度大于阈值minTupleConf 的元组 关系描述模式挖掘(6) 实验数据 RE100W:100W娱乐资讯网页 关系类型:9种 关系种子:基于Web Mining方法自动获取 评价标准 每类随机选取100个进行人工评价 准确率、平均准确率 不直接评价召回率,通过关系元组总数间接反映 夫妻关系、经纪人关系、合作关系 情侣关系、父母-子女、好友关系 角色扮演、兄弟姐妹、伯乐关系 关系描述模式挖掘(7) 四组对比实验(根据关系元组过滤时机) B:在迭代过程中不采取任何过滤措施 B+F1:每一轮获取的元组全部进入下一轮迭代,最后对获取的所有元组进行过滤 B+F2:每一轮都对获取的元组进行过滤,可信度超过某一阈值的元组进入下一轮迭代,而低于可信度阈值的元组直接作为最终结果 B+F1+F2:每一轮都对获取的元组进行过滤,可信度超过某一阈值的元组进入下一轮迭代,舍弃低于可信度阈值的元组 大纲 绪论 关系类型发现 关系种子集抽取 关系描述模式挖掘 结论 结论 ........