编辑: sunny爹 | 2018-02-20 |
12 Decem ber,
2002 的向量〈 A 1, A 2, ……, A k〉 ) , S 为特定的信息资 源库, 可以看成是一个将查询表达转化成响应页 P 的函数.L 为标记信息集, 一个标记信息集L 就是 一个响应页中所要抽取的所有信息元组集合.其形 式化表示如下所示: L = { (b1, 1e1, 1)b1, ke1, k)b1, Ke1, K) } { (bm , 1em , 1)bm , kem , k)bm, Kem , K) } { (b L , 1e L , 1)b L , ke L , k)b L , Ke L , K) } 即该响应页中含有 L >
0 个元组, 每个元组具 有K>
0 个属性.整数 1≤k≤K 是属性索引号, 而 整数 1≤m ≤ L 则是该响应页中的元组索引号, 每个〈bm , k, em , k〉表示为一个单一的属性集.bm , k是第 m 个元组的第 k 个属性在该响应页中的起始位置, em , k 则是它的结束位置. 因此, 第m 个元组的第 k 个 属性的值为该响应页中处于 bm , k 和em , k 两个位置点 之间的字符内容.W 是一个W rapper, 是整个信息 抽取模型的核心, 可以将W 看成是一个将响应页 P 映 射成标记信息集 L 的函数. 用公式表示即为 W (P) = L , 也就是说, 在响应页 P 上调用W , 所 得结果为标记信息集L.
3 w rapper 归纳技术 w rapper 归纳技术是一种自动构建w rapper 程 序的技术.其形式化描述如下所示: 输入: 集合 Ε = {……, 〈pn, ln〉……} (取自 于样例页) , 其中pn 指的是响应页, ln 指的是标记信 息集. 输出: w rapper 程序w , w 属于W (W 为w rap2 per 程序库, 该库是动态构建的). 对于 Ε中的任意一 个〈pn, ln〉 , 均有w (pn) = ln. 在上述概念和模型的基础上, N icho las Kush2 m erick 提出了
6 种wrapper 集: LR w rapper 集, HLR T w rapper 集, OCLR w rapper 集, HOCLR T w rapper 集, N
2 LR w rapper 集和N
2 HLR T w rapper 集. LR w rapper 集是个基础集, 其它五者是它的扩 展.一个w rapper 集包含三个元素: 一个w rapper, 一个w rapper 执行程序和一个w rapper 学习算法. 一个w rapper 可简单地表示为一个向量.该向量具 有多个分量, 各个分量分别对应不同的分界符.一个w rapper 执行程序描述如何用一个w rapper (即 由多个不同的分界符所组成的向量) 去抽取响应页 中的元组信息, 并输出一个标记信息集. 一个w rap2 per 学习算法是由一大堆子例程组合而成, 其功能 为: 通过采用启发式规则和样本分析方法, 为不同 的w eb 类型集, 构建相应的w rapper.在此, 以LR w rapper 集为例作详细的说明. 一个LR w rapper 可 表示为向量 〈l1, r1, ……, lk, rk〉 , 其中 l1, l2, ……, lk 为左边分界符, 如〈 B〉 , 〈I〉等, r1, r2, ……, rk 为右边分界符, 如<
B>
, <
I>
等.LR w rapper 执行程序如图
2 所示. LR w rapper 执行程序 (W rapper<
l1, r1, ……, lk, rk>
, 响 应页 P) M ←0 w hile p 中有多个 l1 m ←m +
1 for 每一个<
lk, rk>
∈ {<
l1, r1>
lK, rK>
} 在p中扫描到下一个 lk;
把该位置记为 bm, k 在p中扫描到下一个 rk;
把该位置记为 em, k return 标记信息集 {…, <
<
bm , 1, em , 1>
bm , k, em, k >
>
, …} 图2LR w rapper 执行程序 它描述了一个LR w rapper 是如何执行的.它 的输入参数为: W rapper<
1, r1, ……, lk, rk>
和 响应页 P, 输出结果为: 标记信息集 {…, <
<
bm , 1, em ,
1 bm , kem , k>
LR w rapper 学习 算法如图
3 所示.它列举了LR 学习程序L earnLR 及其candsx (x∈ {l, r})、validx 等相关子例程.LR w rapper 学习算法依次考虑每一个分界符, 对于每 一个分界符, 算法都要为其枚举侯选集 candsx (k, Ε ) 中的每一个侯选对象, 一旦有侯选对象满足 所有有效条件 validx, 则被确定为合格对象, 该循环 终止. L earnLR 的输入参数为样页 Ε , 输出结果为LR W rapper <