编辑: sunny爹 | 2018-02-20 |
l, r1, ……, lk, rk>
. 其它w rapper 集 都是LR w rapper 集的扩展.HLR T w rapper 集中 的w rapper 可表示为向量<
h, t, l1, r1, ……, lK, rK >
, 其中 h, t 分别为首位分界符;
OCLR w rapper 集中的w rapper 可表示为向量<
o, c, l1, r1, ……, lK , rK>
, 其中o, c 分别为打开和关闭分界符;
HO
2 CLR T w rapper 集中的w rapper 可表示为向量<
h, t, o, c, l1, r1, ……, lk, rk>
.这四者所处理的响 应页均为含有 HTM L 标记的文本.N
2 LR w rapper 集和N
2 HLR T w rapper 集均可用来抽取嵌套结构 信息, 它们处理的相应页可以是不含 HTM L 标记 的文本. N
2 LR w rapper 可表示为向量<
l1, r1, ……, lk, rk>
, N
2 HLR T w rapper 可表示为向量<
h, t, l1,
3 8
2 1
12 期 基于W eb 资源的信息抽取技术 r1, ……, lk, rk>
, 这些分界符可以是HTM L 标记, 如<
B>
, <
B>
, <
I>
, <
I>
等, 也可以是文本 字符串, 如 nam e , address 等.在LR w rapper 中的各分界符是彼此独立的, 而在N
2 LR w rapper 和N 2HLR T w rapper 中的各分界符是相互关联的. 实践结果表明, 这6个w rapper 集可处理 70% 的网 站, 所需要的样页只需
2 ~
3 页就足够了. W rapper 的生成时间不超过一个 cpu 秒.
4 w rapper 半自动生成系统的开发 手工构建w rapper 极其乏味, 而且很容易出错, 开发w rapper 自动生成系统, 在人工参与的情况下 半自动地或无需人工干预的情况下完全自动地针对 不同的w eb 类型集构建相应的w rapper 是w eb 信 息抽取工作者孜孜以求的目的.一个w rapper 半自 动生成系统可包含如下四个模块. (1) 语法结构标准化模块.该模块负责根据用 户需求抓取w eb 文档, 将文档中的错误标记或丢失 的标记进行修复, 最后将该文档转换成一个语法标 签树, 为进行信息抽取作好准备. (2) 信息抽取模块.负责产生抽取规则.这些 规则用声明性语言来表述.它分三步来执行: ①在 检索到的文档中确定感兴趣的区域.②在语法标签 树中确定重要的语义标签和它们的逻辑路径、节点 位置. ③在检索到的文档中确定有用的层次结构. 每一步的结果都一套抽取规则, 这个模块相当于 w rapper 归纳技术中的w rapper 学习算法. (3) 代码生成模块.利用信息抽取模块中所产 生的信息抽取规则, 结合各个规则所对应的可执行 库例程, 形成w rapper 程序代码.这个过程相当于 w rapper 归纳技术中的w rapper 执行程序的生成. (4) 测试和打包模块.对所生成的w rapper 程 序进行测试和调整, 以期得到更完善的版本, 对最 终所满意的版本进行打包发布. 在这样的一个w rapper 半自动生成系统中, 可 以充分利用声明性语言的优点来对信息抽取进行规 范说明, 大大提高了可重用性. 作为一门应用性的语言处理技术, w eb 信息抽 取近年来正受到越来越多的重视.本文介绍了一个 简单的w eb 信息抽取模型, 在该模型中对w eb 信息 抽取进行了形式化的描述. 此外, 详细探讨了w rap2 per 归纳技术中的 LR w rapper 集, 并就 N icho las kushm erick 所提供的其它五种w rapper 集进行了 比较说明.最后介绍了w rapper 半自动生成系统的 一个原型, 对其各个模块的主要功能进行了阐述. L earnLR 程序 (样页 Ε ) for 每一个 1≤k≤K for 每一个 u∈cands1 (k, Ε ): if valid1 (u, k, Ε ) then lk←u 并终止循环 for 每一个 1≤k≤K for 每一个 u∈candsr (k, Ε ): if validr (u, k, Ε ) then rk←u 并终止循环 return L r w rapper<