编辑: JZS133 | 2017-09-24 |
24 2 部分分析方法 ? 从完全句法分析(complete parsing)到部分句法分析(partial parsing) ? 真实语料的复杂性 ? 语言知识的不足 ? 提高分析的效率 ? 应用目标驱动 e.g. 命名实体识别(Named Entity Recognition) shallow parsing / 浅层分析 chunking / 组块分析 部分分析的另外两个名称:
25 部分分析示例 这一切已经引起世界各国的普遍关注 这一切 已经引起 普遍关注 世界各国 的RP VP NP S
26 部分分析示例(续) The peculiar fossil was found by a famous scientist who died last year The peculiar fossil was found by a famous scientist who died last year NP VP NP S PP P WhNP VP AdvP CS
27 2.1 基于HMM的部分分析技术 识别目标:非递归NP 组块分析:在词性序列中插入括号,来标示组块边界 The prosecutor said in closing that … / DT / NN / NN / VB / IN / CS [ ] [ ]
28 短语边界 一对词性标记之间可能插入的标记: (1) [ 表示一个NP组块的开始 (2) ] 表示一个NP组块的结束 (3) ][ 表示两个NP组块相邻 (4) I 表示不是NP组块边界,且处在NP内部 (5) O 表示不是NP组块边界,且处在NP外部
29 基于HMM的NP组块边界标注 (1)带有词性标记、组块边界标记的语料库Corpus (2)可观察符号序列:词性标记对序列 (3)隐状态:5个可能的NP组块边界标记(chunk_tag) (4)通过对Corpus的统计,得到: (I)状态转移矩阵;
(II)每个状态输出不同词性标记对的概率;
$ The prosecutor said in closing that … ] [ O ] [ I
30 2.2 基于有限状态自动机的部分分析 Level 1: NP→D? A* N+ | Pron VP→Vz | … Level 2: PP→P NP Level 3: SV→NP VP Level 4: S→(Adv|PP)? SV NP? (Adv|PP)* 分层的有限状态自动机(finite state cascades) q0 q1 q2 q3 q4 D N A N A A N N Pron start ? 不出现或出现1次*出现0次,1次或多次 + 出现1次或多次 | 逻辑 或 合法的NP:D N ;
D A N;
Pron;
A N;
N N 非法的NP:A D N;
D D N;
N A N
31 基于FSA的部分分析过程描述 1) 从左向右扫描输入字符串,按照 Li 层级上的正则表达 式模式进行归约,得到新的模式序列,对于输入串中 无法归约的符号,直接输出;
2) i=i+1,在新的 Li 层级上,用正则表达式模式进行归约;
3) 不断进行上述步骤,直至无法归约为止;
4) 如果归约过程中有多种选择,以覆盖范围最大的归约 子串为输出结果.
32 基于FSA的部分分析过程示例 L4 He said he read a book by a famous writer yesterday Pron Vz Pron Vz D N P D A N Adv NP VP NP VP NP P Adv NP NP VP VP NP NP PP Adv NP PP Adv SV SV S S L3 L2 L1
33 基于FSA的部分分析结果 [S [SV [NP He] [VP said]] ] [S [SV [NP he] [VP read]] [NP a book] [PP [P by] [NP a famous writer]] [Adv yesterday] ]
34 3.3 基于转换的错误驱动的部分分析 Eric Brill (1995) Ramshaw &
Marcus (1995) 将识别NP组块边界的问题等同于词性标注问题 利用经人工标注的语料库学习转换规则
35 基于转换的错误驱动的部分分析示例 1) O 表示它所对应单词处在名词组块的外部. 2) L 表示它所对应的单词是名词组块的左边界. 3) I 表示它所对应单词处在名词组块的内部. 4) R表示它所对应的单词是名词组块的右边界. 5) S 表示它所对应的单词单独构成一个名词组块. He puts his dirty hand in the bag . PRP VBZ PRP$ JJ NN IN ART NN . S O L I R O L R O
36 转换规则示例 触发条件: (POS[0]=v) &
(POS[-1]=q) &
(POS[1]=n) &
(CT[0]=O) 转换动作: CT[0] = O ? CT[0] = L 一/m 辆/q 出租/v 汽车/n 起火/v 了/u O O O S O O O O L S O O