编辑: 颜大大i2 | 2017-09-24 |
0) 詹卫东 北京大学中文系 北京大学中国语言学研究中心 最近更新:2009-07-30 目录一引言.1? 二 语法单位的分层与分类.3? 2.1 语法单位的分层.3? 2.2 语法单位的分类.4? 2.3 从词到短语.4? 2.3.1 词性标记是否直接上升为短语标记的判别依据.4? 2.3.2 词性标记不上升为短语标记的情况举例.7? 2.3.3 词性标记应上升为短语标记的情况举例.8? 三 结构层次标注.9? 3.1 结构层次划分的一般原则.9? 3.2 多分支结构举例.11? 3.2.1 双宾语构造.11? 3.2.2 兼语构造.11? 3.2.3 v + 给+np 构造 11? 3.2.4 多分支动词结构的套合.12? 3.2.5 v + 有+np 构造 13? 3.2.6 v + 到+sp + 去 构造.13? 3.2.7 v + 趋向动词
1 + np + 趋向动词
2 构造 13? 3.2.8 v + 得+补语 构造 14? 3.2.9 vp + q + np 构造 14? 3.2.10 x 的y 构造.14? 3.2.11 是x的 构造 16? 3.2.12 m + a + q 构造 18? 3.2.13 框式结构.18? 3.2.14 并列结构.24? 3.3 二分支结构的层次分析问题举例.25? 3.3.1 了 附着在前面哪一个成分上.25? 3.3.2 数量短语向前还是向后组合.25? 3.4 标点符号在结构中的位置.27? 3.4.1 逗号不应出现在多分支结构的末尾.27? 3.4.2 成对出现的标号.27? 3.4.3 破折号、连字符、省略号.27? 四 语法功能标注.29? 4.1 短语功能与结构位置的对应关系.29? 4.2 短语功能定类需注意的一些问题.31? 4.2.1 词和短语的功能偏移现象.31? 4.2.2 x 的 结构的功能类别.32? 4.2.3 x 的y 结构的功能类别 32? 4.2.4 联合式结构的功能类别.33? 4.2.5 np + qp 结构的功能类别.33? 4.2.6 qp + qp 结构的功能类别.34? 4.2.7 tp + vp 结构的功能类别.34? 4.2.8 语篇成分(yp)的标注.34? 4.2.9 复句(fj)的标注 39? 4.2.10 引句(yj)的标注.40? 4.2.11 整句(zj)的标注.44? 4.2.12 独词句.45? 4.3 语言成分的自指(self-referential)用法 45? 五 中心成分标注.46? 5.1 短语结构类型与短语中心成分的对应关系.46? 5.2 助动词不作中心成分.46? 5.3 倒装结构的中心成分.47? 5.4 连谓结构和联合结构的中心成分.47? 5.5 多分支结构的中心成分.47? 5.6 一个短语有且只能有一个中心成分.47? 六 树库标注中需要注意的其他问题.48? 6.1 应避免将一个标记直接上升为同级标记.48? 6.2 同类现象应做同样标注.49? 参考文献.50? 致谢 51? 后记 52? 附录一:现代汉语树库加工流程.53? 1.1 现代汉语树库加工流程示意图.53? 1.2 树库加工中用到的计算机辅助软件.54? 1.3 树库校对工作注意事项.55? 附录二:现代汉语文本断句的操作标准.57? 2.1 根据标点进行断句.57? 2.1.1 结句标点:句号、问号、感叹号.57? 2.1.2 省略号.57? 2.1.3 左右匹配型标点.57? 2.2 无标点结尾的 句子 58? 2.3 断句时考虑句长因素.58? 2.3.1 跟引句相关的长句.58? 2.3.2 以分号为断句标点的长句.59? 2.3.3 一逗到底 的长句.60? 2.4 剧本类文本的断句.61? 2.5 小结:断句处理总的指导原则.64? 附录三:现代汉语树库标记一览表.65? 附录四:现代汉语树库样例.69? 附录五 北大中文树库与宾州大学树库标注体系对比.74? U本规范文件的配套文档是 现代汉语树库标注常见问题举例U -
1 - 一 引言 对自然语言句子的结构进行全自动的分析,是计算机进行自然语言信息处理的核心环 节.这个环节的任务可以概括地描述为:将一维的线性字符串(句子)转换为二维的句法树 结构的过程.例如,给计算机一个输入: 他喜欢大眼睛姑娘. ,如果计算机能够对这个句 子进行正确的结构分析,它就可以输出如图 1-1 所示的树结构(有关标记的含义可见下文及 附录三的说明) . 计算机要自动完成这个任务,并不是一件容易的事情,对于 他喜欢大眼睛姑娘 这个输入 来说,计算机也有可能分析为下面这样的树结构: 图1-2 与图 1-1 中关于 大眼睛姑娘 的分析结果是不一样的.显然,图1-2 是错误的分析. 为了帮助计算机完成上面这样的任务(从某种程度上说,这也就是 理解 了句子的意义) , 需要我们人自身先对自然语言句子的结构有全面系统的把握. 为此, 就需要我们对大量的实 际句子进行句法结构标注, 为提高计算机自动句法分析的正确率 (包括基于规则的分析方法 图1-2 图1-1 -