编辑: 颜大大i2 | 2017-09-24 |
2 - 和基于统计的分析方法)提供一个坚实的基础. 像上面图 1-1 所示的句法结构树,在计算机中一般采用加括号(bracket)的一维线性形 式来表示,例如: [ zj [ !dj [ np [ !rn [ 他]]!vp [ !vp [ !v [ 喜欢 ] ] np [ np [ ap [ !a [ 大]]!np [ !n [ 眼睛 ] ] ] !np [ !n [ 姑娘 wfs 其中 zj,np,n 等是语言成分的功能标记,左右括号 [ ] 则用来确定成分的边界.人 们通常把带有这样的句法结构信息标记的句子组成的语料库称为 树库 (TreeBank) . 在树库基础上进一步获取句法分析规则, 或者提取用于概率句法分析的参数, 可以帮助 计算机更好地进行自动句法分析.此外,在建成大规模树库后,对于进行定量的句型研究和 语言教学都有极高的价值. 汉语语料库一般的加工流程是: ? 分词和词性标注 ? 短语结构层次划分 ? 短语功能类别标注 ? 短语结构关系标注 ? 语义关系标注 ? 篇章信息标注 理想情况下, 语料库中人工标注的信息越多, 能够为计算机自动分析和语言研究与应用 提供的帮助就越大.但在实践中,限于时间和人力等客观条件的限制,目前树库一般还难以 按照上述流程全面地标注各个层极的信息,实际中标注下面两种信息的情况较多: (1)结构边界信息,通常用[ ]或( )等符号来标记,表示语言成分的结构层次. (2)功能范畴信息,比如 np,vp,…等等,用来表示一个语言成分的句法功能. 本加工规范将规定如何对汉语句子内部成分进行结构边界划分, 以及如何来确定一个语 言成分的功能范畴.对于实际的工作环节,包括从原始语料到制作成树库,请参见附录一的 说明. 规范正文的主体内容是对 短语层次划分 与 短语功能类别标注 两部分的描述 (同 时也涉及到一定的短语结构关系的问题) .在树库加工的过程中,也还会碰到分词和词性标 注的一些问题,但限于篇幅,有关分词和词性标注的规范及相关问题这里从略(可以参看参 考文献中列出的北京大学计算语言学研究所的相关规范文档) .本规范基本不涉及到语义关 系标注、篇章信息标注. -
3 - 二 语法单位的分层与分类 分层和分类是人们认识事物的基本方式. 树库实际上就是用一种具体的形式来反映人们 对语言成分分层和分类的认识.这包括分哪些层,哪些类;
以及如何分. 2.1 语法单位的分层 本规范所描述的树库加工过程中涉及到的语法单位可以分为三个层次(三级) : 一级单位是树库加工中所面对的最大的加工单位, 即 整句 . 树库加工中暂不涉及 句段 语篇 等更大的单位.对整句,目前没有进一步分类TPF
1 FPT;
二级单位是中层单位,即短语结构(或者说是词组) ,对这一层单位,根据功能差异, 可以区分为复句性短语、单句性短语、名词性短语、动词性短语,形容词性短语、副词性短 语、……等等类型TPF
2 FPT(详见下文
第四节的具体说明) ;
三级单位是基层单位,即词和语素. 下面表 2-1 对三级语言单位的性质作了进一步的说明. 表2-1: 一级单位 (整句) 不能被任何其他单位包含 这级单位不能作构成成分,所以不 再进行功能分类,可依据结构分类 二级单位 (短语) 可以被一级和二级单位包含, 也可 以包含二级和三级单位 这级单位可以相互嵌套;
这级单位 的分类应该同时考虑其功能和内部 结构两个方面 三级单位 (词) 只能被二级单位包含, 不能包含其 他单位 这级单位只能作构成成分;