【PDF】现代汉语树库（TreeBank）加工规范（Version 1.0） - 资源下载

编辑：

颜大大i2

2017-09-24

2 - 和基于统计的分析方法)提供一个坚实的基础. 像上面图 1-1 所示的句法结构树,在计算机中一般采用加括号(bracket)的一维线性形式来表示,例如: [ zj [ !dj [ np [ !rn [ 他]]!vp [ !vp [ !v [ 喜欢 ] ] np [ np [ ap [ !a [ 大]]!np [ !n [ 眼睛 ] ] ] !np [ !n [ 姑娘 wfs 其中 zj,np,n 等是语言成分的功能标记,左右括号 [ ] 则用来确定成分的边界.人们通常把带有这样的句法结构信息标记的句子组成的语料库称为树库 (TreeBank) . 在树库基础上进一步获取句法分析规则, 或者提取用于概率句法分析的参数, 可以帮助计算机更好地进行自动句法分析.此外,在建成大规模树库后,对于进行定量的句型研究和语言教学都有极高的价值. 汉语语料库一般的加工流程是: ? 分词和词性标注 ? 短语结构层次划分 ? 短语功能类别标注 ? 短语结构关系标注 ? 语义关系标注 ? 篇章信息标注理想情况下, 语料库中人工标注的信息越多, 能够为计算机自动分析和语言研究与应用提供的帮助就越大.但在实践中,限于时间和人力等客观条件的限制,目前树库一般还难以按照上述流程全面地标注各个层极的信息,实际中标注下面两种信息的情况较多: (1)结构边界信息,通常用[ ]或( )等符号来标记,表示语言成分的结构层次. (2)功能范畴信息,比如 np,vp,…等等,用来表示一个语言成分的句法功能. 本加工规范将规定如何对汉语句子内部成分进行结构边界划分, 以及如何来确定一个语言成分的功能范畴.对于实际的工作环节,包括从原始语料到制作成树库,请参见附录一的说明. 规范正文的主体内容是对短语层次划分与短语功能类别标注两部分的描述 (同时也涉及到一定的短语结构关系的问题) .在树库加工的过程中,也还会碰到分词和词性标注的一些问题,但限于篇幅,有关分词和词性标注的规范及相关问题这里从略(可以参看参考文献中列出的北京大学计算语言学研究所的相关规范文档) .本规范基本不涉及到语义关系标注、篇章信息标注. -

3 - 二语法单位的分层与分类分层和分类是人们认识事物的基本方式. 树库实际上就是用一种具体的形式来反映人们对语言成分分层和分类的认识.这包括分哪些层,哪些类;

以及如何分. 2.1 语法单位的分层本规范所描述的树库加工过程中涉及到的语法单位可以分为三个层次(三级) : 一级单位是树库加工中所面对的最大的加工单位, 即整句 . 树库加工中暂不涉及句段语篇等更大的单位.对整句,目前没有进一步分类TPF

1 FPT;

二级单位是中层单位,即短语结构(或者说是词组) ,对这一层单位,根据功能差异, 可以区分为复句性短语、单句性短语、名词性短语、动词性短语,形容词性短语、副词性短语、……等等类型TPF

2 FPT(详见下文

第四节的具体说明) ;

三级单位是基层单位,即词和语素. 下面表 2-1 对三级语言单位的性质作了进一步的说明. 表2-1: 一级单位 (整句) 不能被任何其他单位包含这级单位不能作构成成分,所以不再进行功能分类,可依据结构分类二级单位 (短语) 可以被一级和二级单位包含, 也可以包含二级和三级单位这级单位可以相互嵌套;

这级单位的分类应该同时考虑其功能和内部结构两个方面三级单位 (词) 只能被二级单位包含, 不能包含其他单位这级单位只能作构成成分;

注：以上内容是本站开源项目的机器提供的预览内容，更完整和更好的阅读体验请直接免费下载资源后阅读

下载（注：源文件不在本站服务器，都将跳转到源网站下载）

备用下载

PDF《现代汉语树库（TreeBank）加工规范（Version 1.0）》