编辑: hgtbkwd 2013-06-21
工学博士学位论文 基于统计方法的汉语依存句法 分析研究 Research on Chinese Dependency Parsing Based on Statistical Methods 马金山哈尔滨工业大学

2007 年12 月 国内图书分类号:TP391.

2 国际图书分类号:681.37 工学博士学位论文 基于统计方法的汉语依存句法 分析研究 博士研究生:马金山 导师:李生教授 副导师:刘挺教授 申请学位级别:工学博士 学科、专业:计算机应用技术 所在单位:计算机科学与技术学院 答辩日期:2007 年12 月授予学位单位:哈尔滨工业大学 Classified Index:TP391.2 U. D. C. :681.37 A Dissertation for the Degree of D. Eng Research on Chinese Dependency Parsing Based on Statistical Methods Candidate: Ma Jinshan Supervisor: Prof. Li Sheng Associate Supervisor: Prof. Liu Ting Academic Degree Applied for: Doctor of Engineering Specialty: Computer Application Technology Affiliation School of Computer Science and Technology Date of Oral Examination: December,

2007 University: Harbin Institute of Technology 摘要 I 摘要句法分析的任务是根据给定的语法,自动推导出句子的语法结构.句法 分析性能的提高将对信息检索、信息抽取以及机器翻译等应用产生重要的推 动作用. 在句法分析的研究中,依存语法以其形式简洁、易于标注、便于应用等 优点,逐渐受到研究人员的重视.目前,已经被自然语言处理领域的许多专 家和学者所采用,应用于多种语言之中.但由于语料资源以及技术等原因, 汉语在依存句法分析方面的相关研究并不多.为了弥补这方面的不足,本文 使用基于语料库的统计学习方法,对汉语的依存句法分析技术进行了探索. 本文的工作分五个部分,具体内容如下: 1. 实现了一个包含分词和词性标注的词法分析系统, 并增加了动词子类 标注的功能.区分动词的语法属性是为了减少由动词引起的语法歧义,降低 句法结构的复杂度.本文首先制定了一个动词细分类体系,将动词分为

8 个 子类,然后使用最大熵的方法对动词进行子类标注,用以改善句法分析的性 能. 2. 名词复合短语是各种语言中的普遍存在的一种语法结构,对信息抽 取、机器翻译等应用有很大的影响.由于传统的句法分析对此类结构的处理 不够理想,本文对名词复合短语进行专门处理,以降低句法分析的难度.针 对汉语名词复合短语的特点,本文提出一种基于隐马尔科夫树模型的名词复 合短语分析方法,较好地解决了此类短语对句法分析的影响. 3. 句法分析对句子的长度非常敏感,随着长度的增加,句法分析的效率 以及准确率均会受到严重的影响.为了减少句子长度的影响,本文对句子片 段进行识别.先将句子划分为多个片断,并使用基于支持向量机的方法对每 个片断类型进行识别;

然后对片段进行依存分析,再识别出各片断之间的依 存关系,最后将各个片断组合为一个完整的分析树. 4. 根据汉语的特点,探索了一个高效的汉语依存句法分析算法.针对汉 语语法结构灵活、树库资源不是非常充分的情况,本文使用分治策略对句子 中的一些特定语法结构进行预处理.在搜索算法上,使用动态局部优化的确 定性分析算法对句子进行解码,提高了搜索的效率. 5. 为了检验汉语依存句法分析方法的扩展性, 并探索单语依存分析同多 哈尔滨工业大学工学博士学位论文 II 语依存分析的不同之处, 本文实现了一个基于分步策略的多语依存分析系统, 并在 CoNLL

下载(注:源文件不在本站服务器,都将跳转到源网站下载)
备用下载
发帖评论
相关话题
发布一个新话题