编辑: 人间点评 2017-09-24
中文信息学报 第19卷第5期JOURNAL OF CHINKSE INFORMATION PROCESSING v01.

19 Nb.5 文章编号:1003―0077(2005)05―0037―07 用动词的论元结构跟事件模板相匹配 ――一种由动词驱动的信息抽取方法 袁毓林 (北京大学中文系,北京100871) 摘要:本文以文献[2]中信息抽取模型(Infox)的测试语料(职务变动文本)为主要对象,具体说明怎样建立 从动词的论元结构到相关的事件模板的匹配关系.首先根据职务变更动词的有关句法、语义特点,把它分成 六个小类:任命、担任、免职、辞职、调遣、受命;

然后,分别描写每一小类动词的论元结构,特别是它们所支配的 论元角色及其句法配置方式.最后,建立动词的论元角色跟事件模板元素的匹配关系,并揭示动词对文本筛 选和合并都有导向作用,说明发展由动词驱动的信息抽取方法的可行性.~ 关键词:计算机应用;

中文信息处理;

4a-息抽取;

事件模板;

论元结构;

模板元素;

论元角色 中图分类号:TP391 文献标识码:A Matching Even-template研廿I Argument Structure of Verbs: Towards a Verb―driven Approach of Information Extraction YUAN Yu.1in (D印t.of Chinese Lang.&

Ijt.,Peking University,BeUiIlg 100871,ChiIla) Abstraet:This paper demonstrates how to establish the matching relation between event-template of an information extraction (briny,IE)system and the argument structure of the related verbs basing on the analysis of the succession texts according to[2]testing data for his匝system InfoX.It firstly divides the succession verbs into six classes(appoint,hold,remove, resign,dispatch,transfer)according to their syntactic and semantic feattrres.Then it describes the argument struetore of these six classes of verbs,especially the thematic role of the arguments and their syntactic arrangement.Finally,it estab― lishes the matching relation between succession event-template elements and the argument roles of these six dasses of SHCCes- sion verbs,reveals the orientation function of the related verbs in scrq虻n and merger of texts,and illustrates the possibility of developing a verb-driven approach of IE. Key words:computer application;

Chinese information processing;

information extraction;

event-template;

argument stme- ture;

template elements;

argument roles 1信息抽取模板和动词的论元结构 在信息抽取(information extraction,简称皿)系统中,信息抽取模板起到把要提取的信息内 容类型化和结构化的作用.比如,用户所关心的一个任职事件中的四个信息项目:谁、什么时 候、什么组织、什么职务,可以表示为任职模板中的四个模板元素(template elements).这样,跟 收稿日期:2004―07―26定稿日期:2005―04―11 基金项目:教育部人文社会科学研究 十五 规划第一批研究项目(01JB740006) 作者简介:袁毓林(1962一),男,教授,主要研究领域为理论语言学和汉语语言学

37 万方数据 某种特定事件相关的模板就是一个事件模板,模板中的槽(slots)就是事件的参与者(participa. nts).如果把一个事件模板看作是一个句子的语义的某种抽象化表示,那么模板元素之间的 关系就是动词的意义,各个模板元素就是动词所支配的论元(argument).因此,文献[5]指出: 动词的论元结构可以传递到事件脚本或框架中,动词的论元最终将成为填人事件模板中的信 息项目. 本文以文献[2]中的应用实例 职务变动(succession) 的测试语料为主要对象,具体说明怎 样建立从动词的论元结构到相关的事件模板的匹配关系. 2职务变动文本中动词的类型和特征 文献[2]选取北京大学计算语言学研究所加工出来的1998年《人民日报》语料,对他设计 的信息抽取模型(InfoX)进行测试.这是一种已经完成了分词、词类标注和专名处理的语料. 他通过人工阅读头两个月的语料(约17.5MB文本),从中找出70多个职务变动事件,其中 任职 45个, 离职 16个, 调职 11个.召回率(正确数目除以实际数目)为45%,基本达到其设 计目标. 我们对这些测试语料(47个文本)重新进行了分析,发现其中实际出现了81个职务变动 事件,每一个事件都由一个动词及其从属成分来表达.为了方便,这种表示职务变动的动词可 以叫作 职务变更动词 ;

下载(注:源文件不在本站服务器,都将跳转到源网站下载)
备用下载
发帖评论
相关话题
发布一个新话题