编辑: 枪械砖家 | 2019-09-04 |
nju.edu.cn [email protected] http://nlp.nju.edu.cn 主要内容(1) p?? 自然语言处理概述 n?? 什么是自然语言处理 n?? 自然语言处理技术的应用 n?? 自然语言处理的基本策略和实现方法 n?? 自然语言处理的难点 n?? 自然语言处理所涉及的学科 p?? 基于规则的自然语言处理方法(理性方法,传统 方法) n?? 基于词典和规则的分词(汉语、日语) n?? 基于CFG(上下文无关文法)的句法表示及其分析技 术n?? 基于扩充的CFG(复杂特征集、合一运算)的句法表 示及其分析技术 n?? 词义及句义表示:基于逻辑形式和格语法的句义分析 n?? 基于规则的机器翻译 主要内容(2) p?? 基于语料库和统计学习的自然语言处理方法(经验 方法) n?? 语言模型(N元文法) n?? 分词、词性标注(序列化标注模型) n?? 句法分析(概率上下文无关模型) n?? 文本分类(朴素贝叶斯模型、最大熵模型) n?? 机器翻译 (IBM Model) 主要内容(3) 所需的前导知识 p?? 编译技术 p?? 概率与统计 参考书籍 p?? 刘群等译,自然语言理解(第二版),电子工业出版社,2005 p?? 苑春法等译,统计自然语言处理基础,电子工业出版社,2005 p?? 冯志伟等译,自然语言处理综论,电子工业出版社,2005 p?? 黄昌宁等,语料库语言学,商务印书馆,2002 p?? 冯志伟,计算语言学基础,商务印书馆,2001 p?? 余士文,计算语言学概论,商务印书馆,2003 p?? 姚天顺,自然语言理解--一种让机器懂得人类语言的研究(第 2版),清华大学出版社,2002 p?? 宗成庆,统计自然语言处理,清华大学出版社,2008 p?? 王小捷等,自然语言处理技术基础,北京邮电大学出版社,2002 p?? 刘颖,计算语言学,清华大学出版社,2002 p?? Bonnie J. Dorr, et al, Survey of Current Paradigms in Machine Translation,Technical Report LAMP-TR-027, Language and Media Processing Lab, University of Maryland. p?? Hutchins WJ, Machine Translation: Past, Present, Future. Chichester: Ellis Horwood,
1986 p?? Arturo Trujillo, Translation Engines: Techniques for Machine Translation, Springer-Verlag London Limited
1999 p?? Peter F. Brown, et al., A Statistical Approach to MT, Computational Linguistics, 1990,16(2) p?? P.F. Brown, et al., The Mathematics of Statistical Machine Translation: Parameter Estimation, Computational Linguistics, 1993, 19(2) p?? 赵铁军等,机器翻译原理,哈尔滨工业大学出版社,2000 p?? 宗成庆等译,统计机器翻译,电子工业出版社,2012 课程考核 p?? Projects p?? 提交要求(每个project) n?? 报告(说明基本做法) n?? 源程序及可运行的程序 自然语言处理概述 什么是自然语言处理 p?? 充分利用信息将会给人们带来巨大的收益,而大 量的信息以自然语言形式(英语、汉语等)存在. p?? 如何有效地获取和利用以自然语言形式出现的信 息? p?? 自然语言处理(Natural Language Processing, 简称NLP)是指用计算机对语言信息进行处理的 方法和技术. p?? 与NLP相近的两个研究领域: n?? 自然语言理解(NLU):强调对语言含义和意图的深层 次解释 n?? 计算语言学(CL):强调可计算的语言理论 NLP技术的应用 p?? 机器翻译 p?? 自动摘要 p?? 文本分类 p?? 信息检索 p?? 信息抽取 p?? 自动问答 p?? 情感分析 p?? ...... 机器翻译(Machine Translation) p?? 机器翻译(Machine Translation,简称MT)是指 利用计算机实现自然语言(英语、汉语等)之间的 自动翻译. n?? 文本机器翻译 n?? 语音机器翻译 p?? 机器辅助翻译(Machine Aided Translation或Computer Aided Translation,简称MAT或CAT) n?? 翻译记忆体(Translation Memory,简称TM) n?? 双语对照的文本编辑 n?? ... 自动摘要(Text Summarization) p?? 利用计算机自动地从原始文档中提取全面准确地 反映该文档中心内容的简单连贯的短文. p?? 压缩比 文本分类(Text Classification) p?? 利用计算机将一篇文章归于预先给定的某一类或某 几类的过程. p?? 可用于信息过滤(Information Filtering) 信息检索(Information Retrieval,IR) p?? 主题相关的文本获取. p?? google、百度、...(基于关键词的) 信息抽取(Information Extraction,IE) p?? 主题相关的信息获取 p?? 信息抽取是指从非结构化或半结构化的自然语言文 本中提取出与某个主题相关的结构化信息. p?? IE对数据挖掘的支持 新华社北京3月8日电(记者李术峰): 中国农工民主党第十二 届中央常务委员会第一次会议今天在北京召开. 会议研究通过了贯彻落实 两会 精神的有关决定,审议通过了 中国农工民主党中央1998年工作要点(草案),并任命了中央副 秘书长. 农工民主党中央主席蒋正华主持了会议,他说,农工民主党有1 00多名党员作为代表和委员参加了今年的 两会 ,各位党员要认 真履行代表和委员的职责,开好会,在1998年的工作中认真贯彻 两会 精神,加强农工民主党的自身建设,推动事业进一步发展, 为建设有中国特色社会主义事业作出新的贡献. 会前,农工民主党中央邀请参加 两会 的来自全国各省、自治 区、直辖市的农工民主党党员进行了联谊活动. 信息抽取实例:会议报道(人民日报1998-03-09) 信息抽取的结果 会议时间Time 1998年3月8日会议地点Spot 北京 会议召集者 / 主持人Convener 个人姓名/团体名称 Name 蒋正华 机构、职位Org/Post 主席,农工民主党中央 会议名/标题Conf-Title 中国农工民主党第十二届中央常务委员 会第一次会议 自动问答(Question Answering,QA) p?? 针对用户提出的问题,给出具体的答案. p?? Apple的Siri、IBM的Watson机器人、百度的 知道 、… 情感分析(Sentiment Analysis或Opinion Analysis ) p?? 分析文章对某个对象的态度是正面还是负面. n?? 公共关系:舆情分析 n?? 市场决策:产品意见调查 n?? ...... 自然语言处理的主要任务 p?? 语言分析:分析语言表达的结构和含义 n?? 词法分析:形态还原、词性标注、命名实体识别、分词(汉语)等n?? 句法分析:组块分析、结构分析、依存分析 n?? 语义分析:词义、句义(逻辑、格关系、...)、篇章(上下 文分)(指代、实体关系) p?? 语言生成:从内部表示生成语言表达 p?? 多语言处理:语言之间的对齐、转换 p?? 不同的应用对上述任务有不同的要求. n?? 机器翻译需要NLP各方面的方法和技术支持,是NLP的典型应用,它几乎涵盖了NLP各个任务. 自然语言处理的实现方法 p?? 基于语言规则的理性方法(Rationalist approach) n?? 基于以规则形式表达的语言知识(词、句法、语义以及转 换、生成)进行推理. n?? 强调人对语言知识的理性整理. n?? Chomsky:先天语言能力,主宰1960-1985 p?? 基于语料库和统计学习的经验方法(Empiricist approach) n?? 以大规模语料库(单语和双语)为语言知识基础. n?? 利用统计学习方法自动获取和运用隐含在语料库中的知识 n?? 知识体现为一系列统计数据(参数) p?? 混合方法 n?? 理性方法的优、缺点 p?? 相应的语言学理论基础好 p?? 描述精确 p?? 效率高 p?? 知识获取困难(高级劳动) p?? 鲁棒性(适应性)差:不完备的规则系统将导致推理的失败 p?? 知识扩充困难,很难保证规则之间的一致性 n?? 经验方法的优、缺点 p?? 知识获取容易(低级劳动) p?? 鲁棒性好:概率大的作为结果 p?? 扩充容易、一致性容易维护 p?? 相应的语言学理论基础差 p?? 缺乏对语言学知识的深入利用,过于机械 p?? 效率低 n?? 利用各家之长,相互融合 自然语言处理的难点 p?? 歧义处理 n?? 有限的词汇和规则表达复杂的、无限的语言 p?? 语言知识的表示、获取和运用 p?? 成语和惯用型的处理 p?? 对语言的灵活性和动态性的处理 n?? 灵活性:同一个意图的不同表达,甚至包含错误的语法等 n?? 动态性:语言在不断的变化,如:新词等 p?? 上下文和世界知识(语言无关)的利用和处理 汉语处理的难点 p?? 缺乏计算语言学的句法/语义理论,大都借用基于西方语言的 句法/语义理论 p?? 词法分析 n?? 分词 n?? 词性标注难 p?? 句法分析 n?? 主动词识别难 n?? 词法分类与句法功能对应差 p?? 语义分析 n?? 句法结构与句义对应差 n?? 时体态确定难 (汉语无形态变化) p?? 资源(语料库)缺乏 自然语言处理所涉及的学科 p?? 计算语言学:各种语法、语义理论 p?? 计算机科学(包括人工智能) p?? 数学:逻辑、概率与统计、信息论,等p?? 哲学(认知学) p?? 心理学 p?? ...... 基于规则的自然语言处理 方法 ( 理性方法,传统方法) 概述 p?? 强调对语言知识的理性整理(知识工程) p?? 受计算语言学理论指导 p?? 基于规则的知识表示和推导 p?? 语言处理规则(数据)与程序分离,程序体现为规 则语言的解释器! 自然语言的分类(基于形态结构) p?? 分析型语言 n?? 词形变化很少 n?? 没有表示词的语法功能的附加成分,由词序和虚词表示词之间的 语法关系 n?? 汉语、藏语等 p?? 黏着型语言 n?? 有词形变化 n?? 词的语法意义(功能)由附加成分表达 n?? 芬兰语、日语等 p?? 屈折型语言 n?? 有词形变化 n?? 词的语法意义由词的形........