编辑: 645135144 | 2019-07-09 |
845 篇.我们尝试几种机器学习(machine learning)为基础的分?方 法,目前最好的正确性,其F1 measure [30]仅仅达到 53.6%. ??就规模或成果而言,本研究的现况显然距?实用还需要一定的努?.然而,目 前的实验?С?大多?学者的看法,他们认为只依靠文字表面资讯并?足以正确地 将文字可?性进?分?[17].此外,由於所使用的训?语?包含?阅?文本与测验题? 大部分 , 但在本研究中因为技术的缺憾 , 我们对测验题的问题深?并没有进一步的分析 , 只截取阅?本文?进?可?性分级的讨?,这是我们未?最可以进?改?的一个方向. 我们整体的研究?程,著重於国内学生的真实试题分析,并且分析?同文字、?长、和 ?法相关深层特徵项目,对於阅?测验短文的分级效果应该是最主要的贡献. 我们在
第二节报告所使用的语??源,?明我们如何对於这一些语?进?前处?. 在
第三节?明我们使用?哪一些词汇层次的资讯和抽取该?资讯的方法.在
第四节中描 述如何抽取相关的?法层次资讯.在
第五节中我们报告相关的实验结果,最后在第?节 进?总结. 2. 系统设计 从所要分?的文本中抽取相关的特徵项目是短 文分?的首要工作,我们?用图
1 表示整体的 处?程序,详细的细节於后续节次提供.原始 文章经过前处?动作后,同时往?个方向进? 后续工作.一方面透过 Stanford Parser [29](为 ?文简?,除?
图表标题之外,以下将简称为 剖析器)建构出该篇文章所有?子的结构树, 同时从树中得到?子深?、?法结构的特徵向 ?;
另一方面,依序透过 Stanford POS Tagger 及Stanford Stemming [28] 得到文章中所有单 字的原形,接著再到各字表,CMU 字典[27]和 译典通线上辞典 (以下称为 Dr.eye) [10]统计出 各特徵值.我们将在第
0 节中描述语??源和 第2.2 节中?明所做的前处?工作. 图1特徵项目的抽取?程 前处? 原始文章 Stanford Parser Stanford POS Tagger Stanford Stemming CMU 字典 Dr.eye 计算特徵值 计算?子深 ?、?法结构 特徵向? 字表 2.1 研究背景与语??源 我们的训?语? 取自於
96 学?? 三民版高中英文 试题光碟? ,内部 有三个版本由高 一上至高二下的 四册语?共十二 组资?,如表
1 所示 . 其中三民陈 版本为民国
95 ? 台大陈?霞教授 主编;
三民谢版本为谢国平先生主编;
新三民版本为
96 ?三民陈的?新版[1]. 由於在高中阅?测验题型,常会有一些少用,或是特殊名词的中文提示,?如:人名、地名或医学?域的专有名词等,?可能加上中文字?帮助阅?者减少阅?障碍.在 前处?时我们将这些中文提示当作一个特徵?记?,每一个提示当作一笔资讯记?,接 著将此中文字删除,即可得到没有中文干扰的全英文语?;
统计?绫
1 最后一?所 示,在上学期的试题中,相对於下学期,拥有较多的中文提示总?.我们推测每学?上 册阅?测验的目标 , 偏重学生对於文意的?解 , 故文章中会有较多的中文提示辅助阅? . 而下学期阅?测验的目标,则偏重学生对基础单字的掌握程?,故给予较少的中文提 示. 2.2 前处? 由於人们对於文章的难?常会因为篇幅的大小、单字?的多寡、单字本身字义?目的情 况,还有?子的长?而有一定的直觉 . 大多?我们认为 , 当?子的长?过於冗长的时候, 我们会对该文章的?解能?有所下? , 也会较片面的认定 , 相对於?子长?较短的文章 , 长篇文章应属於偏难的程?.另外当文章中出现少?文法的比?高时,我们合?的怀疑 该文法是比较困难的,较容?使?者产生一定的阅?负担. 在完成前处?之后,可?用剖析器得到文章中的总??、各?结构树深?和文法资 讯.?用 Stanford POS Tagger 和Stanford Stemming 得到包含标点符号的总单字?、? 含标点符号的总单字?、标点符号的总个?、平均每?含标点符号的单字?、平均每? ?含标点符号的单字?和平均每?的标点符号个?,共?个特徵资讯.我们期望从这些 资讯中,可找到适用於中学阅?测验短文分?的特徵. 3. 以单字为基础的特徵值 在英语学习方面,依97 ?国民中小学九?一贯课程纲要的第 5-2-1 条中提到,国中毕 业生应能熟习课纲中所标示之