编辑: 645135144 2019-07-09

1200 个基本单字,并能应用於日常生活的沟通中[13]. 由此可知,单字本身带有相当程?的分?要素.我们在第 3.1 节中?明使用的字表和其 分级模式,第3.2 节中介绍如何撷取和?用电子字典中的音标资讯,第3.3 节中?明整 合剖析器和 Dr.eye 词性标记的方法. ? http://dcool.com.tw/webexam/newlogin.aspx ?似此?之出题系统 表1语??源和其档案个? 新三民 三民陈 三民谢 该册总和 中文提示总? 第一册

117 47

36 200

142 第二册

127 64

36 227

45 第三册

127 48

36 211

151 第四册

126 45

36 207

14 总和

497 204

144 845

352 3.1 依直斫?单字分级 根笱胙Э际灾行闹贫┲只惚,高 中生常用英文字汇共约

7000 字,而在此 我们?用?同机构所制定的单字分级字 表,?替我们统计出该篇文章中,有多少 比?的单字是属於较难的级别.以此概? 为基础,我们?用国?师大学举办的全 国单字大赛所提供的字表(以下称之为师 大字表)[12]、全民英检字表[5]和大考中 心字表[4],如表

2 所示,每个字表各自有 ?同的级别分布.在做查询单字级别的同 时,我们会特别记?文章中在字表?查询 ?到的单字个?,该?的单字即等同於 Dale-Chall 所提到的「难字」概?[19]. 从表 2中,师大字表的级别分布较多 , 国小的单字?较少,到?高中阶段则大幅 增加.根裼⒓斓姆旨侗曜[7],可知全民 英检初级相当於国中毕业者,全民英检中级相 当於高中职毕业者,全民英检中高级相当於大 学非英语主修毕业者.此点我们可从表

2 中的 单字分布得到印证. 我们?用Stanford POS Tagger将每个英文 ?子中的个别单字标记词性,如图

2 左半部分 所示.接著再配合 Stanford Stemming 将个别 单字做原词还原,如图

2 右半所示.透过以上 ?步骤,我们可得到文章中所有单字的原形. 这些原形的单字即可到指定字表中查询它的级别.这麽做的目的是因为字表?的单字为 原形,如此处?才能得到最正确的级别字统计资讯. 最后我们依序将训?语?与各个字表进?查表的动作.以师大字表为?,我们会记 ?该篇文章的单字,对应师大字表中?同单字级别的频?分布,并将无法在字表中查询 到的单字(或许意味著这是?困难的单字)额外进?计次的动作,我们共可得到

9 个级 别的单字频?与

1 个在字表各级单字中查询?到的单字??,总共

10 个特徵值.全民 英检字表和大考中心字表也依上述步骤分别得到

4 个特徵和

7 个特徵.?用上述方法, 我们统计出该篇文章在各字表?的单字级别分布,当高级别的字出现在文章中次?较多 时,相对表示他的内容应该是较难以阅?的.?分级字表够?准,这种概?可以大幅地 提升我们的分?效能. 3.2 以音节?为基础的特徵值 一般英文的初学者对於多音 节的字比较恐惧,在口语对 话上是一大压?,在阅?上 也会造成一定的阻碍,故我 们认为单字?的母音?是一 个值得注意的特徵.而长?越长的单字也会给学习者较大的负担,所以我们一并记?母 音加子音的个?视为单字的长?,当作我们实验中的特徵值之一. I/PRP liked/VBD playing/VBG basketball/NN when/WRB I/PRP was/VBD young/JJ ./. -->

I/PRP -->

like/VBD -->

play/VBG -->

basketball/NN -->

when/WRB -->

I/PRP -->

be/VBD -->

young/JJ -->

./. 图2Stanford POS Tagger 和Stanford Stemming 的? 表2三个字表和其级别分布 字表 级别分布 该级 别单 字? 该字表 总单字 ? 师大 字表 国小

下载(注:源文件不在本站服务器,都将跳转到源网站下载)
备用下载
发帖评论
相关话题
发布一个新话题