编辑: 865397499 2019-07-15

a c t i v el e a r n i n g ;

v a l u em e a s u r e ;

t r a i n i n gs e t t a i l o r i n g 收稿日期:

2 0

1 9

0 3

2 1 本刊

网址: h t t p : ∥n y z r . n j u p t . e d u . c n 基金项目: 国家自然科学基金(

6 1

4 0

2 2

4 1 ) 、 江苏省高校自然科学研究项目(

1 7 K J B

5 2

0 0

2 6 ) 和南京邮电大学校级科研基金( N Y

2 1

7 0

5 0 ) 资助项目 作者简介: 管衡, 男, 硕士研究生;

张琳( 通讯作者) , 女, 博士, 副教授, z h a n g l @n j u p t . e d u . c n 引用本文: 管衡, 李麟俊, 张琳. 基于 N E V A S V M的JavaScript恶意代码检测系统[ J ] . 南京邮电大学学报( 自然科学版) ,

2 0

1 9 ,

3 9 (

3 ) :

8 2-

9 0 . 在互联网高速发展的今天, 网络技术的提升与 丰富使得越来越多的网站开始以 We b应用的形式 提供服务, 从而导致基于 We b的应用呈现倍数级的 增长.而JavaScript作为一种具有完备功能的语言, 被广泛地应用于 We b应用的前端开发之中.B i c h h a w a t 等[

1 ] 的研究结果显示

9 5 %以上的 We b 站点在 进行 We b前端开发时选用 J a v a S c r i p t 语言.J a v a S c r i p t 语言具有跨平台性, 可远程嵌入, 能够被动态 执行[

2 ] .虽然为用户带来了诸多便利和良好的交 互体验, 但与此同时也给 We b用户终端带来了不少 威胁与风险[

3 -

4 ] .为了应对 J a v a S c r i p t 恶意代码所 带来的网络安全问题, 学术界已经提出过一些检测 方法, 针对恶意 J a v a S c r i p t 代码的传统静态检测通常 是对样本进行分类标记后, 提取特征向量训练生成 分类器来对新的未知样本进行预测分类.然而实际 成果却不尽人意, 存在诸多不足: (

1 )在脚本的特征提取方面, 传统的检测系统 没有充分地考虑到混淆代码特征, 导致特征纬度低, 泛化性小. (

2 )近年来, 利用未标记实例进行学习越来越 受到关注, 其主流技术之一就是主动学习[

5 -

8 ] .主 动学习的核心要素在于如何利用有限的标记代价得 到高质量的标记数据来提高性能[

9 ] .然而以往的 检测系统所使用的主动学习算法大多仅根据未标记 样本与超平面之间的距离来对样本价值进行评判, 通常认为距离分类超平面越近的样本点越不确定, 也就越具有信息价值, 最有可能改变分类超平面的 位置, 而距离越远的样本点则越没用, 对位置的改变 没有足够的影响力, 所以传统的主动学习算法采样 策略是迭代地选择与超平面距离最近的样本.这样 的做法会造成两个问题: ① 每次只选择与超平面距 离最近的样本, 会导致样本的规模过小而难以及时 获取未标记样本集的总体特征, 会对收敛速度和泛 化能力产生负面影响.② 由于是迭代地选择, 所以 第n次与第 n - 1次所选择的最具价值样本可能会 产生信息冗余, 也会影响到分类器的泛化效果和检 测精度. (

3 )在分类算法的选择中, 支持向量机由于具 有较强的泛化能力而受到人们青睐[

1 0 ] , 但是当具体 的样本集中两类样本混合重叠比较严重时候, 会导 致SVM的分类面过于繁杂而对泛化能力产生负面 影响. 针对上述种种问题, 本文提出了一种新的支 持向量机的自主学习策略 V A S V M, 通过价值度量 的定义优化了最有价值样本的选择策略, 同时结 合迭代地调整训练集平衡度, 提高了训练集泛化 能力和训练过程的收敛速度.然后在此基础上利 用NESVM算法对采用 V A S V M所选择的训练集 进行剪裁以降低样本冗余度并且进一步提高了泛 化能力.最后得到了基于 V A S V M策略和 N E S V M 算法所结合形成的 N E V A S V M系统.在特征提取 方面, 充分考虑了四种 J a v a S c r i p t 混淆代码特征, 提 高了特征维度.

下载(注:源文件不在本站服务器,都将跳转到源网站下载)
备用下载
发帖评论
相关话题
发布一个新话题