编辑: 865397499 | 2019-07-15 |
3 9 N o .
3 J u n
2 0
1 9 d o i :
1 0 .
1 4
1 3
2 / j . c n k i .
1 6
7 3
5 4
3 9 .
2 0
1 9 .
0 3 .
0 1
2 基于 N E V A S V M 的JavaScript恶意代码检测系统 管衡1 , 李麟俊2 , 张琳1
1 . 南京邮电大学 计算机学院, 江苏 南京
2 1
0 0
2 3
2 . 江苏省公安厅 交通警察总队, 江苏 南京 ( )
2 1
0 0
4 9 摘要: 针对传统的 J a v a S c r i p t 恶意代码静态检测所存在的样本标记工作量大, 以及由于样本冗余度 高、 泛化能力不足所导致的分类精确度低的问题, 提出了一种新的支持向量机的自主学习策略 V A S V M, 通过价值度量的定义优化了最有价值样本的选择策略, 同时结合迭代地调整训练集平衡 度, 提高了训练集泛化能力和训练过程的收敛速度.然后在此基础上利用 N E S V M算法对采用 V A S V M所选择的训练集进行剪裁以降低样本冗余度, 并且进一步提高了泛化能力.最后得到了基 于VASVM策略和 N E S V M算法所结合形成的 N E V A S V M系统.实验结果表明, 基于 N E V A S V M 的JavaScript恶意代码检测系统有效减少了人工标记工作量, 提高了分类器精度. 关键词: 支持向量机;
主动学习;
价值度量;
训练集剪裁 中图分类号: T P
3 9
3 文献标志码: A 文章编号:
1 6
7 3
5 4
3 9 (
2 0
1 9 )
0 3
0 0
8 2
0 9 J a v a S c r i p t ma l i c i o u s c o d ed e t e c t i o ns y s t e m b a s e do nN E V A S V M G U A NH e n g
1 , L I L i n j u n
2 , Z H A N GL i n
1 1 . S c h o o l o f C o m p u t e r S c i e n c e , N a n j i n gU n i v e r s i t yo f P o s t s a n dT e l e c o m m u n i c a t i o n s , N a n j i n g
2 1
0 0
2 3 , C h i n a
2 . D e p a r t m e n t T r a f f i cP o l i c e C o r p s , J i a n g s uP r o v i n c i a l P u b l i cS e c u r i t y , N a n j i n g
2 1
0 0
4 9 , ( ) C h i n a A b s t r a c t : A i m i n ga t t h e p r o b l e mt h a t t h e t r a d i t i o n a l J a v a S c r i p t m a l i c i o u s c o d e s t a t i c d e t e c t i o nh a s a l a r g e w o r k l o a do f s a m p l et a g s , a n db e c a u s eo f h i g hs a m p l er e d u n d a n c y , i n s u f f i c i e n t g e n e r a l i z a t i o na b i l i t ya n d l o wc l a s s i f i c a t i o na c c u r a c y , an e ws u p p o r t v e c t o r m a c h i n ei s p r o p o s e d . T h es e l f l e a r n i n gs t r a t e g yV A S V M o p t i m i z e s t h e s e l e c t i o ns t r a t e g y o f t h e m o s t v a l u a b l e s a m p l e s t h r o u g ht h e d e f i n i t i o no f v a l u e m e t r i c s . A t t h e s a m et i m e , i t a d j u s t s t h e b a l a n c e o f t h e t r a i n i n g s e t i t e r a t i v e l y , w h i c hi m p r o v e s t h e g e n e r a l i z a t i o na b i l i t y o f t h et r a i n i n gs e t a n dt h e c o n v e r g e n c e s p e e do f t h e t r a i n i n g p r o c e s s . T h e nb a s e do nt h i s , t h e N E S V Ma l g o r i t h mi s u s e dt ot a i l o r t h et r a i n i n gs e t s e l e c t e db yV A S V M t or e d u c et h es a m p l er e d u n d a n c ya n df u r t h e r i m p r o v et h eg e n e r a l i z a t i o na b i l i t y . F i n a l l y , t h eN E V A S V M s y s t e m b a s e do nV A S V M s t r a t e g ya n dN E S V Ma l g o r i t h m i so b t a i n e d . T h ee x p e r i m e n t a l r e s u l t ss h o wt h a t t h eJ a v a S c r i p t m a l i c i o u sc o d ed e t e c t i o n s y s t e mb a s e do nN E V A S V Me f f e c t i v e l yr e d u c e s t h ew o r k l o a do f m a n u a l m a r k i n ga n di m p r o v e s t h ea c c u r a c yo f t h ec l a s s i f i e r . K e y w o r d s : s u p p o r t v e c t o r m a c h i n e s ( S V M) ;