编辑: 山南水北 | 2013-04-07 |
l a b e l e de x a m p l e s ;
u n l a b e l e di n s t a n c e s ;
l a b e l ;
p a i r w i s e c o n s t r a i n t s
1 引言半监督学 习( S e m i S u p e r v i s e dL e a r n i n g , S S L) 是机器学习( M a c h i n eL e a r n i n g , ML) 领域中的研究 热点, 已经被应用于解决实际问题, 尤其是自然语言 处理问题. S S L被研究了几十年, 国内外涌现出大量 关于该领域的研究工作, 研究人员在这个问题上已 经取得了显著的进步, 目前已经有多个文献对 S S L 领域进行了综述, 例如文献[ 1] 综述了早期 S S L 的 一些进展, 文献[
2 ] 对S S L进行了比较全面的综述, 文献[ 3] 对基于不一致的 S S L 方法进行了综述, 文献[ 4] 详细综述了协同训练风范. 由于 S S L 研究的 发展非常迅速, 因此需要有更新的综述来对近几年 S S L研究的相关情况进行总结. 鉴于S S L的理论意义和实际应用价值, 本文系 统综述 S S L 方法的研究进展, 为进一步深入研究SSL理论和拓展其应用领域奠定一定的基础. 本文 第2节概述 S S L 的基本概念、 研究历程、 依赖的假 设及分类;
第3节到第6节分别 介绍用于分 类、 回归、 聚类、 降维问题的S S L方法;
第7节对S S L进行 理论分析, 综述 S S L 的 抽样复杂 性 和误差界;
第8节展望未来的研究方向;
第9节对全文进行总结.
2 半监督学习概述 ML有两种基本类型的学习任务: (
1 ) 监督学习( S u p e r v i s e dL e a r n i n g , S L) 根据输 入输出样本对={ ( 1, 1) , …, ( , ) } 学习输入 到输出的映射: 亍 犊, 来预测测试样例的输出值. S L 包括分类(Classification) 和回归(Regression) 两类任务, 分类中的样例 椤 , 类标签 椤{ 1,2,…, },辍师;
回归中的输入 椤 , 输出 椤. 具有 代表性的SL方法有线性判别分析(LinearDiscriminativeA n a l y s i s , L D A) 、 偏最小二乘( P a r t i a l L e a s tS q u a r e , P L S) 、 支持向量机(SupportV e c t o r M a c h i n e , S VM) 、 私( 霜NearestN e i g h b o r , N N) 、 朴素贝叶斯( N a i v eB a y e s ) 、 逻辑斯蒂回归( L o g i s t i c R e g r e s s i o n ) 、 决策树( D e c i s i o nT r e e ) 和神经网络等. (
2 ) 无监督学习( U n s u p e r v i s e dL e a r n i n g , U L) 利用无类标签的样例={ 1, …, } 所包含的信息 学习其对应的类标签犊 ^ =[ ^1… ^状] T , 由学习到的类 标签信息把样例划分到不同的簇( C l u s t e r ) 或找到高 维输入数据的低维结构. U L 包括聚类( C l u s t e r i n g ) 和降维( D i m e n s i o n a l i t yR e d u c t i o n) 两类任务. 具有 代表性的 U L方法有 均值( 霜Means)、层次聚类 ( H i e r a r c h i c a lC l u s t e r i n g) 、 主成分分析(PrincipalComponentAnalysis,PCA) 、典型相关分析法(CanonicalC o r r e l a t i o n A n a l y s i s , C C A) 、 等距特征映射( I s o m e t r i cF e a t u r e M a p p i n g , I S OMA P) 、 局部 线性嵌入( L o c a l l yL i n e a rE m b e d d i n g , L L E) 和局部 保持投影( L o c a l i t yP r e s e r v i n gP r o j e c t i o n s , L P P) 等. 在许多 ML 的实际应用中, 如网页分类、 文本 分类、 基因序列比对、 蛋白质功能预测、 语音识别、 自 然语言处理、 计算机视觉和基因生物学, 很容易找到 海量的无类标签的样例, 但需要使用特殊设备或经 过昂贵且用时非常长的实验过程进行人工标记才能 得到有类标签的样本, 由此产生了极少量的有类标 签的样本和过剩的无类标签的样例[