编辑: 山南水北 | 2013-04-07 |
5 ] . 因此, 人们尝 试将大量的无类标签的样例加入到有限的有类标签 的样本中一起训练来进行学习, 期望能对学习性能 起到改进的作用, 由此产生了S S L [
1 2] , 如图1所示. S S L避免了数据和资源的浪费, 同时解决了 S L 的 模型泛化能力不强和 U L的模型不精确等问题. 图1半监督学习示意
2
1 半监督学习研究的发展历程 S S L的研究历史可以追溯到2 0世纪7 0年代, 这一时期, 出现了自训练( S e l f T r a i n i n g ) 、 直推学习 ( T r a n s d u c t i v eL e a r n i n g) 、 生成式模型(GenerativeModel)等学习方法. S c u d d e r [
6 ] 、 F r a l i c k [
7 ] 和A g r a w a l a [
8 ] 提出的自训练方法是最早将无 类标 签的 样 例用 于SL的方法. 该方法是打包算法, 在每一轮的训练过 程中反复运用 S L 方法, 将上一轮标记结果最优的 样例和它的类标签一起加入到当前训练样本集中, 用自己产生的结果再次训练自己. 这种方法的优点 是简单, 缺 点是 学习 性能 依赖 于其 内部 使用 的SL方法, 可能会导致错误的累积. 直推学习的概念最先 由Vapnik于1
9 7 4年提出[ 1] . 与归纳学习( I n d u c t i v e L e a r n i n g ) 不同, 直推学习只预测当前训练数据和测 试数据中无类标签的样例的类标签, 而不推断整个 样本空间的广义决策规则. C o o p e r等人提出的生成 式模型假设生成数据的概率密度函数为多项式分布 模型, 用有类标签的样本和无类标签的样例估计该 模型中的参数[ 1] . 后来, S h a h s h a h a n i和Landgrebe将这种每类单组分的场景拓展到每类多组分, M i l l e r 和Uyar进一步将其推广[
1 ] . 这一时期, M c L a c h l a n 等人研究用无类标签的样例估 计费 希尔 线 性判 别(FisherL i n e a rD i s c r i m i n a t i v e , F L D) 规则的问题[ 1] . 对S S L的研究到了2 0世纪9 0年代变得更加狂 热, 新的理论的出现, 以及自然语言处理、 文本分类和 计算机视觉中的新应用的发展, 促进了 S S L的发展, 出现了协同训练( C o T r a i n i n g) 和 转导 支持 向量 机(TransductiveS u p p o r tV e c t o rM a c h i n e , T S VM) 等39518期刘建伟等:半监督学习方法 新方法. M e r z等人[ 9] 在1
9 9 2年提出了 S S L 这个术 语, 并首次将S S L用于分类问题. 接着 S h a h s h a h a n i 和Landgrebe[10]展开了对S S L 的研究. 协同训练方 法由 B l u m 和Mitchell[11] 提出, 基于不同的视图训 练出两个不同的学习机, 提高了训练样本的置信度. V a p n i k和Sterin[12]提出了TSVM, 用于估计类标签的线性 预测函数. 为了 求解 T S VM, J o a c h i m s [
1 3] 提出了S VM l i g h t 方法, D eB i e和C r i s t i a n i n i [
1 4 ] 将T S VM 放松为半定规划问题从而进行求解. 许多研究学者 研究将期望最大算法( E x p e c t a t i o n M a x i m u m, EM) 与高斯混合模型( G a u s s i a n M i x t u r eM o d e l , GMM) 相结合的生成式 S S L 方法[
1 5
1 6] . B l u m 等人[
1 7 ] 提出 了最小割法( M i n c u t ) , 首次将图论应用于解决 S S L 问题. Z h u 等人[
1 8] 提出的调和函数法(HarmonicFunction)将预测函数从离散形式扩展到连续形式. 由Belkin等人[
1 9] 提出的流形正则化法(ManifoldRegularization)将流形学习的思想用于 S S L 场景. K l e i n等人[
2 0 ] 提出首个用于聚类的半监督距离度量 学习方法, 学习一种距离度量. 研究人员通过理论研究和实验对 S S L 的学习 性能进行了分析. C a s t e l l i和Cover[21]在服从高斯混 合分布的无类标签的样例集中引入了一个新的有类 标签的样本, 通过理论分析证明了在无类标签的样 例数量无限的情况下, 可识别的混合模型的分类误 差率 以指数形式快速收敛到贝叶斯风险. S i n h a 和Belkin[22]从理论上研究了当模型不完善时使 用 无类标签的样例对学习性能产生的影响. B a l c a n和Blum[23]以及S i n g h等人[