编辑: xwl西瓜xym | 2013-04-18 |
15 分类矩阵 - 互信息 关系? Cancer classification (癌病检查)
1000 people, cancer rate: 0.5% C = [995
0 完全正确分类
0 5] C = [994
1 有错误分类
1 4] C = [990
1 4 有未知分类
1 3 1]
16 Objectives 本文目标 - 针对问题二进行探讨 - 限制在分类问题应用 * 分类矩阵 - 互信息 计算公式? *理论解释? *与传统性能指标的数学关联? *独特性? *局限性? - 推广到其它问题:相似性度量?
17 研究思路发展过程 提出问题: 神经元网络透明度目标?学 习准则(或目标)选取 分类矩阵 ? 互信息 ?分类误差、 查全率、查准率 (二值分类为例) 多类别?据识类别?理论解释,优越性, 局限性 基于 2D 图像建模的植物模型客观评价 要点:全面文献调研,原创性预估,简单 问题起步
18 2. Related Works 基于信息理论的准则 - Shannon 信息熵 - 互信息 - KL 距离 - 条件熵 - 其它类信息准则 Renyi, Jensen, f 类,Correntropy 等19 Background 背景 Entropy: 德国物理学家 Clausius
1864 年提 出 概念是最为重要的原创内容:无理数 中文术语由中国著名物理学家胡刚复博士
1923 年在德国科学家 Planck 于中国讲学时首 创 根据 dS=dQ/T 中S为热量与温度之 商 意, 火 字部首喻指 热
1948 年香农 (C.Shannon) 将熵概念第一次引 入到信息论中 能、熵:谁为主宰?物理?信息?哲学 熵20 有关定义:不确定度 硬币 H =
1 骰子 H = 2.58
21 有关定义:不确定度 Venn Digram
22 规一化互信息定义 - 非对称性的 NI 定义 (Cover and Thomas, 1991, Sridhar et al, 1998), 对称性方式的 NI 定义( Press, 1988,Strehl,
2002 ):
23 基于信息理论的学习准则 Linsker(1988) 首次提出应用无监督学习 Qunlan ( 1986,
1993 ):分类决策树 应用 信息增益 构造最简结构
24 信息增益-互信息 - Qunlan ( 1986,
1993 )构造决策树 - Mitchell (
1997 )计算公式: S- 样本, A- 属性,|?| - 数据频次计算 右端第一项:原始样本数据的类别熵 右端第二项 : 分类数据后的类别熵
25 基于信息理论的学习准则 - 丁晓青,吴佑寿 ( 1993, 电子学报)模式 识别信息熵三定理, 识别熵减 = 互信 息,-孟建,屈梁生 ( 1997, 中国机械工程) BP 网络设计 最小化熵差: C=KL(T,F)-a I 特征与目标距离 KL 要小, 隐层信息量 I 要大
26 互信息 学习准则 Haykin (1999) 总结了四种情况下以互信息为 神经模型的优化目标函数 - 最大互信息与最小互信息 - 信息传输系统自组织处理,无监督方式图 像处理,独立分量分析等.
27 基于信息理论的机器学习( ITL ) Principe, et al (2000) Unsupervised Learning: 1. ICA(or BSS) 2. InfoMax Supervised Learning: 3a. Feature selection 3b. Regression
28 3. 关于互信息准则在分类问题中 的基本表达公式 Based on Principe, et al
2000 To design the nonlinear function f, To tune the parameter vector ? for maximizing the correlations between Y and T.
29 计算公式: 针对分类问题,建议采用以下方式计算 归一化互信息: 缺点:不具备对称性质
30 具体原因: 以正确分类熵 H(T) 作为分类器学习固定基 点:简化计算,易于理解. 可以采用最小归一化条件熵为目标函数 : 不妨碍各种不同分类器在同一学习准则下的 一致性比较.
31 For classification Baseline
32 经验计算公式: 经验熵 经验规一化互信息
33 分类(或混淆)矩阵 Prediction Exact Rejected Class
34 分类矩阵→经验联合概率密度