编辑: xwl西瓜xym | 2013-04-18 |
35 互信息与分类矩阵
36 课堂讨论问题: I 1. 本文中的互信息计算是离散型还是 连续型? 2. 分类互信息计算公式是否应该涉及 输入变量 X 的熵?
37 4. 互信息与传统性能指标关系 原因 分类误差通常为用户的直接诉求 用户缺少对不确定度的直观理解 互信息准则以间接方式规定了分类器的 性能水平 关联性研究有利于用户合理地应用信息 类学习准则
38 已有研究:不等式关系 贝叶斯误差率上界( Fano ,
1960 ): 贝叶斯误差率下界( Hellman ,
1970 ):
39 关于二值分类 ?正类样本 : C1=TP+FP=97 ?负类样本 : C2=FN+TN=3 ?分类矩阵 : C= [TP, FP, ? FN, TN] ? ?TP - 正确分类的正类 ?FP - 错分的的正类 ?FN - 错分的的负类 ?TN - 正确分类的负类 C= [96, 1, 1, 2]
40 ROC ( http://en.wikipedia.org/wiki/Receiver_operating_characteristic ) O Our definition
41 二值分类器综合性能指标 指标之间可能相互冲突 ( 查准率-查全率 ) RUC, AUC Accuracy C Rejection T. Fawcett,
2006 A Rej
42 43 非线性关系 (Wang and Hu,2007) A- Accuracy, R- Recall, P-Precision NIG=NI
44 45 多类别情况 定理
1 最大归一化互信息(或最小条件熵)与分类 性能关系 : 当NI(T,Y)=1 ,或H(T|Y)=0 时, 分类器可以是完全正确分类( A = P =
1 ),也可以是完全错误分类( A = P =
0 ).
46 定理
2 零值互信息(或最大归一化条件熵)与 分类性能关系 : 当I(T,Y)=0 ,或NH(T|Y)=1 时,分类器可以是将全部样 本分为 m 类中的任一类别.
47 定理
3 互信息与分类矩阵对角线元素存在非单 调特征.即对角线元素值 ( 即分类准确 率)增加,互信息值可能会下降. 该特征表明互信息作为图像配准,或特 征选择的评价指标会产生偏差.
48 原因:局部最小点 分类矩阵在以下情况给出互信息值为局 部最小:
49 原因:局部最小点 二值分类中最小互信息值条件:
50 5. 分类应用实例 二值分类( C
1 =95,C
2 =5 ) 在相同错分类别 个数情况下 , 类 别越少的样本错 分对分类器 NI 值降低的影响度 越大.
51 // Scilab code, for copy and paste use directly c=[95
0 0
0 5
0 ];
n=sum(c);
// = number of total samples m=length(c(:,1)number of exact classes Ci=sum(c,'
c'
numbers of exact labels Cp=sum(c,'
r'
numbers of prediction labels NI_num=0;
// = numerator of NI in Eq. (20) NI_den=0;
// = denominator of NI in Eq. (20) for i=1:m NI_den=NI_den+Ci(i)*log2(Ci(i)/n);
// = denominator of NI in Eq. (20) for j=1:m+1 if c(i,j) >
0 then if Ci(i)*Cp(j) >
0 then // = numerator of NI in Eq. (20) NI_num=NI_num+c(i,j)*log2(c(i,j)/Ci(i)/(Cp(j)/n));
end e........