编辑: 山南水北 | 2016-04-23 |
23 ? : ? , 一个数据对(data pair): ( , ) ? 假设注重于分类: = {1,2, … , } ? 先验概率prior probability: ( = ) ? 在没有看到任何数据时,怎么分类? ? 后验概率posterior probability: = ? 看到数据 后,得到更多的信息,可以对分类有更好的估计 ? 类条件概率class conditional probability: ( | = ) ? 数据总的分布 ( )和每个类别内部的分布 ( | = )不一样 ? 贝叶斯定理Bayes' theorem = = ( ) = 条件 * 先验 数据 能100%准确吗:Bayes框架的回答(2)
24 ? 贝叶斯决策规则Bayes decision rule: ? 选择代价最小的类别输出 argmin ? 贝叶斯风险Bayes risk:使用贝叶斯决策规则的风险 ? 其是理论上我们能得到的最好的结果,记为 ? ? 在使用0-1风险时,风险和错误率等价 ? 所以, ?是我们理论上能得到的最小误差 ?
1 ? ? 是理论上最高的准确率! ? 自学:DHS2.1 DHS2.2(包括似然比规则 likelihood ratio rule) 类条件概率示意图
25 该在哪里分开?错误(或风险)是多少? 图片来自教程DHS 贝叶斯决策规则
26 ? 在0-1风险时,选择后验概率最大的那个类别 argmax ( = | ) 其中第一类prior为2/3 第二类为1/3 图片来自教程DHS 错误从哪里来―以回归为例?
27 ? 真实(但未知)的函数 ( ) ? 用由其产生的数据集 来学习,即=()没有误差 ? 回归的代价函数是欧几里得距离 ? + ;
? ;
? 和 是定值(constant),只有 出现时才取期望 ? 简写为 ? DHS 376页的处理(或翻译)有问题 偏置-方差分解
28 ? Bias-variance decomposition ? ? ? -- 偏置bias ? 当训练集取样有差异时,其值不变 ? 方差 ? 当训练集取样有差异时,会带来预测的差异(误差不同) ? 误差=偏置2+方差 ? 当考虑到 = ( )有误差是(白噪声) ? 误差=偏置2+方差+噪声 ? 估计误差时,如没有测试集,需多次平均 ? 进一步阅读:分类时候的分解(DHS9.3.2) 对分解的解读
29 ? 偏置与数据无关,是由模型(的复杂度)决定的 ? 例如,线性分类器(1阶多项式)的偏置大 ? 但是,7阶多项式的复杂度高,偏置小 ? 但是,方差 ( ( ;
))和抽样得到的训练集以及 模型两者都有关系 ? 例如,高阶多项式的方差大 ? 怎么减少误差? ? 对于噪音,机器学习没有办法―高质量的数据获取! ? 减少偏置和方差 ? 如集成方法(ensemble methods) 进一步的阅读
30 ? NN & kNN: DHS 4.5 & 4.6,可以等到课程讲完 Bayesian相关的内容之后 ? FLANN: http://www.cs.ubc.ca/research/flann/ ? ANN软件和相关论文、文档 ? Hash: http://en.wikipedia.org/wiki/Locality- sensitive_hashing 及其页面中的资源 ? 其他见各页面的进一步阅读资源