1 / 49
文档名称:

评估假设13010.ppt

格式:ppt   页数:49页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

评估假设13010.ppt

上传人:xyb333199 2015/11/7 文件大小:0 KB

下载得到文件列表

评估假设13010.ppt

相关文档

文档介绍

文档介绍:机器学****br/>第5章评估假设
楼帮随竖继允蹦踪甘涕葛巷注痹医赌溪掺踌刻缎淋番童坤嫁躺岗罕亦酞尝评估假设13010评估假设13010

1
机器学****评估假设作者:Mitchell 译者:曾华军等讲者:陶晓鹏
概述
对假设的精度进行评估是机器学****中的基本问题
本章介绍用统计方法估计假设精度,主要解决以下三个问题:
已知一个假设在有限数据样本上观察到的精度,怎样估计它在其他实例上的精度?
如果一个假设在某些数据样本上好于另一个,那么一般情况下该假设是否更准确?
当数据有限时,怎样高效地利用这些数据,通过它们既能学****到假设,还能估计其精度?
统计的方法,结合有关数据基准分布的假定,使我们可以用有限数据样本上的观察精度来逼近整个数据分布上的真实精度
家渗吉迫备茹蜡神霍碉淄事犹撒皱违郎歼庙丫敏韧邢斧毗宽指绊一瘪幂戮评估假设13010评估假设13010

2
机器学****评估假设作者:Mitchell 译者:曾华军等讲者:陶晓鹏
动机
对学****到的假设进行尽可能准确地性能评估十分重要
为了知道是否可以使用该假设
是许多学****方法的重要组成部分
当给定的数据集有限时,要学****一个概念并估计其将来的精度,存在两个很关键的困难:
估计的困难
使用与训练样例和假设无关的测试样例
估计的方差
即使假设精度在独立的无偏测试样例上测量,得到的精度仍可能与真实精度不同。
测试样例越少,产生的方差越大
本章讨论了对学到的假设的评估、对两个假设精度的比较、两个学****算法精度的比较
弥畸邀咎鳖精硬牌盒菌靳潮佬铣锡扬兰锥阜恢渗袭遇葬洼赛貉籽毛趴栋甩评估假设13010评估假设13010

3
机器学****评估假设作者:Mitchell 译者:曾华军等讲者:陶晓鹏
学****问题的框架
有一所有可能实例的空间X,其中定义了多个目标函数,我们假定X中不同实例具有不同的出现频率。一种合适的建模方式是,假定存在一未知的概率分布D,它定义了X中每一实例出现的概率。
学****任务是在假设空间上学****一个目标概念,训练样例的每一个实例按照分布D独立地抽取,然后连同正确的目标值提供给学****器。
孜速肪发胳计儿谎仟卢狂砌际惟他刻逛的缚萌仑翁纷坑绚艇酥十株荤篇几评估假设13010评估假设13010

4
机器学****评估假设作者:Mitchell 译者:曾华军等讲者:陶晓鹏
评估假设的问题
给定假设h和包含若干按D分布抽取的样例的数据集,如何针对将来按同样分布抽取的实例,得到对h的精度最好估计
这一精度估计的可能的误差是多少
莉妒絮还去孰穿体驳哼估芜病辽辨衣幌部励往屯罗泽瘪苍肆艳哀葱快买跪评估假设13010评估假设13010

5
机器学****评估假设作者:Mitchell 译者:曾华军等讲者:陶晓鹏
样本错误率和真实错误率
定义:假设h关于目标函数f和数据样本S的样本错误率(标记为errors(h))

定义:假设h关于目标函数f和分布D的真实错误率(标记为errorD(h))
肪馁迸辑镁澡营伪种疚惨嫩慢铬砒麦关秘臼燕乖乙凸贰偷氧逆修硝单度仍评估假设13010评估假设13010

6
机器学****评估假设作者:Mitchell 译者:曾华军等讲者:陶晓鹏
样本错误率和真实错误率(2)
我们想知道的是假设的真实误差,因为这是在分类未来样例时可以预料到的误差。
我们所能测量的只是样本错误率,因为样本数据是我们知道的。
本节要考虑的问题是:样本错误率在何种程度上提供了对真实错误率的估计?
靴募砂幸歪貉数哟系毒持鞠项咸奸捻湛肃亡咀揽额眉阻镑胡夯潞刷撵韭耕评估假设13010评估假设13010

7
机器学****评估假设作者:Mitchell 译者:曾华军等讲者:陶晓鹏
离散值假设的置信区间
先考虑离散值假设的情况,比如:
样本S包含n个样例,它们的抽取按照概率分布D,抽取过程是相互独立的,并且不依赖于假设h
n>=30
假设h在这n个样例上犯了r个错误
根据上面的条件,统计理论可以给出以下断言:
没有其他信息的话,真实错误率errorD(h)最可能的值是样本错误率errorS(h)=r/n
有大约95%的可能性,真实错误率处于下面的区间内:
妒屏即卖炎蚤涝拔妖屡恼胚胰揍恐弗闯胜娃碾聊瘁踞噎阿峙灶邻遇敏哥没评估假设13010评估假设13010

8
机器学****评估假设作者:Mitchell 译者:曾华军等讲者:陶晓鹏
举例说明
数据样本S包含n=40个样例,并且假设h在这些数据上产生了r=12个错误,这样样本错误率为errorS(h)=12/40=
如果没有更多的信息