欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    2022年实数公理等价命题证明.docx

    • 资源ID:12935212       资源大小:228.71KB        全文页数:20页
    • 资源格式: DOCX        下载积分:4.3金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要4.3金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    2022年实数公理等价命题证明.docx

    精品学习资源第5章评估假设对假设的精度进行体会的评估是机器学习中的基本问题;本章介绍了用统计方法估量假设精度,主要为解决以下三个问题:第一,已知一个假设在有限数据样本上观看到的精度,怎样估量它在其他实例上的精度;其次,假如一个假设在某些数据样本上好于另一 个,那么一般情形下是否该假设更精确;第三,当数据有限时,怎样高效地利用这些数 据,通过它们既能学习到假设,仍能估量其精度?由于有限的数据样本可能不代表数据的一般分布,所以从这些数据上估量出的假设精度可能有误差;统计的方法,结合有关数据基准分布的假定,使我们可以用有限数据样本上的观看精度来靠近整个数据分布上的真实精度;5.1 动机多数情形下,对学习到的假设进行尽可能精确的性能评估特别重要;缘由之一很简洁,是为了知道是否可以使用该假设;例如,从一个长度有限的数据库中学习,以明白不同医疗手段的成效,就有必要尽可能精确地知道学习结果的正确性;另一缘由在于,对假设的评估是很多学习方法的重要组成部分;例如在决策树学习中,为防止过度拟合问题必需进行后修剪,这时我们必需评估每一步修剪对树的精度产生的影响;因此,有必要明白已修剪和未修剪树的精度估量中固有的可能误差;当数据特别充分时,假设精度的估量相对简洁;然而当给定的数据集特别有限时,要学习一个概念并估量其将来的精度,存在两个很关键的困难:估量的偏差 Bias in the estimate> ;第一,学习到的概念在训练样例上的观看精度通常不能很好地用于估量在将来样例上的精度;由于假设是从这些样例中得 出的,因此对将来样例的精度估量通常偏于乐观;特殊在学习器采纳了很大的 假设空间,并过度拟合训练样例时,这一情形更可能显现;要对将来的精度进 行无偏估量,典型的方法是挑选与训练样例和假设无关的检验样例,在这个样 例集合上检验假设;估量的方差 Variance in the estimate> ;其次,即使假设精度在独立的无偏检验样例上测量,得到的精度仍可能与真实精度不同,这取决于特定检验样例集合 的组成;检验样例越少,产生的方差越大;本章争论了对学到的假设的评估、对两个假设精度的比较、和有限数据样本情形下两个学习算法精度的比较;其中的争论多数集中在统计和采样理论的基本定律,而本章假定读者在统计学方面没有背景学问;假设的统计检验需要较多的理论学问;本章供应了介绍性的综述,集中争论那些与假设的学习、评估和比较相关的问题;5.2 估量假设精度在评估一个假设时,我们一般更感爱好于估量其对将来实例的分类精度;同时,也需要知道这一精度估量中的可能的误差<即与此估量相联系的误差门限);本章使用的学习问题的框架如下;有一全部可能实例的空间X<如全部人的集合),其 上定义了多个目标函数<如方案本年购买滑雪板者);我们假定X 中不同实例具有不同的显现频率,对此,一种合适的建模方式是,假定存在一未知的概率分布D,它定义了 X 中每一实例显现的概率 <如 19 岁的人的概率比109 岁的人概率高);留意D 并没有说明x 是欢迎下载精品学习资源一正例仍是一反例,只确定了其显现概率;学习任务是在假设空间H 上学习一个目标概念<即目标函数) f;目标函数f 的训练样例由施教者供应应学习器:每一个实例依据分布D被独立地抽取,然后它连同其正确的目标值fx>被供应应学习器;为说明这一点,考虑目标函数“方案本年购买滑雪板者”,可以调查去滑雪板商店的顾客,通过此调查来收集训练样例;在这里实例空间X 为全部人组成的集合,每个实例可由人的各种属性描述,如年龄、职业、每年滑雪次数等;分布情形D 指定了在滑雪板商店中遇到的每个人的概率;目标函数f :X 0,1 将每个人进行分类,判定它是否会在本年内购买滑雪板;在这个一般的框架中,我们感爱好的是以下两个问题:1. 给定假设h 和包含如干按D 分布随机抽取的样例的数据集,如何针对将来按同样分布抽取的实例,得到对h 的精度的最好估量;2. 这一精度估量的可能的误差是多少?5.2.1 样本错误率和真实错误率为解决上述的两个问题,需要准确地区分出两种精度 <或两种错误率);其一是可用数据样本上该假设的错误率;其二是在分布为 D 的整个实例集合上该假设的错误率;它们分别被称为样本错误率和真实错误率;对于于从 X 中抽取的样本 S,某假设关于 S 的样本错误率 <sample error ),是该假设错误分类的实例在 S中所占比例:定义: 假设 h 关于目标函数 f 和数据样本 S 的样本错误率 <标记为 error Sh>)为:其中 n 为 S 中样例的数量,而在时为 1,否就为 0;真实错误率 true error> 是对于按 D分布随机抽取的实例,该假设对它错误分类的概率;定义:假设 h 关于目标函数 f 和分布 D 的真实错误率 <由 error D h>表示),为 h 误分类按 D 分布随机抽取实例的概率:这里,记号表示概率在实例分布D 上运算;我们通常想知道的是假设的真实错误率error Dh>,由于这是在分类将来样例时显现错误的可能性;然而我们所能测量的只是样本错误率error Sh>,它所要求的数据样本S 是我们所拥有的;本节所要考虑的主要问题就是“error Sh>在何种程度上供应了对error Dh> 的估量?”;5.2.2 离散值假设的置信区间为解决“ error Sh>在何种程度上供应了对error Dh> 的估量”的问题,先考虑h 为离散值假设的情形;具体地说,比如要基于某离散值假设h 在样本 S 上观看到的样本错误率, 估量它的真实错误率,其中:欢迎下载精品学习资源样本 S包含 n 个样例,它们的抽取依据概率分布D,抽取过程是相互独立的, 并且不依靠于 hn 30假设 h 在这 n 个样例上犯了 r 个错误 <error Sh>=r /n) 已知这些条件,统计理论可给出以下断言:1. 没有其他信息的话, error Dh>最可能的值为error S h>2. 有大约 95的可能性,真实错误率error Dh>处于下面的区间内:举例说明,假如数据样本S 包含 n=40 个样例,并且假设h 在这些数据上产生了r =12 个错误;这样,样本错误率为error Sh>=12/40 0.3;假如没有更多的信息,对真实错误率error Dh>的最好的估量即为样本错误率0.3;然而我们不能期望这是对真实错误率的完善估计;假如另外搜集40 个随机抽取的样例S,样本错误率 error Sh>将与原先的 error Sh>存在些许不同;这种不同是由S和 S 组成上的随机差异所产生的;实际上,假如不断重复这 一试验,每次抽取一个包含40 样例的样本 Si ,将会发觉约 95%的试验中运算所得的区间包含真实错误率;因此,我们将此区间称为error D h>的 95%置信区间估量;在本例中,r =12和 n=40 ,依据上式, 95%置信区间为 0.30± 1.96 × 0.07> 0.30±0.14;上面的 95置信区间表达式可推广到一般情形以运算任意置信度;常数1.96 是由 95% 这一置信度确定的;定义zN 为运算 N%置信区间时的常数;运算error Dh>的 N%置信区间的一般表达式为:5.1>其中 zN 的值依靠于所需的置信度,参见表5-1 中的取值;表 5-1 双侧的 N置信区间的 zN 值置信度 N%50%68%80%90%95%98%99%常量 zN0.671.001.281.641.962.332.58因此,正如 error Dh>的 95置信区间为 0.30±1.96 .0.07>< 其中 r =12 ,n=40 ),可以求得同样情形下 68%置信区间为 0.30±<1.0 .0.07);从直觉上我们也可以看出 68置信区间要小于 95置信区间,由于我们减小了要求 error Dh>落入此区间的概率;等式 5.1 描述了为了在error Sh>基础上估量error Dh>,如何运算置信区间 <即误差门限);这一表达式时只能应用于离散值假设;它假定样本S 抽取的分布与将来的数据抽取的分布相同,并且假定数据不依靠于所检验的假设;仍有,该表达式只供应了近似的置信区间,不过这一近似在至少包含30 个样例并且 error Sh>不太靠近0 或 1 时很接近真实情形;判定这种近似是否接近真实,更精确的规章为:上面我们概述了运算离散值假设的置信区间的过程,下一节将给出这一过程的统计学基础;欢迎下载精品学习资源5.3 采样理论基础本节介绍了统计学和采样理论的几个基本概念,包括概率分布、期望值、方差、二项分布和正态分布、以及双侧和单侧区间;对于这些概念的基本明白将有助于懂得假设评估和算法评估;更为重要的,它们供应了一种重要的概念框架,以便于懂得相关的机器学习问题 <如过度拟合问题)以及懂得在胜利的泛化和训练样例数目之间的关系;已经熟识这些概念的读者可以跳过本节;其中介绍的关键概念在表5-2 中列出;表 5-2 统计学中的基本定义和概念随机变量 random variable> 可被看作是有概率输出的一个试验;它的值为试验的输出结果;某随机变量的概率分布 probability distribution> 指定了 Y 取值为任一可能的值yi 的可能性 PrY=yi>随机变量 Y 的期望值 expected value>或均值 mean>为;通常用符号 Y 来表示 E Y ;随机变量的方差 Variance> 为 Var Y>=E Y-Y>2 ;它描述了 Y 关于其均值分布的宽度或分散度;Y 的标准差 Standard deviation> 为;通常用符号 Y来代表;二项分布 Binomialdistribution> 是在硬币投掷问题中,如显现正面的概率为p,那么在 n 个独立的试验中显现r 次正面的分布情形;正态分布 Normal distribution> 是一钟形的概率分布,它在很多自然现象中都会显现;中心极限定理 Central LimitTheorem>说明独立同分布的随机变量在大量试验中的和遵循正态分布;估量量 estimator> 为一随机变量Y,它用来估量一基准总体的某一参数p;P 的估量量 Y 的估量偏差 estimation bias> 为E Y p> ;无偏估量量是指该偏差为0;N%置信区间 confidence interval> 用于估量参数 p,该区间以 N%的概率包含 p;5.3.1 错误率估量和二项比例估量在样本错误率和真实错误率之间的差异与数据样本大小的依靠关系如何?这一问题在统计学中已透彻争论;它可表述为:给定一总体中随机抽取的部分样本的观看频率,估量整个总体的概率;在这里,我们感爱好的观看量为 h 是否误分类样例;解决该问题第一要留意到,测量样本错误率相当于在作一个有随机输出的试验;我们先从分布 D 中随机抽取出 n 个独立的实例,形成样本S,然后测量样本错误率error Sh>, 如前一节所述,假如将试验重复多次,每次抽取大小为n 的不同的样本Si ,将可以得到不同的 error Sih>的值,它取决于不同Si 的组成中的随机差异;这种情形下,第i 个这样的试验的输出 error Sih>被称为一随机变量<random variable);一般情形下,可以将随机变量看成一个有随机输出的试验;随机变量值即为随机试验的观看输出;设想要运行k 个这样的随机试验,测量随机变量error S1h> , error S2h> ,error Skh>;然后我们以图表的形式显示出观看到的每个错误率值的频率;当 k 不断增长, 该 图表 将 呈 现 如 表 5-3 那 样 的分 布 ; 该 表 描 述的 概 率 分 布 称为 二项 分 布 <Binomial distribution );表 5-3 二项分布插图原书页码:25Binomial distribution for n=40, p=0.3: n=40, p=0.3 时的二项分布欢迎下载精品学习资源一个二项分布 <Binomial distribution)给出了当单个硬币投掷显现正面的概率为p 时,在 n 个独立硬币投掷的样本中观看到 r 次正面的概率;它由以下的概率函数定义:欢迎下载精品学习资源X 取值为 r 的概率 PrX=r >由 Pr >给出;X 的期望值或均值EX 为:X 的方差 Var X>为EX= np假如随机变量 X 遵循二项分布,就:欢迎下载精品学习资源X 的标准差为 X为:VarX>=np1-p>欢迎下载精品学习资源对于足够大的 n 值,二项分布很接近于有同样均值和方差的正态分布<见表 5-4);多数统计学家建议只在 np1-p> 5 时使用正态分布来近似二项分布;5.3.2 二项分布为较好地懂得二项分布,考虑以下的问题;有一磨损并弯曲了的硬币,要估量在抛硬币时显现正面的概率;令此未知概率为p;投掷该硬币 n 次并运算显现正面的次数r;对于p 的一合理的估量为r /n;留意,假如重新进行一次该试验,生成一个新的n 次抛硬币的集合,其显现正面次数r 将与第一次试验有稍许不同,从而得到对p 的另一个估量;二项分布描述的是对任一可能的r 值<从 0 到 n),这个正面概率为p 的硬币抛掷n 次恰好显现 r 次正面的概率;好玩的是,从抛掷硬币的随机样本中估量p,与在实例的随机样本上测试h 以估量error Dh>是相同的问题;一次硬币抛掷对应于从D 中抽取一个实例并测试它是否被h 误分类;一次随机抛掷显现正面的概率p 对应于随机抽取的实例被误分类的概率< 即 p 对应error Dh>); n 次抛掷的样本观看到 r 次正面,对应 n 个抽取的实例被误分类的数目;因此r /n 对应 error Sh>;估量 p 的问题等效于估量 error Dh>;二项分布给出了一个一般形式的概率分布,无论用于表示 n 次硬币显现正面的次数仍是在 n 个样例中假设出错的次数;二项分布的具体形式依靠于样本大小 n 以及概率 p 或 error Dh>;一般来说应用二项分布的条件包括:1. 有一基准试验 <如投掷硬币),其输出可被描述为一随机变量Y;随机变量 Y 有两种取值 <如 Y 1 为正面, Y 0 反面);2. 在试验的任一次尝试中Y=1 的概率为常数p;它与其他的试验尝试无关;因此Y=0的概率为 1-p;一般 p 为预先未知的,面临的问题就在于估量它;3. 基准试验的n 次独立尝试按序列执行,生成一个独立同分布的随机变量序列Y1 , Y2, Yn;令 R 代表 n 次试验中显现 Yi 1 的次数:4. 随机变量 R 取特定值 r 的概率 <如观看到 r 次正面的概率)由二项分布给出:欢迎下载精品学习资源<5.2 )此概率分布的一个图表在表5-3 中给出;二项分布刻画了n 次硬币投掷显现r 次正面的概率,也刻画了包含n 个随机样例的数据样本显现 r 次误分类错误的概率;5.3.3 均值和方差随机变量的两个最常用到的属性为其期望值<也称为均值)和方差;期望值是重复采样随机变量得到的值的平均;更精确的定义如下:定义:考虑随机变量Y 可能的取值为 y1yn,Y 的期望值 expected value> EY>为:<5.3)例如,假如Y 取值 1 的概率为 0.7,取值 2 的概率 0.3,那么期望值为 <1· 0.72· 0.31.3);假如随机变量Y 听从二项分布,那么可得:<5.4)其中 n 和 p 为式 5.2 中定义的二项分布的参数;另一重要属性 方差 描述的是概率分布的宽度或散度,即它描述了随机变量与其均值之间的差有多大;定义:随机变量 Y 的方差 <variance) VarY为:<5.5 )方差描述的是从Y 的一个观看去估量其均值EY>的误差平方的期望;方差的平方根被称为 Y 的标准差,记为 Y;定义:随机变量 Y 的标准差 <standard deviation ) Y为:<5.6)如随机变量 Y 听从二项分布,就方差和标准差分别为:<5.7)5.3.4 估量量,偏差和方差我们已得出随机变量error Sh>听从二项分布,现在回到前面的问题:error Sh>和真实错误率 error Dh>之间可能的差异是多少?用式 5.2 中二项分布的定义来描述error S h>和 error Dh>,可得:欢迎下载精品学习资源其中 n 为样本 S 中实例数, r 是 S中被 h 误分类的实例数,p 为从 D 中抽取一实例被误分类的概率;统计学中将 error Sh>称为真实错误率error Dh>的一个估量量 estimator>;一般地,估量量是用来估量某基准总体的某一参数的随机变量;对于估量量,明显最关怀的是它平均来说是否能产生正确估量;下面定义估量偏差estimationbias >为估量量的期望值同真实参数值之间的差异;定义:针对任意参数p 的估量量 Y 的估量偏差 为:E Y- p假如估量偏差为0,我们称 Y 为 p 的无偏估量量 <unbiased estimator);留意,在此情形下由多次重复试验生成的Y 的多个随机值的平均 <即 E Y )将收敛于 p;error Sh>是否为 error Dh>的一个无偏估量量?的确如此,由于对于二项分布,r 的期望值为 np<等式 5.4 );由此,并且由于n 为一常数,那么 r/ n 的期望值为p;对估量偏差仍需要作两点说明;第一,在本章开头我们提到,在训练样例上测试假设得到的对假设错误率的估量偏于乐观化,所指的正是估量偏差;要使error Sh>对 error Dh>无偏估量,假设h 和样本 S 必需独立选取;其次,估量偏差estimation bias>这一概念不能与其次章介绍的学习器的归纳偏置inductive bias> 相混淆;估量偏差为一数字量,而归纳偏置为断言集合;估量量的另一重要属性为其方差;给定多个无偏估量量,直观上应选取其中方差最小的;由方差的定义,所挑选的应为参数值和估量值之间期望平方误差最小的;假如在测试一假设时,它对n 40 个随机样例的样本产生r 12 个错误,那么对error Dh>的无偏估量为 error Sh> r/n 0.3;估量中产生的方差完全来源于 r 中的方差,由于 n 为一常数;由于 r 是二项分布,它的方差由式 <5.7 )为 np1-p>;然而 p 未知,我们可以用估量量 r /n 来代替 p;由此得出 r 的的估量方差为 40· 0.31-0.3> 8.4,或相应的标准差 2.9;这表示 error Sh> r/n 中的标准差约为 2.9/40 0.07;概而言之,观看到的error Sh>为 0.3,标准差约为 0.07;<见习题 5.1);一般来说,如在 n 个随机选取的样本中有r 个错误, error S h>的标准差为:<5.8)它约等于用 r/n error S h>来代替 p:<5.9 )5.3.5 置信区间通常描述某估量的不确定性的方法是使用一置信区间,真实的值以肯定的概率落入该区间中;这样的估量称为置信区间 <confidence interval )估量;定义:某个参数 p 的 N置信区间 是一个以 N的概率包含 p 的区间;例如,假如在n 40 个独立抽取的样例的样本中有r 12 个错误,可以称区间0.3±0.14 有 95的可能性包含真实错误率error Dh>;欢迎下载精品学习资源如何获得error Dh>的置信区间?答案在于估量量error Sh>听从二项分布;这一分布的均值为 error Dh>,标准差可由式5.9 运算;因此,为运算95置信区间,只需要找到一个以均值 error Dh>为中心的区间,它的宽度足以包含该分布下全部概率的95;等价地,它指定了 error Dh>有 95的机会落入 error Sh>四周的某区间的大小;对于给定的 N 值,如何运算区间大小以使其包含N的概率质量?对于二项分布来说这一运算特别烦琐;然而多数情形下可以进行一近似,使运算过程更简洁;这基于如下事实:即对于足够大的样本,二项分布可以很好地由正态分布来近似;正态分布<在表 5-4 中概述)是统计学中争论得最透彻的概率分布之一;如表5-4 所示,正态分布是一钟形分布,由其均值 和标准差 完全定义;对于大的n,二项分布特别近似于一个同样均值和方差的正态分布;之所以使用正态分布来代替,一个缘由是多数统计参考都列表给出了正态分布下包含N的概率质量的均值四周的区间的大小;这就是运算N置信区间所需的信息;实际上 表 5-1 正是这样一个表;表5-1 中给定的常数zN 定义的是在钟形正态分布下,包含N概率质量的均值四周的最小区间的宽度;更精确地说,zN 以标准差给定了区间的半宽度<即在任一方向距均值的距离),图5-1a>给出了针对 z80 的一个区间;表 5-4 正态或高斯分布插图原书页码:139Normal distribution with mean 0, standard deviation 1:均值为 0,标准差为 1 的正态分布一个正态分布 <也被称为高斯分布)是一钟型分布,它定义为下面的概率密度函数:一个正态分布由上面公式中的两个参数完全确定:和;假如随机变量 X 遵循正态分布,就:X 落入到 a, b>的概率为:欢迎下载精品学习资源X 的期望值或均值EX 为: X 的方差 Var X>为X 的标准差为 X为:EX= Var X>= 2 X=欢迎下载精品学习资源中心极限定理 <5.4.1 节)说明大量独立同分布的随机变量的和遵循的分布近似为正态分布;插图原书页码:140欢迎下载精品学习资源图 5-1 一个均值为 0,标准差为 1 的正态分布;a>在 80%置信度下,随机变量值位于双侧区间-1.28, 1.28 之间;留意z801.28;有 10%置信度其落入区间左侧, 10%落入区间右侧;上;b> 在 90%置信度下,随机变量位于单侧区间- , 1.28概而言之,假如随机变量Y 听从正态分布,均值为 ,标准差为 ,那么 Y 的任一观察值 y 有 N%的机会落入下面的区间: ± zN <5.10) 相像地,均值 有 N%的机会落入下面的区间:y± zN <5.11)很简洁将此结论和前面的结论结合起来推导式5.1 的离散值假设的N置信区间的一般表达式;第一,由于error Sh>遵从二项分布,其均值为error Dh>,标准差如式5.9 所示;其次,我们知道对于足够大的样本大小5.11 告知我们如何为估量正态分布的均值求出n,二项分布特别近似于正态分布;第三,式N置信区间;因此,将error Sh>的均值和标准差代入到式 5.11 中将得到式 5.1 中对离散值假设的 N置信区间为:回忆一下,在表达式的推导中有两个近似化:1. 估量 error Sh>的标准差 时,我们将 error D h>近似为 error Sh><即从式 5.8 到式 5.9的推导);2. 二项分布由正态分布近似;统计学中的一般规章说明,这两个近似在n30 或 np1-p> 5 时工作得很好;对于较小的 n 值,最好使用列表的形式给出二项分布的具体值;5.3.6 双侧和单侧边界上述的置信区间是双侧的,即它规定了估量量的上界和下界;在某些情形下,可能要用到单侧边界;例如,提出问题“error Dh>至多为 U 的概率”;在只要限定h 的最大错误率,而不在乎真实错误率是否小于估量错误率时,很自然会提出这种问题;只要对上述的过程作一小的修改就可运算单侧错误率边界;它所基于的事实为正态分布关于其均值对称;因此,任意正态分布上的双侧置信区间能够转换为相应的单侧区间,置信度为原先的两倍;<见图 5-1b> );换言之,由一个有下界L 和上界 U 的 1001- >% 置信区间,可得到一个下界为L 无上界的1001- /2>% 置信区间,同时也可得出一个有上界 U 无下界的 1001- /2>% 置信区间;这里 对应于真实值落在指定区间外的概率;换句话说, 是真实值落入图 5-1a>中无阴影部分的概率, /2 是落入图 5-1<b )的无阴影部分的概率;为说明这一点,再次考虑h 产生 r=12 个错误且样本大小n=40 的这个例子;如上所述,它导致一个双侧的95置信区间0.3± 0.14;其中 1001- >=95,所以 0.05;因此,应用以上规章,可得有1001- /2> 97.5的置信度error D h> 最多为 0.30 0.14 欢迎下载精品学习资源0.44,而不管 error Dh>的下界;因此在error Dh>上的单侧错误率边界比相应的双侧边界有双倍的置信度 <见习题 5.3);5.4 推导置信区间的一般方法前一节介绍的是针对一特定情形推导置信区间估量:基于独立抽取的n 样本,估量离散值假设的error Dh>;本节介绍的方法是在很多估量问题中用到的通用的方法;准确地讲,我们可以将此看作是基于大小为n 的随机抽取样本的均值,来估量总体均值的问题;通用的过程包含以下步骤:1. 确定基准总体中要估量的参数p,例如 error Dh>;2. 定义一个估量量 Y<如 error S h>)它的挑选应为最小方差的无偏估量量;3. 确定估量量所听从的概率分布DY,包括其均值和方差;4. 确定 N置信区间,通过查找阈值L 和 U 以使这个按DY 分布的随机变量有N机会落入 L 和 U 之间;后面的几节将应用该通用的方法到其他几种机器学习中常见的估量问题;第一我们需要争论估量理论的一个基本成果,称为中心极限定理Central Limit Theorem> ;5.4.1中心极限定理中心极限定理是简化置信区间的推导的一个基本依据;考虑如下的一般框架:在 n 个独立抽取的且听从同样概率分布的随机变量 Y1 Yn 中观看试验值 <犹如一硬币的 n 次抛掷);令 代表每一变量 Yi 听从的未知分布的均值,并令 代表标准差;称这些变量 Yi 为独立同分布 independent, identically distributed> 随机变量,由于它们描述的是各自独立并且服 从 同 样 概 率 分 布 的 实 验 ; 为 估 计 Yi 服 从 的 分 布 的 均 值 , 我 们 计 算 样 本 的 值<如 n 次投掷硬币中显现正面的比例);中心极限定理说明在n时所听从的概率分布为一正态分布,而不论Yi 本身听从什么样的分布;更进一步,听从的分布均值为 而且标准差为,精确的定义如下:定理 5.1:中心极限定理 ;考虑独立同分布的随机变量Y1Yn 的集合,它们听从一任意的概率分布,均值为 ,有限方差 2;定义样本均值;就当 n时下面的式子听从一正态分布,均值为0 且标准差为 1;这一结论特别令人惊讶,由于它说明在不知道独立的 Yi 所听从的基准分布的情形下, 我们可以得知样本均值 的分布形式;更进一步,中心极限定理说明白怎样使用 的均值和方差来确定单独的 Yi 的均值和方差;中心极限定理是一个特别有用的结论,由于它表示任意样本均值的估量量< 如欢迎下载精品学习资源error Sh>为均值错误率)听从的分布在n 足够大时可近似为正态分布;假如仍知道这一近似的正态分布的方差,就可用式5.11 来运算置信区间;一个通常的规章是在n 30 时可使用这一近似;前面的章节我们正是使用了正态分布来近似地描述error Sh>听从的二项分布;5.5 两假设错误率间的差异现考虑对某离散目标函数有两个假设h1 和 h2;假设 h1 在一拥有n1 个独立抽取样例的样本 S1 上测试,且 h2 在 n2 个同样抽取的样例的样本S2 上测试;假定要估量这两个假设的真实错误率间的差异:可使用节 5.4 中描述的四步骤来推导d 的置信区间估量;在确定d 为待估量的参数后,下面要定义一估量量;很明显,这里可挑选样本错误率之间的差异作为估量量,标记为:在此不加证明地使用即为 d 的无偏估量量,即;随机变量听从的概率分布是什么?从前面的章节中,我们知道对于较大的n1 和 n2<比如都 30), error S1 h1>和 error S2h2>都近似遵从正态分布;由于两正态分布的差仍为一正态分布,因此也近似遵从正态分布,均值为d;同时,可得该分布的方差为error S1 h1>和 error S2 h2>的方差的和;使用式5.9 获得这两个分布的近似方差,有:<5.12)现在已确定了估量量所听从的概率分布,很简洁导出置信区间以说明使用来估量d 的可能误差;随机变量听从均值d 方差 2 的正态分布,其N置信区间估量为;使用上面给出的方差的近似值, d 的近似的 N置信区间估量为:5.13>其中 zN 是表 5-1 中描述的常数;上式给出了一般的双侧置信区间,以估量两个假设错误率之间的差异;有时可能需要某一置信度下的单侧的边界要么界定最大可能差异, 要么为最小的;单侧置信区间可以用5.3.6 节中描述的方法来修改上式而得到;虽然上面的分析考虑到了h1 和 h2 在相互独立的数据样本上测试,更通常的情形是在一个样本 S<S 仍旧独立于 h1 和 h2);这样,被重新定义为:当使用S 来代替S1 和 S2 时,新的中的方差通常小于5.12 式给出的方差;这是由于,使用单个的样本S 排除了由 S1 和 S2 的组合带来的随机差异;这样,由式5.13 给出的置信区间一般说来会过于保守,但仍旧是正确的;欢迎下载精品学习资源5.5.1假设检验有时我们感爱好的是某特定的猜想正确的概率,而不是对某参数的区间估量;比如下 面的问题“ error Dh1>> error Dh2>的可能性有多大?”;仍使用前一节的条件设定,假定要测量 h1 和 h2 的样本错误率,使用大小为100 的独立样本 S1 和 S2,并且知道 error S1h1>0.30 且 error S2h2> 0.20,因此差异为 0.10 ;当然,由于数据样本的随机性,即使error Dh1> error Dh2>,仍有可能得到这样的差异;在这里,给定样本错误率 0.10 , error Dh1>> error D h2>的概率是多少?等价地,如何运算在 0.10 时 d>0 的概率?留意概率Prd 0>等于过高估量 d 不多于 0.1 的概率;也即,这个概率为落入单侧区间<d+0.10 的概率;由于d 是所听从分布的均值,上式等价于;概括地说,概率Pr d 0>等于落入单侧区间的概率;由于前一节我们已运算出的大致分布,就可以通过分布在该区间的概率质量来确定落入这个单侧区间的概率;第一将区间表示为答应从均值偏离的标准差数;使用式5.12 可得,所以这一区间可近似表示为与此正态分布的单侧区间相关联的置信度是多少?查表5-1,可得均值四周的1.64 标准差对应置信度 90的双侧区间;因此这个单侧区间具有置信度95;因此,给定观看到的 0.1, error Dh1>> error Dh2>的概率约为 0.95 ;依据统计学的术语,可表述为:接受 <accept)“ error Dh1>> error Dh2>”这一假设,置信度为0.95;换一种说法,可表述为我们拒绝<reject)对立假设< 常称为零假设),以1-0.95>=0.05的效度<significance level );5.6 学习算法比较有时我们更感爱好于比较两个学习算法LA 和 LB 的性能,而不是两个特定假设;怎样近似地检验多个学习算法,如何确定两个算法之间的差异在统计上是有意义的?虽然,在机器学习争论领域,对于比较的方法仍在争辩中,不过这里介绍了一个合理的途径;关于不同方法的争论见Dietterich<1996 );开头先指定要估量的参数;假定有LA 和 LB 两个算法,要确定为了学习一特定目标函数 f 平均来说那个算法更优;定义“平均”的一种合理方法是,从一基准实例分布D 中抽取全部包含 n 个样例的训练集合,在全部这样的集合中测量两个算法的平均性能;换句话说,需要估量假设错误率之间差异的期望值:5.14>其中 LS>代表给定训练样本S 时学习算法 L 输出的假设,下标S D 表示期望值是在基准分布 D 中抽取的样本S 上运算;上述表达式描述的是

    注意事项

    本文(2022年实数公理等价命题证明.docx)为本站会员(C****o)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开