欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    数据、模型与决策.ppt

    • 资源ID:76341161       资源大小:7.96MB        全文页数:381页
    • 资源格式: PPT        下载积分:30金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要30金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    数据、模型与决策.ppt

    数据、模型与决策数据、模型与决策Data,Models and Decisionsn n1、主要讲授课程:n n计量经济学、运筹学、经济预测与决策技术n n2、主要研究方向:n n多元统计n n半参数统计中估计问题n n因果效应推断本课程的主要内容本课程的主要内容n数据分析的基本内容n计量模型的基本方法n预测与决策的基本技术n软件的简单应用 本课程的特点本课程的特点数据、模型与决策流程数据、模型与决策流程结论决策执行结果管理者信息提供模型反馈数据、模型与决策的目的数据、模型与决策的目的 是在科学、符合是在科学、符合逻辑和合理的基础上制定决策逻辑和合理的基础上制定决策 特点:特点:n n以数据为基础。将数据作为基本的信息来源,以对实际问题的了解为基本结构,以数据对结构的吻合程度为标准。n n以模型为手段。以数学理论与方法为工具定量研究社会经济现象之间的关系,形成较严密的研究特色,具有较好的可试验性。n n决策是目的且具有量的特征,定量可以对问题的描述较精确,能对问题的本质进行深入、广泛的推断,为科学决策提供依据。n n是一门多学科交叉的科学,数理统计学与运筹学、管理学是其基础n n计算机技术是必不可少的工具。实际问题实际问题1:资源分配问题:资源分配问题n n潘得罗索工业公司生产胶合板,根据厚度和所用木材的质量而有所不同。因为产品在一个竞争的环境中进行销售,产品的价格由市场决定。所以每个月管理层面临的一个关键问题是选择产品组合以获取尽可能多的利润。需要考虑当前生产产品必须的各种资源的可得数量。六项最重要的资源为(1)四种类型的原木(根据原木的质量区分)和(2)生产胶合板的两项关键作业的生产能力(模压作业和刨光作业)。你们公司有这样的经历吗?你们公司有这样的经历吗?实际问题实际问题2:销售量评估:销售量评估n n某食品公司生产各种系列的冷饮食品,冷饮食品生产是季节性,需要提前组织生产。一般是每年四月就要制订接下去的五个月生产计划,包括生产的冷饮品种、等级、规格与原料组合。因此要制订采购计划和工厂生产能力计划,以满足市场的需要。如何来预测客户的需求量呢?n n 预测对生产计划有多重要?预测对生产计划有多重要?案例案例1 n n有兄弟姐妹一起成长,不仅增添亲情,而且有预防疾病的好处n n一项来自澳大利亚的研究表明:兄弟姐妹在6岁之前的相互传染病毒可以增强免疫功能,并预防多发性硬化症。n n塔斯马尼亚州研究者观察了136名多发性硬化症患者,并与272名健康者进行了对比。有兄弟姐妹的人得病少n n科学家发现:在幼儿时期与兄弟姐妹有五年以上密切生活的人患多发性硬化症的几率下降了88%,而与兄弟姐妹接触1-3年的人可降低43%。案例案例2n n科学家最近发现了保持苗条身材的奥妙。如果一个人平时闲不住,小动作很多,日常消耗的热量就多,就能保持苗条的身材。n n美国梅欧医院请来了20位志愿者,进行了为期一年的研究。志愿者分为两组,一组较瘦,另一组轻度微胖。所有志愿者都穿上一种带有传感器的特制内衣,内衣里的装置每隔半秒钟记录一次人体的姿态与活动“坐立不安”让人苗条n n志愿者照常进行他们的日常工作与活动,所有食物由研究人员提供n n研究人员发现,轻度微胖者更喜欢坐着,而身材苗条组的人闲不住。瘦人组的平均“坐立不安”的时间比胖人组多2个小时,相当于多消耗350卡热量n n如果胖人组也这么不“消停”的话,一年下来完全可以减轻14-18磅的体重n n此外,研究人员还发现:一个人爱动还是喜静是天生的,与体重无关。在研究的第二阶段,让瘦人多吃1000卡n n热量,胖人少吃1000卡热量,他们的生活习惯没有改变。n n这项研究为肥胖者提供了新的希望。以上几个问题说明在现实生活中,不管是进行决策还是进行研究发现新结果,都离不开数据。第一章、数据与数据展示第一章、数据与数据展示n n1.数据概述:可分为科学数据、社会数据、商业数据。(依来源与用途)n n分类:数值型与属性型 静态数据与动态数据 时间序列数据、截面数据、面板数据定类数据、定序数据、定距数据与定比数据(一)数据的来源(一)数据的来源n n1、已存在的数据。包括存在于组织中的一些个人信息资料;一些专门收集与维护数据的公司所拥有的商务数据;政府机构n n2、调查研究获得的数据。可分为实验性研究与观察性研究(二)数据收集的道德准则与行为规范(二)数据收集的道德准则与行为规范n n基本准则:数据的客观性与可重复性n n行为规范:(1)尽可能收集原始数据或第一手数据(2)引用数据时,要辨别是否侵犯知识产权,合法引用要注明数据的来源。(3)原始数据有异常时,要分析异常的原因,不得随意删除、篡改数据。(4)要说明数据处理的工具、方法及处理过程(5)通过问卷调查的数据,要说明调查内容、调查表的设计等(三)数据图表表示(三)数据图表表示n n数据收集好了,那我们就来看看从数据中能挖到什么宝藏了!3.1 类别数据的表格表示n n例例3.1 交通事故的驾驶因素分析交通事故的驾驶因素分析n n造成交通事故的驾驶因素有判断失误、察觉得晚、驾驶错误、偏离规定的行驶路线和酒后或疲劳驾驶等。某地区交通管理部门对某段时间中的50起交通事故进行驾驶因素分析,得到的原始数据如下:驾驶错误察觉得晚察觉得晚判断失误驾驶错误察觉得晚判断失误察觉得晚判断失误察觉得晚判断失误酒后或疲劳驾驶察觉得晚判断失误察觉得晚驾驶错误判断失误驾驶错误察觉得晚判断失误酒后或疲劳驾驶察觉得晚察觉得晚察觉得晚察觉得晚察觉得晚偏离规定的行驶路线判断失误驾驶错误察觉得晚判断失误判断失误判断失误察觉得晚驾驶错误察觉得晚察觉得晚驾驶错误察觉得晚判断失误判断失误驾驶错误驾驶错误判断失误驾驶错误驾驶错误酒后或疲劳驾驶察觉得晚察觉得晚察觉得晚n n从例3.1的数据,你能看出些什么?n n也许你看出了“察觉得晚”、“判断失误”等因素比较多,“偏离规定的行驶路线”、“酒后或疲劳驾驶”等因素比较少。很好!n n其实,只要借助一些简单的图表,就能对数据加以整理并进行初步的定量分析。n n一些常用的软件如Excel,几乎能完美地为你完成这些图表!n n我们从表1很容易看出:n n哪些因素是比较主要的因素?n n各因素之间频率的差异有多大?等等。n n有时,累积频率也需要在频数频率分布表中列出。n n每一类的累积频率每一类的累积频率是指,从第一类开始累积到该类的频率总和,即将该类及其之前的所有类的频率相加。n n譬如,为了分析驾驶因素中的主要因素,我们可以进一步改进表1,按照频数或频率从大到小的顺序,将各因素排序后列出来,并加上累积频率一项,结果列于表2中。表表2 2 分析驾驶因素中主要因素的频数频率分布表分析驾驶因素中主要因素的频数频率分布表驾驶因素频数频率()累积频率察觉得晚214242判断失误142870驾驶错误112292酒后或疲劳驾驶 3 698偏离规定的行驶路线 1 2100合计50100用Excel制作定性数据频数频率分布表n n累积频率更常用于有序数据的分析中。我们来看一个例子。n n例例3.2 博客调查博客调查 n n()n nPerseus Development 公司在其网页上发布了一项关于博客的调查报告。该调查根据8个博客服务商提供的博客用户资料,得到了各年龄段的人创建的博客数,频数频率分布表3显示了调查结果。表表3 各年龄段的博客创建情况各年龄段的博客创建情况1012 55,500 1.35 1.351319 2,120,000 51.45 52.802029 1,630,000 39.56 92.353039 241,000 5.85 98.203049 41,700 1.01 99.215059 18,500 0.45 99.66年龄段创建的博客数 频率()累积频率()6069 13,9000.34100.00合计4,120,600100.00数据的图形表示n n用于数据描述的图形比较多,譬如常用的饼状图、用于数据描述的图形比较多,譬如常用的饼状图、柱状图、直方图,以及在统计学中常用的茎叶图、柱状图、直方图,以及在统计学中常用的茎叶图、排列图等等。排列图等等。n n当我们在考虑各种图的时候,把变量稍加分类会当我们在考虑各种图的时候,把变量稍加分类会有帮助。有帮助。n n有的变量具备有意义的数值尺度,如身高几厘米、有的变量具备有意义的数值尺度,如身高几厘米、考试成绩几分等;而有的变量只是把个体分到不考试成绩几分等;而有的变量只是把个体分到不同类别而已,如性别、职业或教育程度。同类别而已,如性别、职业或教育程度。n n类别变量只记录所属类别,譬如,例类别变量只记录所属类别,譬如,例1 1的变量就是的变量就是类别变量,它包含类别变量,它包含5 5个类,个体的数据就是指个体个类,个体的数据就是指个体属于其中某个类。属于其中某个类。n n要表示类别变量的分布,可以用饼图,也可用柱要表示类别变量的分布,可以用饼图,也可用柱状图或条形图,等等。以下是例状图或条形图,等等。以下是例3.13.1的图形表示。的图形表示。n n柱形图与条形图作法 垂直柱状组成的图形称为柱形图,水平条状组成的垂直柱状组成的图形称为柱形图,水平条状组成的图形称为条形图。图形称为条形图。例:创建我国例:创建我国2001200120042004年第一、第二和第三产业年第一、第二和第三产业产值数量的变化的柱形图。产值数量的变化的柱形图。年份年份第一产业第一产业第二产业第二产业第三产业第三产业200120011.541181.541184.875004.875003.315303.31530200220021.611731.611735.298025.298023.607483.60748200320031.692811.692816.127416.127413.91880 3.91880 200420042.076812.076817.238727.238724.372064.372061.打开Excel表,单击“插入图标”工具图标,选择图表类型柱形图和子图标类型,点击“下一步”。2.2.选择目标数据,用鼠标选定B4:D8,单击“系列”卡片,点击“下一步”。3.3.输入系列名称,用鼠标选定输入系列名称,用鼠标选定“分类分类(X)(X)轴标志轴标志”A5:A8 A5:A8,单击,单击“下一步下一步”n n4.输入或修改“标题”、“坐标轴”、“网格线”、“图例”、“数据标志”、“数据表”等属性,单击“下一步”。5.选择图表位置,单击“完成”。6.图表完成。如果需要,可以双击图表中任何一部分进行修改。图表区分类轴分类轴标题数值轴图例图表标题系列“第一产业”绘图区数值轴主要网格线数值轴标题系列“第二产业”系列“第三产业”直方图直方图n n因为类别变量的可能值相对来说不多,所以我们因为类别变量的可能值相对来说不多,所以我们可以用饼状图或柱状图来呈现类别变量的分布。可以用饼状图或柱状图来呈现类别变量的分布。那么像月收入这种数量变量要如何呈现呢?因为那么像月收入这种数量变量要如何呈现呢?因为数量变量的可能值太多,所以不太可能用饼状图数量变量的可能值太多,所以不太可能用饼状图或柱状图来呈现。若将数量变量的数据进行适当或柱状图来呈现。若将数量变量的数据进行适当的分组,再画出分布图,那么将会比较清楚。这的分组,再画出分布图,那么将会比较清楚。这就是本节中我们将重点介绍的图形就是本节中我们将重点介绍的图形直方图直方图直方图直方图(histogramhistogram),它是描述数量变量分布最常用的),它是描述数量变量分布最常用的图。图。n n在平面直角坐标系中,用横轴表示各类观察值,在平面直角坐标系中,用横轴表示各类观察值,纵轴表示频数或频率,所绘制的由若干个长方形纵轴表示频数或频率,所绘制的由若干个长方形所组成的图形,就叫做频数分布直方图,简称所组成的图形,就叫做频数分布直方图,简称直直直直方图方图方图方图。通过直方图,我们可以比较快速、直观地。通过直方图,我们可以比较快速、直观地把握整体的分布情况。把握整体的分布情况。直方图作法直方图作法步骤:步骤:1)确定直方图的区间个数,填入每个组确定直方图的区间个数,填入每个组界值;界值;2)打开)打开“工具工具”菜单;菜单;3)选择)选择“数据分析数据分析”;4)选择)选择“直方图直方图”;5)在)在“直方图直方图”对话框中填入数据对话框中填入数据用Excel制作定量数据频数频率分布表和直方图见例1.14(四)数据集中与分散属性的度量(四)数据集中与分散属性的度量某两个班DMD考试成绩如下:80 85 76 78 67 93 88 90 75 66 65 77 74 83 81 70 83 64 96 60 79 86 80 71 79 8987 74 78 65 97 89 91 61 79 77 85 89 78 72 86 84 88 84 66 69 78 74 77 89 81 如何评价这两个班的学习成绩呢?n n描述数据的分布属性是描述统计的主要内容,数描述数据的分布属性是描述统计的主要内容,数据的分布属性包括:据的分布属性包括:n n数据的频数分布和直方图数据的频数分布和直方图n n数据集中属性的指标(平均数、中位数、众数、比例)数据集中属性的指标(平均数、中位数、众数、比例)n n数据离散属性的指标(极差、方差、标准差)数据离散属性的指标(极差、方差、标准差)n n数据分布形态的指标(偏度、峰度)数据分布形态的指标(偏度、峰度)n n数据的计数和求和数据的计数和求和n n数据之间的相关程度的指标(相关系数)数据之间的相关程度的指标(相关系数)n nExcelExcel中的统计功能有以下三种实现方法中的统计功能有以下三种实现方法n n使用使用ExcelExcel的菜单统计工具的菜单统计工具n n使用使用ExcelExcel统计函数统计函数n n使用使用ExcelExcel统计插件(例如统计插件(例如PHStatPHStat等)等)n n数据集中趋势的测度数据集中趋势的测度均值:一组数据的平均值均值:一组数据的平均值。中位数:数据序列中位于中间的值。中位数:数据序列中位于中间的值。众数:发生次数最多的值。众数:发生次数最多的值。不同年龄段每周上网时间的平均值=AVERAGE(B23:B158)=AVERAGE(C23:C279)=AVERAGE(D23:D186)=AVERAGE(E23:E133)=AVERAGE(F23:F86)n n一组数据按大小顺序排列以后,处于中间一组数据按大小顺序排列以后,处于中间位置的数据。对于奇数组,中位数是中间位置的数据。对于奇数组,中位数是中间的一个,对于偶数组,中位数是中间的两的一个,对于偶数组,中位数是中间的两个的平均值。个的平均值。=MEDIAN(B23:B158)=MEDIAN(C23:C279)=MEDIAN(D23:D186)=MEDIAN(E23:E133)=MEDIAN(F23:F86)n n众数是一组数据出现次数最多的数值。如果一组数据各不相同,则这组数据不存在众数。“不同年龄段上网时间均值的区间估计.xls”数据的如下:=MODE(B23:B158)=MODE(C23:C279)=MODE(D23:D186)=MODE(E23:E133)=MODE(F23:F86)n n标准差:反映数据的离散程度标准差:反映数据的离散程度。方差:是标准差的平方。极差:最大与最小之差。标准误:通常只针对抽样均值而言。标准差的重要性标准差的重要性切比雪夫定理:任何一组数据,设它的平均数为切比雪夫定理:任何一组数据,设它的平均数为,标,标准差为准差为,这组数据落在,这组数据落在 范围范围内的数据个数占数据总数的比例,至少是内的数据个数占数据总数的比例,至少是 。这个定理说明了标准差是数据分散程度的一个普遍性这个定理说明了标准差是数据分散程度的一个普遍性的指标。的指标。在工业生产中,产品的指标总会出现波动,一般都把产品指标的变动控制在指标平均值加减3个标准差的范围内,认为这是生产正常的标志。如果产品指标波动超出这个范围,说明生产系统不正常。n n在投资风险分析中,评价投资收益有两个指标,一个是收益期望值(平均值),另一个是收益的标准差。投资收益的标准差表示投资风险的大小,标准差越大,风险越大。低收益低风险低收益高风险高收益低风险高收益高风险收益期望值收益标准差n n 变异系数变异系数标准差是测定数据离散程度的标志,但由于不同的数标准差是测定数据离散程度的标志,但由于不同的数据数值大小不同,相同的离散程度,数值比较大的据数值大小不同,相同的离散程度,数值比较大的标准差也会比较大。以下是不同年龄组每周上网时标准差也会比较大。以下是不同年龄组每周上网时间的统计数据间的统计数据:为了比较大小不同的几组数据的离散程度,定义如下为了比较大小不同的几组数据的离散程度,定义如下的变异系数(的变异系数(Coefficient of Variation Coefficient of Variation):):1818岁以下岁以下18-2418-24岁岁25-3025-30岁岁31-4031-40岁岁4040岁以上岁以上均值均值6.588 6.588 20.922 20.922 20.293 20.293 16.324 16.324 15.281 15.281 标准差标准差2.368 2.368 2.221 2.221 2.888 2.888 2.780 2.780 3.658 3.658 变异系数变异系数0.359 0.359 0.106 0.106 0.142 0.142 0.170 0.170 0.239 0.239(五)数据频数分布形态(五)数据频数分布形态描述数据频数分布形态的指标有两个描述数据频数分布形态的指标有两个峰度:设数据个数为峰度:设数据个数为NN个,峰度计算公式为个,峰度计算公式为峰度系数是描述数据分布陡峭或平坦的指标。正态峰度系数是描述数据分布陡峭或平坦的指标。正态分布的峰度为分布的峰度为0.0.比正态分布平坦的峰度为负值。比正态分布平坦的峰度为负值。偏度:描述数据分布对称性指标。公式为正态分布偏度为0,数据频数右偏,偏度系数为负;左偏为正。(六)(六)数据的统计相关性数据的统计相关性1.因果相关性:指变量X与变量Y之间存在因果关系。因果关系可以通过理论或实验证实。2.统计相关性:指变量X的数值与变量Y的数值之间可以找出统计关系,统计关系是一种数量关系,不需要、还没有或不可能解释二者之间的相关的原因。因果相关的变量不一定有统计相关性,有统计相关的也不一定有因果关系n n线性相关系数:反映两个变量之间线性统计关系的指标。分总体相关系数与样本相关系数。设有两个变量X,Y,其均值与方差分别为则总体相关相关系数为 其中称为X,Y的协方差。样本相关系数的计算公式为 用R表示总体相关系数,r表示样本相关系数。相关系数反映了数据之间的线性相关程度。即便数据存在非线性相关,R与r可能为0.以后一般指线性相关。相关系数没有单位,其值为相关系数没有单位,其值为-1 r 1。r值为正值为正表示正相关,表示正相关,r值为负表示负相关,值为负表示负相关,r绝对值绝对值反应两变量间相关关系的密切程度反应两变量间相关关系的密切程度,绝对,绝对值越大说明相关关系越密切,值越大说明相关关系越密切,r的绝对值等的绝对值等于于1为完全相关,为完全相关,r=0为零相关。为零相关。第二章、概率论与统计学基础第二章、概率论与统计学基础(一)随机事件、随机变量与频数事件分类:确定性与随机性。随机变量:表示随机事件各种可能结果的变量。每一个随机变量都有确定的可能取值。随机变量分类:离散型与连续型。n n随机事件的运算随机事件的交(Intersection):事件A和事件B同时发生的事件称为事件A和事件B的交。记为AB或A and B随机事件的并(Union):事件A和事件B至少一个发生的事件称为事件A和事件B的并。记为AB或A or B。如果两个事件不可能同时发生,则这两个事件是互斥(Mutually exclusive)的。随机事件的差:事件A发生而事件B不发生,则称这个事件是A与B的差事件。A-B样本数、频数样本数、频数 对随机变量,我们感兴趣的是它的各种可能结果发对随机变量,我们感兴趣的是它的各种可能结果发生几率有多大。可以通过记录随机变量发生的次生几率有多大。可以通过记录随机变量发生的次数,称为样本数。观察它的各种可能结果出现的数,称为样本数。观察它的各种可能结果出现的次数,称之为随机变量频数。次数,称之为随机变量频数。假设随机变量假设随机变量X X可能取可能取这这mm个结果,记取个结果,记取的次数为的次数为称为随机变量取值的频数。那么,当样本数为称为随机变量取值的频数。那么,当样本数为NN时,时,有有n n相对频数:随机变量可能结果的频数与样本数之相对频数:随机变量可能结果的频数与样本数之比,记为:比,记为:显然,所有相对频数之和为显然,所有相对频数之和为1 1,即,即例:见教材例:见教材P50P50例例(二)离散随机变量及分布(二)离散随机变量及分布当样本量不断增加时,离散随机变量相对频数趋当样本量不断增加时,离散随机变量相对频数趋向于一个稳定的值,称之为随机变量的概率。向于一个稳定的值,称之为随机变量的概率。记随机变量记随机变量X X取某一个值取某一个值 的概率为的概率为 即有即有 几个概率法则几个概率法则几个概率法则几个概率法则n n法则法则法则法则1 1:概率值都在概率值都在0 01 1之间。之间。n n法则法则法则法则2 2:所有可能性的概率之和等于所有可能性的概率之和等于1 1n n法则法则3 3:如果事件:如果事件A A和事件和事件B B互斥,那么两个事互斥,那么两个事件的并发生的概率等于两事件发生的概率之和。件的并发生的概率等于两事件发生的概率之和。即即 P(A P(AB)=P(A)+P(B)B)=P(A)+P(B)法法则则4 4:如果两事件不是互斥的,那么两个事件的并发生的概率等于两事件发生的概率之和,减去两事件的交发生的概率。即:P(AB)=P(A)+P(B)-P(AB)离散随机变量分布律:离散随机变量可以用分布律表示其取值的概率。分布函数:对给定的一个实数,随机变量不超过这个值的概率(也称累积概率)。n n记分布函数为记分布函数为F(x),F(x),则表达式为则表达式为 很显然,分布函数是一个分段右连续函数。很显然,分布函数是一个分段右连续函数。2 2、几个重要的离散分布几个重要的离散分布 贝努利分布:如果一个随机变量贝努利分布:如果一个随机变量X X只有两个结果,只有两个结果,而且两个结果发生概率是不变的,则称这个随机而且两个结果发生概率是不变的,则称这个随机变量服从贝努利。记变量服从贝努利。记X X的两个取值分别为的两个取值分别为0 0与与1 1,取取0 0的概率为的概率为p,p,则则X X的概率分布律为的概率分布律为 二项分布:重复了二项分布:重复了二项分布:重复了二项分布:重复了 n n 次的贝努利分布试验。设成功的概率次的贝努利分布试验。设成功的概率次的贝努利分布试验。设成功的概率次的贝努利分布试验。设成功的概率为为为为P P,则在,则在,则在,则在n n次试验中成功了次试验中成功了次试验中成功了次试验中成功了x x次的概率为次的概率为次的概率为次的概率为记为记为记为记为 .二项分布的均值为二项分布的均值为二项分布的均值为二项分布的均值为np,np,方差为方差为方差为方差为np(1-p).np(1-p).泊松分布:在排队系统中,比如到公交站的人数,泊松分布:在排队系统中,比如到公交站的人数,泊松分布:在排队系统中,比如到公交站的人数,泊松分布:在排队系统中,比如到公交站的人数,到银行的人数,常常假定单位时间内到达的客人到银行的人数,常常假定单位时间内到达的客人到银行的人数,常常假定单位时间内到达的客人到银行的人数,常常假定单位时间内到达的客人数满足如下条件:数满足如下条件:数满足如下条件:数满足如下条件:(1 1)单位时间内到达的顾客数的均值与到达时间无)单位时间内到达的顾客数的均值与到达时间无)单位时间内到达的顾客数的均值与到达时间无)单位时间内到达的顾客数的均值与到达时间无关,这称为随机变量的平稳性。关,这称为随机变量的平稳性。关,这称为随机变量的平稳性。关,这称为随机变量的平稳性。(2 2)任何两个到达的顾客之间是独立的,称为普遍)任何两个到达的顾客之间是独立的,称为普遍)任何两个到达的顾客之间是独立的,称为普遍)任何两个到达的顾客之间是独立的,称为普遍性。性。性。性。(3 3)前面到达顾客人数不影响后面到达顾客人数,)前面到达顾客人数不影响后面到达顾客人数,称为无后效性。称为无后效性。(4 4)所有有限时间内到达的顾客总数是有限的,)所有有限时间内到达的顾客总数是有限的,称为有限性。称为有限性。可以得出有可以得出有k k个顾客到达的概率为个顾客到达的概率为 其中,其中,为单位时间到达的顾客数量的均值。为单位时间到达的顾客数量的均值。(三)连续型随机变量及概率分布(三)连续型随机变量及概率分布例(略)例(略)对连续型随机变量对连续型随机变量X X,概率曲线记为,概率曲线记为f(x)f(x),即随机,即随机变量变量X X的概率密度函数,简称密度函数;累积概的概率密度函数,简称密度函数;累积概率曲线记为率曲线记为F(x),F(x),即随机变量即随机变量X X的累积概率分布函的累积概率分布函数,简称分布函数。数,简称分布函数。命题命题1 1:设连续型随机变量:设连续型随机变量X X的取值范围为的取值范围为a,b,a,b,密密度函数为度函数为f(x),f(x),分布函数为分布函数为F(x),F(x),则有则有(1 1)随机变量随机变量X X落在区间落在区间中的概率为:中的概率为:(2 2)密度函数在随机变量所有取值范围内的积分为)密度函数在随机变量所有取值范围内的积分为1.1.(3 3)(4 4)(5 5)几个重要的连续随机变量分布几个重要的连续随机变量分布 1.1.正态分布:若随机变量的密度函数为:正态分布:若随机变量的密度函数为:其中,其中,为正态分布的均值与标准差。为正态分布的均值与标准差。分布函数为:分布函数为:n n 正态分布x xO O+-f(x)f(x)标准正态分布:当标准正态分布:当 时,正态分时,正态分布称为标准正态分布。一般正态分布做变换即可化布称为标准正态分布。一般正态分布做变换即可化为标准正态分布为标准正态分布标准正态分布密度函数(x)的曲线有以下特征:n n是偶函数,关于y轴对称,即 n n当x=0时,取得最大值 x取值离原点越远,(x)值越小。n n在x=1有两个拐点。n n曲线与x轴间所夹面积为1n n对分布函数有如果 ,则X的分布函数 例例 设设XNXN(0 0,1 1),求),求P|X|xP|X|x,并计算,并计算P|X|1.28P|X|1.28。设某种产品的重量设某种产品的重量X X服从服从N N(100100,1616)。如果产品的)。如果产品的重量在重量在9510595105之间属于合格品,求产品是合格品之间属于合格品,求产品是合格品的概率。的概率。已知小麦穗长服从已知小麦穗长服从N N(9.978,1.4419.978,1.4412 2),求下列概),求下列概率:率:(1 1)穗长小于)穗长小于6.536cm6.536cm。(2 2)穗长大于)穗长大于12.128cm12.128cm。(3 3)穗长在)穗长在8.573cm8.573cm与与9.978cm9.978cm之间。之间。n n从甲到乙地有两条路线,走第一条路所需时间服从N(50,100),走第二条路时间服从N(60,16),问:(1).若有70分钟可用,走哪条路好?(2).若只有65分钟呢?n n指数分布:若一个随机变量X的密度函数为 则称随机变量服X从指数分布,记为其分布函数为:指数分布有许多性质(略)。均匀分布:如果随机变量落在某一区域的上的点的概率相等,则称这个随机变量服从均匀分布。三角分布。超几何分布。伽马分布F-分布t-分布随机变量的期望值和方差随机变量的期望值和方差n n离散随机变量的期望值离散随机变量的期望值 对于离散随机变量对于离散随机变量X X,期望值是这个随机变量的所,期望值是这个随机变量的所有可能结果,用每一个结果发生的概率作为权重有可能结果,用每一个结果发生的概率作为权重的加权平均。的加权平均。设随机变量设随机变量X X有有n n个取值,第个取值,第i i个取值等于个取值等于xi xi的概率的概率为为f(xi)f(xi),则随机变量,则随机变量X X的期望值的期望值EXEX等于等于离散随机变量的方差(离散随机变量的方差(VarianceVariance)方差度量随机变量的不确定性,方差越大,结果的不确定越大。由于方差的单位和变量的单位不同,因此常用标准差(Standard deviation)表示随机变量的波动的大小。由于标准差的单位和变量相同,因此它比方差更有意义。标准差是对风险的一种测度,因此它在金融模型中是一个关键的概念。n n例:风险投资问题 有一项风险投资,每次投资成功和失败的概率都是50。投入1元资本,如果成功,连本带利资本增值为2.2元,如果失败,投入的资金全部损失,资本变为0。为了避免所有的资本全部损失,每次只投入当前资本的一半。假设最初的资本为100万元,而这项投资的次数没有限制。问题:这项投资的前景如何?是一本万利,还是血本无归?解1 设初始资本A=100万元,投资成功的资本增值率为K2.2第一次投资成功后的资本为:A/2+KA/2=(K+1)A/2第一次投资失败后的资本为:A/2第一次投资后的资本的期望值为:0.5(K+1)A/2+0.5A/2=0.5(K+2)A/2=0.5(K/2+1)A第二次投资成功后的资本为:第二次投资成功后的资本为:0.5(K+2)A/4+0.5(K+2)KA/4=0.5(K+2)(K+1)A/40.5(K+2)A/4+0.5(K+2)KA/4=0.5(K+2)(K+1)A/4第二次投资失败后的资本为:第二次投资失败后的资本为:0.5(K+2)A/40.5(K+2)A/4第二次投资以后的资本期望值为:第二次投资以后的资本期望值为:0.5*0.5(K+2)(K+1)A/4+0.5*0.5(K+2)A/40.5*0.5(K+2)(K+1)A/4+0.5*0.5(K+2)A/4=0.5=0.52 2(K+2)(K+2)2 2A/4A/4=0.5(K/2+1)=0.5(K/2+1)2 2A A第第n n次投资以后的资本期望值为:次投资以后的资本期望值为:0.5(K/2+1)0.5(K/2+1)n nA=0.5*(1.1+1)A=0.5*(1.1+1)n nA=(1.05)A=(1.05)n nA A当当n n无限增大时,资本会无限增加,即投资是一本万无限增大时,资本会无限增加,即投资是一本万利的。利的。n n解解2 2 设投资设投资2n2n次,当次,当n n很大时,其中大约有很大时,其中大约有n n次成次成功,功,n n次失败。其中对投资者最有利的是前次失败。其中对投资者最有利的是前n n次都次都成功,后成功,后n n次全失败。次全失败。第第1 1次成功后的资本为次成功后的资本为A/2+KA/2=(K+1)A/2A/2+KA/2=(K+1)A/2第第2 2次成功后的资本为次成功后的资本为(K+1)A/4+K(K+1)A/4=(K+1)2A/4=(K/2+1/2)(K+1)A/4+K(K+1)A/4=(K+1)2A/4=(K/2+1/2)2A2A第第n n次成功后的资本为次成功后的资本为(K/2+1/2)nA(K/2+1/2)nA第第1 1次失败后的资本为次失败后的资本为(K/2+1/2)(K/2+1/2)n nA/2A/2第第2 2次失败后的资本为次失败后的资本为(K/2+1/2)(K/2+1/2)n nA/2A/22 2第第n n次失败后的资本为次失败后的资本为(K/2+1/2)(K/2+1/2)n nA/2A/2n n=(K/4+1/4)=(K/4+1/4)n nA=(0.8)A=(0.8)n nA A当当n n无限增大时,无限增大时,2n2n次投资以后的资本趋向于次投资以后的资本趋向于0 0。即。即投资将会血本无归。投资将会血本无归。解法解法1 1和解法和解法2 2的结果显然是矛盾的,至少有一个是的结果显然是矛盾的,至少有一个是错的,哪一个是错的?错在哪里?错的,哪一个是错的?错在哪里?连续随机变量的期望值连续随机变量的期望值设连续随机变量设连续随机变量X X的概率分布密度函数为的概率分布密度函数为f(x)f(x),它的期,它的期望值为望值为a,ba,b是随机变量所在的变化范围,是随机变量所在的变化范围,a a可以是可以是-,b b可以可以是是+。随机变量随机变量X X的方差为的方差为随机变量随机变量X X的标准差为的标准差为联合分布、边际分布与条件概率联合分布、边际分布与条件概率n n在描述一些事物的运行规律,比如蚂蚁爬行所处在描述一些事物的运行规律,比如蚂蚁爬行所处的位置,飞机在空中的位置这样一些随机事件,的位置,飞机在空中的位置这样一些随机事件,就必须考虑多个随机变量构成的变量组。就必须考虑多个随机变量构成的变量组。设设 是一随机变量组,则是一随机变量组,则X X的分的分布称为联合分布。设其密度函数为布称为联合分布。设其密度函数为则分布函数为则分布函数为例:假定某种疾病的发病人数与年龄及某个化验指例:假定某种疾病的发病人数与年龄及某个化验指标有关,现有标有关,现有18981898名患者资料见名患者资料见P72P72例例2.15.2.15.将表中的统计人数除以总人数将表中的统计人数除以总人数18981898人,得到患病人人,得到患病人数关于年龄和化验指标的联合概率分布:数关于年龄和化验指标的联合概率分布:化化验验指指标标0-1.90-1.92.0-3.92.0-3.94.0-5.94.0-5.96.0-7.96.0-7.98.0-9.98.0-9.9x xx x1 1x x2 2x x3 3x x4 4x x5 5年年龄龄y y1.000 1.000 0.006 0.006 0.061 0.061 0.124 0.124 0.321 0.321 0.488 0.488 18-2418-24y y1 10.038 0.038 0.000 0.000 0.000 0.000 0.000 0.000 0.011 0.011 0.027 0.027 25-3425-34y y2 20.085 0.085 0.000 0.000 0.000 0.000 0.007 0.007 0.033 0.033 0.044 0.044 35-4435-44y y3 30.151 0.151 0.000 0.000 0.006 0.006 0.023 0.023 0.048 0.048 0.073 0.073 45-5445-54y y4 40.255 0.255 0.004 0.004 0.018 0.018 0.047 0.047 0.072 0.072 0.113 0.113 55-6455-64y y5 50.319 0.319 0.002 0.002 0.025 0.025 0.028 0.028 0.112 0.112 0.152 0.152 6565以上以上y y6 60.152 0.152 0.000 0.000 0.011 0.011 0.019 0.019 0.044 0.044 0.077 0.077 n n由表中的数据可以看出,如果某个患者的年龄在由表中的数据可以看出,如果某个患者的年龄在55-6455-64岁之间,化验指标在岁之间,化验指标在6.0-7.96.0-7.9之间,他患病的概之间,他患病的概率为率为11.211.2。化化验验指指标标0-1.90-1.92.0-3.92.0-3.94.0-5.94.0-5.96.0-7.96.0-7.98.0-9.98.0-

    注意事项

    本文(数据、模型与决策.ppt)为本站会员(得****1)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开