运筹学 数据模型与决策bgsm.pptx
数据 模型与决策 西安理工大学工商管理学院5/21/20231 数据 模型与决策 Data Models and Decisions (DMD)学习内容学习内容一一数据分析(数据分析(Data Analysis)简记:简记:DA 二二 线性规划线性规划(Linear Programming)简记:简记:LP三三 动态规划动态规划(Dynamic Programming)简记:简记:DP四四 决策分析决策分析(Decision Analysis)简记:简记:DEA 5/21/20232n预修课程:n 线性代数n 管理学n 经济学n教材:n管理运筹学韩伯棠5/21/20233学习方式n1 课堂讲授课堂讲授n2 案例讨论、分析案例讨论、分析n3 上机上机n4 平时作业平时作业n5 案例报告案例报告n6 考核考核:平时平时成绩成绩(20%)案例案例成绩成绩(30%)笔试成绩笔试成绩(50%)上课、实验考勤成绩,作业成绩成绩分析5/21/20234一、数据分析5/21/20235背景n 数据分析是研究如何收集、分析数据并从中提取数据分析是研究如何收集、分析数据并从中提取有用信息、知识供决策之用的方法,属于有用信息、知识供决策之用的方法,属于“统计学统计学”科学。科学。n 由于统计问题涉及的数据量都有一定规模且计算由于统计问题涉及的数据量都有一定规模且计算复杂,必须借助统计软件作为分析工具。复杂,必须借助统计软件作为分析工具。n 常用的统计软件(如常用的统计软件(如SASSAS、SPSSSPSS)都是针对统计)都是针对统计专业人员编写的,不易掌握,另一方面,非统计专专业人员编写的,不易掌握,另一方面,非统计专业的学生,在今后的工作环境中运用专业统计软件业的学生,在今后的工作环境中运用专业统计软件的机会较少。因此,可充分应用的机会较少。因此,可充分应用 Microsoft Excel Microsoft Excel软件。软件。5/21/20236EXCEL软件简介n Microsoft ExcelMicrosoft Excel是一个功能强大、使是一个功能强大、使用灵活方便的电子表格软件,也是最为流行用灵活方便的电子表格软件,也是最为流行的办公自动化软件,本课程主要利用的办公自动化软件,本课程主要利用EXCELEXCEL的统计分析功能和丰富的统计图表。的统计分析功能和丰富的统计图表。n 5/21/20237主要内容 第一章第一章 数值型变量数据分析数值型变量数据分析 1.1.数值型单变量数据分析数值型单变量数据分析 2.2.数值型双变量数据分析数值型双变量数据分析 第二章第二章 属性变量数据分析属性变量数据分析 1.1.单变量属性数据分析单变量属性数据分析 2.2.双变量属性数据分析双变量属性数据分析 第三章第三章 回归模型及分析回归模型及分析 1.1.线性回归线性回归 2.2.简单非线性回归简单非线性回归 3.3.多元回归多元回归 5/21/20238第一章第一章 数值型变量数据分析数值型变量数据分析 n1.1 数值型单变量数据分析n例1.1 某班DMD考试成绩如下:n80 85 76 78 67 93 88 90 75 66 65 77 74 83 81 70 83 64 96 60 79 86 80 71n试用相关统计量对成绩进行分析。5/21/20239 ExcelExcel有有3 3种分析工具用来描述数值型种分析工具用来描述数值型单变量数据:单变量数据:n1.1.描述性统计描述性统计n2.2.直方图直方图n3.3.排位和百分比排位排位和百分比排位5/21/2023101.1.1 描述性统计 该统计工具提供了反映集中趋势、离散程度以及偏该统计工具提供了反映集中趋势、离散程度以及偏移程度的统计指标共移程度的统计指标共16个。个。步骤:步骤:1)打开)打开“工具工具”菜单;菜单;2)选择)选择“数据分析数据分析”;3)选择)选择“描述统计描述统计”;4)根据对话框,选择或输入相关数据。根据对话框,选择或输入相关数据。C:My Documents模拟成绩.xls5/21/202311描述统计指标说明:n1.平均:一组数据的平均值。平均:一组数据的平均值。2.2.中值(中位数):数据序列中位于中间的值。中值(中位数):数据序列中位于中间的值。3.3.模式(众数):发生次数最多的值。模式(众数):发生次数最多的值。C:My Documents模拟成绩.xls 5/21/202312n4.4.标准差:反映数据的离散程度标准差:反映数据的离散程度。C:My Documents模拟成绩.xls5/21/2023135.峰值(峰态):它是衡量对称分布陡缓程度的指峰值(峰态):它是衡量对称分布陡缓程度的指标。标。n 当分布较正态分布平坦时,该指标为正;当分布较正态分布平坦时,该指标为正;n 当分布较正态分布陡峭、尖时,该指标为负。当分布较正态分布陡峭、尖时,该指标为负。5/21/2023146.偏斜度:它是衡量数据分布不对称程度的指标。偏斜度:它是衡量数据分布不对称程度的指标。当某些极端值出现在正方向时,称为当某些极端值出现在正方向时,称为“向右偏离向右偏离”;当某些极端值出现在负方向时,称为当某些极端值出现在负方向时,称为“向左偏离向左偏离”。5/21/202315 7.区域(全距):数据中最大值与最小值之差。区域(全距):数据中最大值与最小值之差。8.最小值:样本中的最小值。最小值:样本中的最小值。9.最大值:样本中的最大值。最大值:样本中的最大值。10.求和:样本数据的和。求和:样本数据的和。11.计数:样本中数据个数。计数:样本中数据个数。12.最大最大k值:给出数据中第值:给出数据中第k个最大值。个最大值。13.最小最小k值:给出数据中第值:给出数据中第k个最小值。个最小值。C:My Documents模拟成绩.xls5/21/2023161.1.2 直方图该统计工具提供一张频数分布表和一张直方图。该统计工具提供一张频数分布表和一张直方图。步骤:步骤:1)确定直方图的区间个数,填入每个组界值;确定直方图的区间个数,填入每个组界值;2)打开)打开“工具工具”菜单;菜单;3)选择)选择“数据分析数据分析”;4)选择)选择“直方图直方图”;5)在)在“直方图直方图”对话框中填入数据。对话框中填入数据。C:My Documents模拟成绩.xls5/21/202317输出图表的修饰:n1)单击条块选中图形;)单击条块选中图形;n2)选择)选择“数据系列格式数据系列格式”;n3)在对话框)在对话框“图案图案”中,改中,改“区域区域”为无;为无;n4)单击)单击“选项选项”,改,改“分类间距分类间距”为为0;n5)单击)单击“确定确定”。nC:My Documents模拟成绩.xls5/21/2023181.1.3 排位和百分比排位该统计工具提供一张含有升序排列的数据表格以及其该统计工具提供一张含有升序排列的数据表格以及其排列后的序号、百分位号。排列后的序号、百分位号。步骤:步骤:1)打开)打开“工具工具”菜单;菜单;2)选择)选择“数据分析数据分析”;3)选择)选择“排位与百分比排位排位与百分比排位”。4)根据对话框,选择或输入相关数据。根据对话框,选择或输入相关数据。数据模型课件模拟成绩.xls5/21/202319n练习n下列数据为15项资产的出售价格(万元),试用描述性统计、直方图、排位和百分比分析工具进行数据分析:¥260 380 436 310 396 448 374 312 406 348 372 418 392 384 4525/21/2023201.2 数值型双变量数据分析n对两组数值型数据分析它们之间的相关关系。有两种分对两组数值型数据分析它们之间的相关关系。有两种分析工具。析工具。n1.1.散点图散点图n2.2.相关系数相关系数5/21/202321例1.2n某公司欲调查办公楼的租金和空置率间的关系,工作某公司欲调查办公楼的租金和空置率间的关系,工作人员在人员在1010个不同的城市里,对办公楼中每平方米的月个不同的城市里,对办公楼中每平方米的月租金和空置率的数据记录如下:租金和空置率的数据记录如下:n试作散点图,并判断两变量间的相关性。试作散点图,并判断两变量间的相关性。城市12345678910空置率 311659257108月租金 52.54.754.534.5433.25 2.755/21/2023221.2.1 散点图n该统计工具用来描述两个变量之间的关系。通常用该统计工具用来描述两个变量之间的关系。通常用在直观判断基本关系或用在回归模型使用前。在直观判断基本关系或用在回归模型使用前。n步骤:步骤:1)输入变量)输入变量X和和Y的数值;的数值;n 2)选中数据;)选中数据;n 3)打开)打开“图表向导图表向导”;n 4)对散点图进行编辑。)对散点图进行编辑。房租模拟.xls房租模拟.xls5/21/2023231.2.2 相关系数n相关系数用来说明两个变量之间的相关密切程度。相关系数用来说明两个变量之间的相关密切程度。步骤:步骤:1)打开)打开“工具工具”菜单;菜单;2)选择)选择“数据分析数据分析”;3)选择)选择“相关系数相关系数”。4)根据对话框,选择或输入相关数据。根据对话框,选择或输入相关数据。nC:My Documents房租模拟.xls5/21/202324n相关系数的基本计算公式:相关系数的基本计算公式:n两个数列的协方差:两个数列的协方差:n自变量数列的标准差:自变量数列的标准差:n因变量数列的标准差:因变量数列的标准差:5/21/202325相关程度判断标准:相关程度判断标准:1.当当 r=1时,时,X与与Y为线性相关;为线性相关;2.当当r0.3时,时,X与与Y为微弱相关;为微弱相关;3.当当 0.3r0.5时,时,X与与Y为低度相关;为低度相关;4.当当 0.5r0.8时,时,X与与Y为显著相关;为显著相关;5.当当 0.8r1时,时,X与与Y为高度相关。为高度相关。5/21/202326n练习 下面是10家商店销售额和利润率的资料:n(1)画出散点图;(2)计算每人月平均销售额与利润率的相关系数。商店每人月平均销售额(万元)利润率(%)1612.62510.43818.5413.0548.16716.37612.3836.2936.610716.85/21/2023275/21/202328 2 2 属性变量数据分析属性变量数据分析 2.1单变量属性数据分析单变量属性数据分析用途:对性别、职称、品牌等属性数据进行分布描述。用途:对性别、职称、品牌等属性数据进行分布描述。例例 2.1 对某城市饭店业进行前景调查,问卷数据如下表对某城市饭店业进行前景调查,问卷数据如下表 所示。要求统计出各项数据的分布。所示。要求统计出各项数据的分布。数据包括:业主类型(数据包括:业主类型(owner)前途看法(前途看法(outlook)5/21/2023295/21/202330n步骤:步骤:1.打开打开“数据数据”菜单;菜单;2.选择选择“数据透视表数据透视表”,按下一步;,按下一步;3.选择选择“版式版式”;4.单击变量单击变量“owner”,拖到,拖到“行行”区域中;区域中;5.单击变量单击变量“owner”,拖到,拖到“数据数据”区域中;区域中;6.双击双击“求和项求和项”,在,在“汇总方式汇总方式”中选择中选择“计数计数”;7.单击单击“确定确定”。nC:My Documents饭店调查.doc5/21/202331以百分比形式表示统计结果:以百分比形式表示统计结果:1.选中选中“结果表结果表”中的任一单元格中的任一单元格 2.打开快捷菜单,选择打开快捷菜单,选择“字段字段”3.单击单击“选项选项”4.在在“数据显示方式数据显示方式”中选择中选择“占总和的百分比占总和的百分比”5.单击单击“确定确定”nC:My Documents饭店调查.doc5/21/2023322.2 双双变量属性数据分析变量属性数据分析 两维表格(列联表)两维表格(列联表)n用途:对性别、职称等属性数据进行相关关系描述。用途:对性别、职称等属性数据进行相关关系描述。n 例如例如 统计饭店的前途是否与店主的类型相关。统计饭店的前途是否与店主的类型相关。5/21/202333n步骤:步骤:1.打开打开“数据数据”菜单;菜单;2.选择选择“数据透视表数据透视表”,按下一步;,按下一步;3.选择选择“版式版式”;4.单击变量单击变量“Owner”,拖到,拖到“行行”区域中;区域中;5.单击变量单击变量“Outlook ”,拖到,拖到“列列”区域中;区域中;5.单击变量单击变量“Outlook ”,拖到,拖到“数据数据”区域区域中;中;6.双击双击“求和项求和项”,在,在“汇总方式汇总方式”中选择中选择“计数计数”;7.单击单击“确定确定”。nC:My Documents饭店调查.doc5/21/202334以百分比形式表示统计结果:1.选中选中“结果表结果表”中的任一单元格中的任一单元格 2.打开快捷菜单,选择打开快捷菜单,选择“字段字段”3.单击单击“选项选项”4.在在“数据显示方式数据显示方式”中选择中选择“占同行数据总和的百分占同行数据总和的百分比比”5.单击单击“确定确定”nC:My Documents饭店调查.doc5/21/202335 3 回归分析n 通常用以确定两个变量之间的线性关系模型,并据此进行预测。n 根据回归分析方法得出的数学表达式,称为回归方程,它可能是直线方程,也可能是曲线方程。3.1 线性回归 3.2 简单非线性回归 5/21/202336例n某公司欲调查办公楼的租金和空置率间的关系,工作人员在10个不同的城市里,对办公楼中每平方米的月租金和空置率的数据如下:试求月租金与空置率的关系模型。城市12345678910空置率 311659257108月租金 52.54.754.534.5433.25 2.755/21/2023373.1 线性回归n两个变量之间存在相关关系,而且其相关的紧密程度必须是显著的,直线回归方程的基本形式为:n其中:a,b是待定参数,可通过以下方法求出:n1.散点图中插入趋势线n2.回归分析工具5/21/2023383.1.1散点图中插入趋势线n 在插入趋势线前必须绘制散点图,如果点近似分布在一直线附近,那么可用简单线性回归方法;如果点近似分布在一曲线附近,那么考虑使用非线性回归方法。5/21/202339例n某公司欲调查办公楼的租金和空置率间的关系,工作人员在10个不同的城市里,对办公楼中每平方米的月租金和空置率的数据如下:试求月租金与空置率的回归模型。城市12345678910空置率 311659257108月租金 52.54.754.534.5433.25 2.755/21/202340 步骤:1)打开“图表”;2)作出散点图;3)点击图中任一数据点;4)在“图表”中选择“添加趋势线”命令;5)单击“线性图”;6)根据对话框,选择或输入相关数据。nC:My Documents房租模拟.xls5/21/2023413.1.2 回归分析工具n插入趋势线仅给出了回归线、回归方程及 ,运用回归分析工具可得到更多的信息。步骤:1)打开“工具”菜单;2)选择“数据分析”;3)选择“回归”。4)根据对话框,选择或输入相关数据。n数据模型课件房租模拟.xls5/21/202342关于回归分析的说明:用于衡量回归方程式优良性的工具通常是以下几种:1.标准误差 用来说明回归方程代表性的大小。其中:y是因变量实际值,是根据回归方程推算出来的因变量估计值。从计算公式可以看出,标准误差实际上是一个平均误差。数值越大,说明所有点离回归线越远,则回归方程的代表性越小;数值越小,说明所有点越靠近回归线,则回归方程的代表性越大。5/21/202343 2.判定系数 反映自变量与因变量之间线性关系的强弱程度。记实际值y的总变差为:回归变差为:则:该公式说明了回归误差占总误差的百分比,数值越大,表明总误差中由回归方程来解释的部分也越大,即所有点越接近于回归直线。5/21/2023443.2 简单非线性回归n 变量之间的相互关系呈某种曲线型,此时,不能用直线回归方程,需要选择适当的曲线模型,进行非线性回归分析。n 常用的非线性回归模型有:对数、乘幂、指数、多项式等。n1.散点图中插入趋势线n2.回归分析工具5/21/2023453.2.1散点图中插入趋势线n 绘制散点图是很关键的一步,有助于我们确定变量之间存在何种非线性关系。n 图形向左上凸起,可能存在乘幂关系(x1)或对数关系;n 图形向左下凸起,可能存在乘幂关系,或对数关系,或指数关系;n 图形向右下凸起,可能存在乘幂关系或指数关系。5/21/202346例n某公司在8个城市试行不同广告费的空调促销,下表中是各城市广告费(万元)与销售率(每千人为基准):n1)绘制散点图;n2)插入趋势线。n数据模型课件空调销售.xls 城市12345678910广告费 20283035384043454647销售率 1.93.24.34.84.05.04.54.64.684.725/21/202347 步骤:1)打开“图表”;2)作出散点图;3)点击图中任一数据点;4)在“图表”中选择“添加趋势线”命令;5)单击“类型”标签,选择合适的图形。6)单击“选项”标签,选择“显示公式”和“显示R平方 值”。n数据模型课件空调销售.xls5/21/202348非线性回归模型类型1:对数 模型为:y=a+b*Ln(x)其中:Ln(x)是自然对数,以e=2.718为底数。依据对数定义,自变量的数据必须大于零。本例中,选择对数模型,插入趋势线后可得到如下结果。5/21/202349非线性回归模型类型2:乘幂n模型为:本例中,选择乘幂模型,插入趋势线后可得到如下结果。5/21/202350非线性回归模型类型3:指数n模型为:5/21/202351例n某公司在8个城市试行不同售价的空调促销,下表中是各城市售价(千元)与销售率(每千人为基准):n1)绘制散点图;n2)插入趋势线。n数据模型课件空调(售价)销售.xls 城市12345678Price2.12.32.42.52.62.72.93.0SalesRate4.64.55.04.04.84.33.21.95/21/202352n本例中,选择指数模型,插入趋势线后可得到如下结果。5/21/2023533.2.2 回归分析工具n插入趋势线仅给出了回归线、回归方程及 ,运用回归分析工具可得到更多的信息。步骤:1)打开“工具”菜单;2)选择“数据分析”;3)选择“回归”。5/21/202354非线性回归模型类型1:对数n模型为:y=a+b*Ln(x)n例3.1中,先对变量x求其ln(x),再选择“数据分析”,单击“回归”后可得到如下结果。5/21/202355非线性回归模型类型2:乘幂n模型为:nEXCEL在确定拟合关系时,需要进行对数转换,n Ln(y)=Ln(a)+b*Ln(x)以此转为线性形式。n例3.1中,选择“数据分析”,单击“回归”后可得到如下结果。5/21/202356非线性回归模型类型3:指数n模型为:nEXCEL在确定拟合关系时,需要进行对数转换,n Ln(y)=Ln(a)+bxn以此转为线性形式。n例3.2中,选择“数据分析”,单击“回归”后可得到如下结果。5/21/202357练习:n某公司在16个城市试行不同售价的电视机促销,下表中是各城市售价(千元)与销售率(每千人为基准):price1250119512001225123012751300132513501375Sales rate0.951.050.981.21.10.900.80.750.700.65price1190118512151235126512701380139014001410Sales rate0.91.051.150.980.930.880.600.580.500.401.绘制散点图,插入趋势线,给出公式和R平方值。2.运用回归分析工具,给出公式和R平方值。3.已知某一市场电视机售价为1430元,试预测销售率。5/21/202358第四章 时间序列分析 n 从连续性的历史资料中找出经济现象的发展规律,并据此预测其未来的发展趋势。n1.移动平均法2.指数平滑法5/21/2023594.1移动平均法n 移动平均法是对原有的数列,按顺序和相等时间间隔逐步移动地计算动态平均数,然后把计算出的结果排成新的数列,目的是消除偶然因素影响的波动,揭示经济现象的固有发展趋势及规律。5/21/202360 移动平均法可分为一次移动平均法和二次移动平均法。n一次移动平均法:n x1,x2,.xm是m个历史数据,n是时间间隔(如n=3),也就是移动平均期数,则一次动态平均数为:5/21/202361例:某食品厂2000年1至12月份的销售额如下表:n试预测次年1月份的销售额。时期月1234567891011121次年销售额万元3334373441445046475245555/21/202362方法:n1).用趋势线作移动平均2).用数据分析工具作移动平均5/21/2023631)用趋势线作移动平均 步骤:1)打开“图表”;2)作出散点图;3)点击图中任一数据点;4)在“图表”中选择“添加趋势线”命令;5)单击“类型”标签,选择移动平均的图形。6)“周期”栏选定为3,单击“确定”。n食品厂销售额.xls5/21/202364某食品厂销售额预测分析表时期(月)销售额(万元)三个月平均趋势值五个月平均趋势值13323433743434.6754135.064437.3335.875039.6738.084645.041.294746.6743.0105247.6745.6114548.3347.8125548.048.01(次年)50.6749.05/21/2023652)用数据分析工具作移动平均 步骤:1)打开“工具”菜单;2)选择“数据分析”;3)选择“移动平均”。5/21/202366