excel数据分析教程-.pdf
《excel数据分析教程-.pdf》由会员分享,可在线阅读,更多相关《excel数据分析教程-.pdf(50页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、excel数据分析教程2006-10-28作者:大鸟原创出处:天极软件责任编辑:still 一、用 Excel 做数据分析 直方图使用 Excel 自带的数据分析功能可以完成很多专业软件才有的数据统计、分析,这其中包括:直方图、相关系数、协方差、各种概率分布、抽样与动态模拟、总体均值判断,均值推断、线性、非线性回归、多元回归分析、时间序列等内容。下面将对以上功能逐一作使用介绍,方便各位普通读者和相关专业人员参考使用。注:本功能需要使用Excel 扩展功能,如果您的Excel 尚未安装数据分析,请依次选择“工具”-“加载宏”,在安装光盘中加载“分析数据库”。加载成功后,可以在“工具”下拉菜单中看
2、到“数据分析”选项。实例 1 某班级期中考试进行后,需要统计各分数段人数,并给出频数分布和累计频数表的直方图以供分析。以往手工分析的步骤是先将各分数段的人数分别统计出来制成一张新的表格,再以此表格为基础建立数据统计直方图。使用Excel 中的“数据分析”功能可以直接完成此任务。操作步骤1.打开原始数据表格,制作本实例的原始数据要求单列,确认数据的范围。本实例为化学成绩,故数据范围确定为0-100。2.在右侧输入数据接受序列。所谓“数据接受序列”,就是分段统计的数据间隔,该区域包含一组可选的用来定义接收区域的边界值。这些值应当按升序排列。在本实例中,就是以多少分数段作为统计的单元。可采用拖动的方
3、法生成,也可以按照需要自行设置。本实例采用 10 分一个分数统计单元。3.选择“工具”-“数据分析”-“直方图”后,出现属性设置框,依次选择:输入区域:原始数据区域;接受区域:数据接受序列;如果选择“输出区域”,则新对象直接插入当前表格中;选中“柏拉图”,此复选框可在输出表中按降序来显示数据;若选择“累计百分率”,则会在直方图上叠加累计频率曲线;4.输入完毕后,则可立即生成相应的直方图,这张图还需要比较大的调整。主要是:横纵坐标的标题、柱型图的间隔以及各种数据的字体、字号等等。为了达到柱型图之间无缝的紧密排列,需要将“数据系列格式”中的“选项”中“分类间距”调整为“0”。其余细节,请双击要调整
4、的对象按照常规方法进行调整,这里不再赘述。调整后的直方图参考如下三维中学2006 年第一学期期中考试化学成绩统计表学号成绩学习时间0701 78 62 0702 89 71 0703 84 67 0704 81 65 0705 92 74 0706 100 60 0707 98 78 0708 52 42 0709 56 43 0710 86 70 0711 68 54 0712 98 78 0713 60 48 0714 70 56 0715 74 59 0716 89 71 0717 53 42 0718 15 12 0719 45 36 0720 89 71 0721 99 79 072
5、2 98 78 0723 75 52 0724 65 52 0725 66 53 0726 58 46 0727 45 36 0728 85 68 0729 98 77 0730 100 80 0731 75 56 0732 74 59 0733 88 70 0734 89 71 0735 98 78 0736 92 80 0737 91 73 0738 87 70 0739 85 68 0740 84 67 0741 68 54 0742 86 62 0743 57 46 0744 45 36 0745 98 78 0746 95 23 0747 65 52 0748 98 78 0749
6、99 79 0750 85 68 0751 86 69 0752 74 25 0753 85 68 0754 65 65 0755 85 68 0756 84 99 二、用 Excel 做数据分析 描述统计某班级期中考试进行后,需要统计成绩的平均值、区间,以及给出班级内部学生成绩差异的量化标准,借此来作为解决班与班之间学生成绩的参差不齐的依据。要求得到标准差等统计数值。样本数据分布区间、标准差等都是描述样本数据范围及波动大小的统计量,统计标准差需要得到样本均值,计算较为繁琐。这些都是描述样本数据的常用变量,使用Excel 数据分析中的“描述统计”即可一次完成。注:本功能需要使用Excel 扩展
7、功能,如果您的Excel 尚未安装数据分析,请依次选择“工具”-“加载宏”,在安装光盘中加载“分析数据库”。加载成功后,可以在“工具”下拉菜单中看到“数据分析”选项。操作步骤1.打开原始数据表格,制作本实例的原始数据无特殊要求,只要满足行或列中为同一属性数值即可。2.选择“工具”-“数据分析”-“描述统计”后,出现属性设置框,依次选择:输入区域:原始数据区域,可以选中多个行或列,注意选择相应的分组方式;如果数据有标志,注意勾选“标志位于第一行”;如果输入区域没有标志项,该复选框将被清除,Excel 将在输出表中生成适宜的数据标志;输出区域可以选择本表、新工作表或是新工作簿;汇总统计:包括有平均
8、值、标准误差(相对于平均值)、中值、众数、标准偏差、方差、峰值、偏斜度、极差、最小值、最大值、总和、总个数、最大值、最小值和置信度等相关项目。其中:中值:排序后位于中间的数据的值;众数:出现次数最多的值;峰值:衡量数据分布起伏变化的指标,以正态分布为基准,比其平缓时值为正,反之则为负;偏斜度:衡量数据峰值偏移的指数,根据峰值在均值左侧或者右侧分别为正值或负值;极差:最大值与最小值的差。第 K 大(小)值:输出表的某一行中包含每个数据区域中的第k 个最大(小)值。平均数置信度:数值95%可用来计算在显著性水平为5%时的平均值置信度。结果示例如下(本实例演示了双列数据的描述统计结果):成绩学习时间
9、平均78.64285714 平均62.91428571 标准误差2.408241878 标准误差1.926593502 中位数85 中位数68 众数98 众数78.4 标准差18.02163202 标准差14.41730562 方差324.7792208 方差207.8587013 峰度1.464424408 峰度1.464424408 偏度-1.130551511 偏度-1.13055151 区域85 区域68 最小值15 最小值12 最大值100 最大值80 求和4404 求和3523.2 观测数56 观测数56 最大(1)100 最大(1)80 最小(1)15 最小(1)12 置信度(9
10、5.0%)4.826224539 置信度(95.0%)3.860979631 三、用 Excel 做数据分析 排位与百分比排位某班级期中考试进行后,按照要求仅公布成绩,但学生及家长要求知道排名。故欲公布成绩排名,学生可以通过成绩查询到自己的排名,并同时得到该成绩位于班级百分比排名(即该同学是排名位于前“X%”的学生)。排序操作是Excel 的基本操作,Excel“数据分析”中的“排位与百分比排位”可以使这个工作简化,直接输出报表。注:本功能需要使用Excel 扩展功能,如果您的 Excel 尚未安装数据分析,请依次选择“工具”-“加载宏”,在安装光盘中加载“分析数据库”。加载成功后,可以在“工
11、具”下拉菜单中看到“数据分析”选项。操作步骤1.打开原始数据表格,制作本实例的原始数据无特殊要求,只要满足行或列中为同一属性数值即可。2.选择“工具”-“数据分析”-“描述统计”后,出现属性设置框,依次选择;输入区域:选择数据区域,如果有数据标志,注意同时勾选下方“标志位于第一行”;分组方式:指示输入区域中的数据是按行还是按列考虑,请根据原数据格式选择;输出区域可以选择本表、新工作表组或是新工作簿。3.点击“确定”即可看到生成的报表。可以看到,此时生成一个四列的新表格,其中“点”是指排序后原数据的序数,在本实例中对应与学号,这也是很实用的一个序列;“成绩”即为排序后的数据系列;“排位”采取重复
12、数据占用同一位置的统计方法;“百分比”是按照降序排列的,为了得到真正的“百分比排位”,还需要稍微作一下调整。4.在“百分比”列的下一列输入“百分排名”,在第一个单元格中输入公式“=1-G3(对应于,百分排名?)”,回车。选中该单元格,向下拖动直至填充完毕。这样就达到了显示百分比排名的目的。完成的报表实例如下图所示。四、用 Excel 做数据分析 相关系数与协方差化学合成实验中经常需要考察压力随温度的变化情况。某次实验在两个不同的反应器中进行同一条件下实验得到两组温度与压力相关数据,试分析它们与温度的关联关系,并对在不同反应器内进行同一条件下反应的可靠性给出依据。相关系数是描述两个测量值变量之间
13、的离散程度的指标。用于判断两个测量值变量的变化是否相关,即,一个变量的较大值是否与另一个变量的较大值相关联(正相关);或者一个变量的较小值是否与另一个变量的较大值相关联(负相关);还是两个变量中的值互不关联(相关系数近似于零)。设(X,Y)为二元随机变量,那么:为随机变量X 与 Y 的相关系数。p 是度量随机变量X 与 Y 之间线性相关密切程度的数字特征。注:本功能需要使用Excel 扩展功能,如果您的 Excel 尚未安装数据分析,请依次选择“工具”-“加载宏”,在安装光盘中加载“分析数据库”。加载成功后,可以在“工具”下拉菜单中看到“数据分析”选项。操作步骤1.打开原始数据表格,制作本实例
14、的原始数据需要满足两组或两组以上的数据,结果将给出其中任意两项的相关系数。2.选择“工具”-“数据分析”-“描述统计”后,出现属性设置框,依次选择:输入区域:选择数据区域,注意需要满足至少两组数据。如果有数据标志,注意同时勾选下方“标志位于第一行”;分组方式:指示输入区域中的数据是按行还是按列考虑,请根据原数据格式选择;输出区域可以选择本表、新工作表组或是新工作簿;3.点击“确定”即可看到生成的报表。可以看到,在相应区域生成了一个3 3 的矩阵,数据项目的交叉处就是其相关系数。显然,数据与本身是完全相关的,相关系数在对角线上显示为1;两组数据间在矩阵上有两个位置,它们是相同的,故右上侧重复部分
15、不显示数据。左下侧相应位置分别是温度与压力A、B 和两组压力数据间的相关系数。从数据统计结论可以看出,温度与压力A、B 的相关性分别达到了0.95 和 0.94,这说明它们呈现良好的正相关性,而两组压力数据间的相关性达到了0.998,这说明在不同反应器内的相同条件下反应一致性很好,可以忽略因为更换反应器造成的系统误差。协方差的统计与相关系数的活的方法相似,统计结果同样返回一个输出表和一个矩阵,分别表示每对测量值变量之间的相关系数和协方差。不同之处在于相关系数的取值在-1 和+1 之间,而协方差没有限定的取值范围。相关系数和协方差都是描述两个变量离散程度的指标。MC 合成实验温度压力随温度变化表
16、温度()压力A(MPa)压力B(MPa)70 0 0 75 0.1 0.1 80 0.15 0.15 85 0.2 0.21 90 0.23 0.25 95 0.26 0.28 100 0.31 0.33 105 0.34 0.38 110 0.4 0.45 115 0.45 0.5 120 0.52 0.56 125 0.61 0.65 130 0.71 0.76 135 0.82 0.9 140 0.95 1.04 145 1.12 1.24 150 1.25 1.46 155 1.41 1.7 160 1.62 1.96 165 1.82 2.21 170 2.08 2.48 175 2
17、.61 180 2.94 185 3.18 190 3.56 五、用 Excel 做数据分析 抽样分析工具省教育厅派专家组进行某校检查学生考试试卷,专家组拟对总体进行抽样调查,对学校某班的全体同学随机抽取25 名作为调查样本。为了保证结果的非人为性,采用Excel 帮助专家组做出抽查的结果。抽样分析工具以数据源区域为总体,从而为其创建一个样本。当总体太大而不能进行处理或绘制时,可以选用具有代表性的样本。如果确认数据源区域中的数据是周期性的,还可以对一个周期中特定时间段中的数值进行采样。也可以采用随机抽样,满足用户保证抽样的代表性的要求。注:本功能需要使用Excel 扩展功能,如果您的Excel
18、 尚未安装数据分析,请依次选择“工具”-“加载宏”,在安装光盘的支持下加载“数据分析库”。加载成功后,可以在工具的下拉菜单中看到“数据分析”选项。操作步骤:1.打开原始数据表格,制作本实例的原始数据无特殊要求,只要满足行或列中为同一属性数值即可。实例中显示的是学生学号。2.选择“工具”“数据分析”“抽样”后,出现对话框,依次选择:输入区域:把原始总体数据放在此区域中,数据类型不限,数值型或者文本型均可;抽样方法:有间隔和随机两种。间隔抽样需要输入周期间隔,输入区域中位于间隔点处的数值以及此后每一个间隔点处的数值将被复制到输出列中。当到达输入区域的末尾时,抽样将停止。(在本例题中没有采用);随机
19、抽样是指直接输入样本数,电脑自行进行抽样,不用受间隔的规律限制;样本数:在此输入需要在输出列中显示需要抽取总体中数据的个数。每个数值是从输入区域中的随机位置上抽取出来的,请注意:任何数值都可以被多次抽取!所以抽样所得数据实际上会有可能小于所需数量。本文末尾给出了一种处理方法;输出区域:在此输入对输出表左上角单元格的引用。所有数据均将写在该单元格下方的单列里。如果选择的是“周期”,则输出表中数值的个数等于输入区域中数值的个数除以“间隔”。如果选择的是“随机”,则输出表中数值的个数等于“样本数”;3.然后单击确定就可以显示结果了(这是电脑自行随机抽样的结果)。需要说明的情况:由于随机抽样时总体中的
20、每个数据都可以被多次抽取,所以在样本中的数据一般都会有重复现象,解决此问题有待于程序的完善。可以使用“筛选”功能对所得数据进行筛选。选中样本数据列,依次执行“数据”-“筛选”-“高级筛选”,如下图所示。最后的样本结果如下图所示,请您根据经验适当调整在数据样本选取时的数量设置,以使最终所得样本数量不少于所需数量。六、用 Excel 做数据分析 移动平均某化工反应过程,每隔 2 分钟对系统测取一次压力数据。由于反应的特殊性,需要考察每 8 分钟的压力平均值,如果该压力平均值高于15MPa,则认为自属于该平均值计算范围内的第一个压力数据出现时进入反应阶段,请使用Excel 给出反应阶段时间的区间。点
21、这里看专题:用Excel 完成专业化数据统计、分析工作移动平均就是对一系列变化的数据按照指定的数据数量依次求取平均,并以此作为数据变化的趋势供分析人员参考。移动平均在生活中也不乏见,气象意义上的四季界定就是移动平均最好的应用。注:本功能需要使用Excel 扩展功能,如果您的 Excel 尚未安装数据分析,请依次选择“工具”-“加载宏”,在安装光盘支持下加载“分析数据库”。加载成功后,可以在“工具”下拉菜单中看到“数据分析”选项。操作步骤1.打开原始数据表格,制作本实例的原始数据要求单列,请确认数据的类型。本实例为压力随时间变化成对数据,在数据分析时仅采用压力数据列。需要注意的是,因为平均值的求
22、取需要一定的数据量,那么就要求原始数据量不少于求取平均值的个数,在Excel 中规定数据量不少于4。2.选择“工具”-“数据分析”-“直方图”后,出现属性设置框,依次选择:输入区域:原始数据区域;如果有数据标签可以选择“标志位于第一行”;输出区域:移动平均数值显示区域;间隔:指定使用几组数据来得出平均值;图表输出;原始数据和移动平均数值会以图表的形式来显示,以供比较;标准误差:实际数据与预测数据(移动平均数据)的标准差,用以显示预测与实际值的差距。数字越小则表明预测情况越好。3.输入完毕后,则可立即生成相应的数据和图表。从生成的图表上可以看出很多信息。根据要求,生成的移动平均数值在9:02 时
23、已经达到了15.55MPa,也就是说,包含本次数据在内的四个数据前就已经达到了15MPa,那么说明在8 分钟前,也就是8:56 时,系统进入反应阶段;采用同样的分析方法可以知道,反映阶段结束于9:10,反应阶段时间区间为8:56-9:10,共持续14 分钟。单击其中一个单元格“D6”,可以看出它是“B3-B6”的平均值,而单元格“E11”则是“SQRT(SUMXMY2(B6:B9,D6:D9)/4)”,它的意思是B6-B9,D6-D9 对应数据的差的平方的平均值再取平方根,也就是数组的标准差。七、用 Excel 做数据分析 回归分析在数据分析中,对于成对成组数据的拟合是经常遇到的,涉及到的任务
24、有线性描述,趋势预测和残差分析等等。很多专业读者遇见此类问题时往往寻求专业软件,比如在化工中经常用到的Origin 和数学中常见的MATLAB等等。它们虽很专业,但其实使用Excel 就完全够用了。我们已经知道在Excel 自带的数据库中已有线性拟合工具,但是它还稍显单薄,今天我们来尝试使用较为专业的拟合工具来对此类数据进行处理。注:本功能需要使用Excel 扩展功能,如果您的Excel 尚未安装数据分析,请依次选择“工具”-“加载宏”,在安装光盘支持下加载“分析数据库”。加载成功后,可以在“工具”下拉菜单中看到“数据分析”选项实例某溶液浓度正比对应于色谱仪器中的峰面积,现欲建立不同浓度下对应
25、峰面积的标准曲线以供测试未知样品的实际浓度。已知 8 组对应数据,建立标准曲线,并且对此曲线进行评价,给出残差等分析数据。这是一个很典型的线性拟合问题,手工计算就是采用最小二乘法求出拟合直线的待定参数,同时可以得出R 的值,也就是相关系数的大小。在Excel 中,可以采用先绘图再添加趋势线的方法完成前两步的要求。选择成对的数据列,将它们使用“X、Y 散点图”制成散点图。在数据点上单击右键,选择“添加趋势线”-“线性”,并在选项标签中要求给出公式和相关系数等,可以得到拟合的直线。由图中可知,拟合的直线是y=15620 x+6606.1,R2 的值为 0.9994。因为 R2 0.99,所以这是一
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- excel 数据 分析 教程
限制150内