《数据分析方法简介学习教案.pptx》由会员分享,可在线阅读,更多相关《数据分析方法简介学习教案.pptx(65页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、会计学1数据分析方法数据分析方法(fngf)简介简介第一页,共65页。数据分析数据分析作图法作图法柱形图和条形图柱形图和条形图 折线图和组合图折线图和组合图饼图和四象限散点图饼图和四象限散点图统计统计(t(t ngj)ngj)分析分析概率论概率论描述性统计描述性统计(t(t ngj)ngj)假设检测假设检测方差分析方差分析回归分析(一元)回归分析(一元)聚类分析聚类分析K-meanK-mean支持向量机支持向量机神经网络神经网络第1页/共65页第二页,共65页。作图法:作图法:柱形图和条形图柱形图和条形图 第2页/共65页第三页,共65页。条形图,两个数据(shj)系列第3页/共65页第四页,
2、共65页。叠加条形图表 21213535404084845454第4页/共65页第五页,共65页。柱形图柱形图第5页/共65页第六页,共65页。旋风状图(水平(shupng)堆叠图)类别(libi)A类别(libi)B类别 C类别 D类别 E类别 F类别 G类别 H第6页/共65页第七页,共65页。线性图线性图第7页/共65页第八页,共65页。饼饼图图四象限(xingxin)散点图第8页/共65页第九页,共65页。11.405 11.505 11.605 11.705 11.805 11.905 12.005 12.105 12.205 12.305 12.405 频数(pn sh)频数频数(
3、pn sh)直方图直方图第9页/共65页第十页,共65页。统计分析:基础统计分析:基础(jch)概率学概率学那么第10页/共65页第十一页,共65页。数据分布性质数据分布性质平均数平均数平均数平均数中位数中位数中位数中位数众数众数众数众数集中趋势集中趋势极差极差极差极差方差方差方差方差标准差标准差标准差标准差离散趋势离散趋势偏态偏态偏态偏态分布形态分布形态四分位差四分位差四分位差四分位差峰度峰度峰度峰度描述统计分析描述统计分析(fnx)(fnx)第11页/共65页第十二页,共65页。平均数是将总体中所有个体的数量标志差异平均数是将总体中所有个体的数量标志差异(chy)(chy)抽象化,抽象化,
4、用以反映现象在一定时间、地点条件下的一般水平或代表性用以反映现象在一定时间、地点条件下的一般水平或代表性水平水平.对象:个体单位的数量差异对象:个体单位的数量差异(chy)(chy);手段:将数量差异手段:将数量差异(chy)(chy)抽象化抽象化,即去差异即去差异(chy)(chy);目的:反映各个个体现象数值的一般水平,代表性水平目的:反映各个个体现象数值的一般水平,代表性水平 仅适用于定距变量。(单位数必须一样)仅适用于定距变量。(单位数必须一样)平均数第12页/共65页第十三页,共65页。将总体中的各个个体数值将总体中的各个个体数值(shz)(shz)按照大小顺序按照大小顺序排列,居于
5、中间位置的数值排列,居于中间位置的数值(shz)(shz),便是中位,便是中位数。数。中位数中位数第13页/共65页第十四页,共65页。它把观察总数一分为二,其中一半具有它把观察总数一分为二,其中一半具有(jyu)(jyu)比它比它小的变量值,另一半具有小的变量值,另一半具有(jyu)(jyu)比它大的变量值。比它大的变量值。所以,中位值是数据序列之中央位置的值。所以,中位值是数据序列之中央位置的值。是一种集中趋势或平均指标是一种集中趋势或平均指标 位于中间位置的数值位于中间位置的数值 如果数据为奇数项,中位数是中间位置的数值如果数据为奇数项,中位数是中间位置的数值 如果数据为偶数项,中位数是
6、中间位置两个数值的如果数据为偶数项,中位数是中间位置两个数值的平均数平均数 是一种位置平均数是一种位置平均数 不受总体中极值的影响不受总体中极值的影响中位数第14页/共65页第十五页,共65页。用具有频数最多的值来表示变量的集中值。用具有频数最多的值来表示变量的集中值。适用于任何层次的变量,只要知道频次分布,就能找适用于任何层次的变量,只要知道频次分布,就能找到众值。因此,它最易求出,也特别适用于单峰对称到众值。因此,它最易求出,也特别适用于单峰对称的情况的情况(qngkung)(qngkung)。也是比较两个分布是否相近首先。也是比较两个分布是否相近首先要考虑的参数。要考虑的参数。对于多峰的
7、图形,由于众值不唯一,用此法就不适当对于多峰的图形,由于众值不唯一,用此法就不适当了。了。众数众数(zhn sh)第15页/共65页第十六页,共65页。1.1.三值都是希望通过一个数值来描述整体特征,以便简化三值都是希望通过一个数值来描述整体特征,以便简化(jinhu)(jinhu)资料。都是反映了变量的集中趋势。资料。都是反映了变量的集中趋势。2.2.众值仅使用于了资料中最大频次数,因此,资料使用是不完全的;众值仅使用于了资料中最大频次数,因此,资料使用是不完全的;中位值只考虑了变量的顺序和居中位置,对不按序排序的数,不中位值只考虑了变量的顺序和居中位置,对不按序排序的数,不在中位的数值的大
8、或小反映不出来;均值既考虑到频次,又考虑在中位的数值的大或小反映不出来;均值既考虑到频次,又考虑到变量值的大小,因此,反映最灵敏。到变量值的大小,因此,反映最灵敏。3.3.虽然均值对资料信息利用最充分,但对严重偏态的分布,会失去虽然均值对资料信息利用最充分,但对严重偏态的分布,会失去它应有的代表性。只对单峰和基本对称的图形,用均值作为集中它应有的代表性。只对单峰和基本对称的图形,用均值作为集中趋势才是合理的。对偏态的分布,应使用中位值作为集中趋势。趋势才是合理的。对偏态的分布,应使用中位值作为集中趋势。众数众数(zhn sh)、中数和均数的比、中数和均数的比较较第16页/共65页第十七页,共6
9、5页。对称(duchn)图形偏态图形(txng)偏态图形(txng)众值中位值均值众值中位值均值众值均值中位值偏态和三值的关系偏态和三值的关系第17页/共65页第十八页,共65页。是测定总体中各个个体单位标志值差异的变动是测定总体中各个个体单位标志值差异的变动(bindng)(bindng)范围或差异程度的指标。范围或差异程度的指标。离散(lsn)趋势第18页/共65页第十九页,共65页。l测量的是数据测量的是数据(shj)(shj)的分散程度,就是样本的分散程度,就是样本中最大值与最小值之差。中最大值与最小值之差。l反映标志值的变动范围反映标志值的变动范围l极差计算简便,易于理解,应用普遍。
10、极差计算简便,易于理解,应用普遍。l极差极差=最大标志值最大标志值-最小标志值最小标志值极差第19页/共65页第二十页,共65页。一组数据一组数据(shj)(shj)中,各数据中,各数据(shj)(shj)与它们的平均数与它们的平均数的差的平方的平均数。的差的平方的平均数。方差方差(f n ch)一般步骤:一般步骤:求平均求平均再求差再求差然后平方然后平方最后再平均最后再平均计算公式:计算公式:第20页/共65页第二十一页,共65页。标准差是一组数值自平均值分散开来的程度的一种测量观标准差是一组数值自平均值分散开来的程度的一种测量观念。念。一个一个(y)(y)较大的标准差,代表大部分的数值和其
11、平均值较大的标准差,代表大部分的数值和其平均值之间差异较大;一个之间差异较大;一个(y)(y)较小的标准差,代表这些数值较小的标准差,代表这些数值较接近平均值。较接近平均值。标准差标准差第21页/共65页第二十二页,共65页。l理想的分布形态是对称的,理想的分布形态是对称的,但在现实生活中,现象之分但在现实生活中,现象之分布并不完全对称,而是或多布并不完全对称,而是或多或少地不同程度地存在着非或少地不同程度地存在着非对称情况,在统计对称情况,在统计(t(tngj)ngj)上将这个非对称分布称为偏上将这个非对称分布称为偏态。态。l表征概率分布密度曲线相表征概率分布密度曲线相对于平均值不对称程度的
12、特对于平均值不对称程度的特征数。征数。偏度第22页/共65页第二十三页,共65页。偏度如果偏度如果偏度=0=0,则表明此分布为对称分布;,则表明此分布为对称分布;如如果果偏偏度度000,则则表表明明此此分分布布为为右右偏偏态态,此此时时数数据据位位于于均均值值右右边边的的比比位位于左边于左边(zu bian)(zu bian)的多;的多;非对称分布称为偏态非对称分布称为偏态第23页/共65页第二十四页,共65页。峰度峰度是表明一个次数分布峰度是表明一个次数分布(fnb)(fnb)陡峭或平缓的指标。陡峭或平缓的指标。一一个个总总体体分分布布(fnb)(fnb)的的峰峰度度越越大大,分分布布(fn
13、b)(fnb)形形态便越陡峭,总体的数值便越集中态便越陡峭,总体的数值便越集中一一个个总总体体分分布布(fnb)(fnb)峰峰度度越越小小,分分布布(fnb)(fnb)形形态态便越平缓,总体的数值便越分散,差异便越便越平缓,总体的数值便越分散,差异便越第24页/共65页第二十五页,共65页。用EXCEL进行(jnxng)描述性统计工具工具(gngj)数据分析数据分析描述统计描述统计第25页/共65页第二十六页,共65页。检验检验(jinyn)假设假设事先对总体参数或分布形式作出某种假设事先对总体参数或分布形式作出某种假设事先对总体参数或分布形式作出某种假设事先对总体参数或分布形式作出某种假设然
14、后利用样本信息来判断原假设是否成立然后利用样本信息来判断原假设是否成立然后利用样本信息来判断原假设是否成立然后利用样本信息来判断原假设是否成立采用逻辑采用逻辑采用逻辑采用逻辑(lu j)(lu j)上的反证法,依据统计上的小概率原理上的反证法,依据统计上的小概率原理上的反证法,依据统计上的小概率原理上的反证法,依据统计上的小概率原理假设检验的基本(jbn)思想1.提出原假设和备择假设提出原假设和备择假设2.确认适当的统计检验量确认适当的统计检验量3.规定显著性水平规定显著性水平4.计算检验统计量的值计算检验统计量的值5.作出统计决策作出统计决策步骤第26页/共65页第二十七页,共65页。显著性
15、水平(shupng)与拒绝域第27页/共65页第二十八页,共65页。未知总体方差(fn ch)双尾T检验第28页/共65页第二十九页,共65页。用EXCEL进行(jnxng)假设检验 工具(gngj)数据分析-t检验-双样本等方差假设P值小于0.05,有显著(xinzh)差异第29页/共65页第三十页,共65页。方差分析方差分析目的:检验多个总体均值是否相等目的:检验多个总体均值是否相等通过分析数据通过分析数据(shj)(shj)的误差判断各总体均值是否相等的误差判断各总体均值是否相等1.一般提法2.H0:m1=m2=mk 3.自变量对因变量没有显著影响 4.H1:m1,m2,mk不全相等5.
16、自变量对因变量有显著影响 6.注意:拒绝原假设,只表明至少有两个(lin)总体的均值不相等,并不意味着所有的均值都不相等 假设(jish):第30页/共65页第三十一页,共65页。单因素(yn s)方差分析(基本结构)第31页/共65页第三十二页,共65页。单因素单因素(yn s)方差分析原理总结方差分析原理总结在观测变量总离差平方和中,如果组间离差平方和所占比例较大,则说明观测变量的变动主要是由控制变量引起的,可以主要由控制变量来解释,控制变量给观测变量带来了显著影响;反之,如果组间离差平方和所占比例小,则说明观测变量的变动不是(b shi)主要由控制变量引起的,不可以主要由控制变量来解释,
17、控制变量的不同水平没有给观测变量带来显著影响,观测变量值的变动是由随机变量因素引起的。第32页/共65页第三十三页,共65页。统计(tngj)决策 将统计量的值F与给定的显著性水平的临界值F进行比较,作出对原假设H0的决策根据给定的显著性水平,在F分布表中查找与第一自由度df1k-1、第二自由度df2=n-k 相应的临界值 F 若FF,则拒绝原假设H0,表明(biomng)均值之间的差异是显著的,所检验的因素对观察值有显著影响若FF,则不能拒绝原假设H0,无证据支持表明(biomng)所检验的因素对观察值有显著影响 第33页/共65页第三十四页,共65页。用EXCEL进行(jnxng)单因素方
18、差分析工具工具(gngj)数据分析数据分析方差分析方差分析-单因素方差分单因素方差分析析第34页/共65页第三十五页,共65页。回归分析回归分析(fnx):一元回归:一元回归 回归和相关都是研究两个变量相互关系的分析方法。回归和相关都是研究两个变量相互关系的分析方法。但相关分析是研究两个变量之间相关的方向和相关的密切程度,但相关分析是研究两个变量之间相关的方向和相关的密切程度,它不能指出两变量相互关系的具体形式,也无法从一个变量的它不能指出两变量相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化关系。变化来推测另一个变量的变化关系。而回归分析则是通过一定的数学方程来反映变量之间相
19、互关系而回归分析则是通过一定的数学方程来反映变量之间相互关系的具体形式,以便从一个已知量来推测另一个未知量,为估算的具体形式,以便从一个已知量来推测另一个未知量,为估算预测提供预测提供(tgng)(tgng)一个重要的方法。一个重要的方法。第35页/共65页第三十六页,共65页。相相关关分分析析既既可可以以研研究究因因果果关关系系的的现现象象也也可可以以研研究究共共变变的的现现象象,不不必必确确定定两两变变量量中中谁谁是是自自变变量量,谁谁是是因因变变量量。而而回回归归(hugu)(hugu)分分析析是是研研究究两两变变量量具具有有因因果果关关系系的的数数学学形形式式,因因此此必必须须事事先先
20、确确定定变变量量中中自自变变量与因变量的地位。量与因变量的地位。在在相相关关分分析析中中计计算算相相关关系系数数的的两两变变量量是是对对等等的的,改改变变两两变变量量的的地地位位并并不不影影响响相相关关系系数数的的数数值值。在在回回归归(hugu)(hugu)分分析析中中因因变变量量是是随随机机的的,自自变变量量是是可可控控制制的的解解释释变变量量,不不是是随随机机变变量量,二二者者地地位位不不对对等等。因因此此回回归归(hugu)(hugu)分分析析只只能能用用自自变变量量来来估估计计因因变变量量,而而不不允允许许由由因因变变量来推测自变量。量来推测自变量。第36页/共65页第三十七页,共6
21、5页。即:一元线性回归分析或直线回归分析即:一元线性回归分析或直线回归分析 是回归分析中最简单最基本的一种。是回归分析中最简单最基本的一种。自变量只有一个,所拟合的回归方程实际上就是直自变量只有一个,所拟合的回归方程实际上就是直 线线方程。方程。在现象互为根据的情况下,可以有两个回归方程在现象互为根据的情况下,可以有两个回归方程y倚倚x的方程和的方程和x倚倚y的方程。的方程。根本任务是设法在分散根本任务是设法在分散(fnsn)的具有线性关系的相关的具有线性关系的相关点之间配合一条最优的直线,以表明两变量之间具体的点之间配合一条最优的直线,以表明两变量之间具体的变动关系,并可以据以进行预测等。变
22、动关系,并可以据以进行预测等。表现形式:表现形式:y=a+bx 简单(jindn)线性回归分析第37页/共65页第三十八页,共65页。首先:确定变量间是不是确实存在首先:确定变量间是不是确实存在(cnzi)(cnzi)大致的线大致的线性相关关系性相关关系作相关图、计算相关系数作相关图、计算相关系数 第二:就是拟合直线方程:确认参数第二:就是拟合直线方程:确认参数a a、b b 第三:预测自变量第三:预测自变量简单线性回归简单线性回归(hugu)分析步骤分析步骤第38页/共65页第三十九页,共65页。假如有以下资料(zlio):某企业上半年产品产量与单位成本的资料(zlio)月份 产量(千件)单
23、位成本(元)123456234345737271736968 以产量(chnling)为自变量,单位成本为因变量拟合直线回归方程。作相关(xinggun)图:75706560 x产量y单位成本132654 从相关图上可以看出产量与单位成本间存在相关关系第39页/共65页第四十页,共65页。计算(j sun)相关系数显然说明显然说明(shumng)产量和单位成本之间存在高度负相关。产量和单位成本之间存在高度负相关。第40页/共65页第四十一页,共65页。拟合(n h)直线方程:已知产量和单位成本之间存在高度的相关关系,那么我们完全可以先把直线回归方程的一般形式写出来,即式中:a是直线的截距;b是
24、直线的斜率(xil),即回归系数;yc表示因变量y的估计值。第41页/共65页第四十二页,共65页。最小二乘法(最小平方法)求参数a、b:最小二乘法的原理(yunl):使拟合的直线上的点到实际值点的距离平方和最小,即所谓的yc到y的“离差平方和最小”,yc为拟合曲线上据以推算的估计值,y为实际值。75706560 x产量y单位成本132654拟合拟合(n h)直线直线实际实际(shj)值值回归方程为:77.371.82第42页/共65页第四十三页,共65页。用Excel进行一元(y yun)回归分析 使用使用INTERCEPT和和SLOPE函数函数 使用使用LINEST函数(还可以函数(还可以
25、(ky)给出估计标准给出估计标准误差、判定系数等数值误差、判定系数等数值)使用数据分析工具使用数据分析工具 用用FORECAST函数预测函数预测 用用TREND函数预测函数预测 第43页/共65页第四十四页,共65页。聚类分析聚类分析:K-mean第44页/共65页第四十五页,共65页。K-means算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此(ync)把得到紧凑且独立的簇作为最终目标。k个初始类聚类中心(zhngxn)点的选取对聚类结果具有较大的影响,因为在该算法第一步中是随机的选取任意k
26、个对象作为初始聚类的中心(zhngxn),初始地代表一个簇。该算法在每次迭代中对数据集中剩余的每个对象,根据其与各个簇中心(zhngxn)的距离将每个对象重新赋给最近的簇。当考察完所有数据对象后,一次迭代运算完成,新的聚类中心(zhngxn)被计算出来。如果在一次迭代前后,V的值没有发生变化,说明算法已经收敛。第45页/共65页第四十六页,共65页。K-MEANS算法的工作原理算法的工作原理(yunl)及流程及流程K-MEANS算法算法输入:聚类个数k,以及包含 n个数据对象的数据库。输出(shch):满足方差最小标准的k个聚类。处理流程(1)从 n个数据对象任意选择 k 个对象作为初始聚类中
27、心;(2)根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根 据最小距离重新对相应对象进行划分;(3)重新计算每个(有变化(binhu))聚类的均值(中心对象)(4)循环(2)到(3)直到每个聚类不再发生变化(binhu)为止第46页/共65页第四十七页,共65页。+1-1 支持支持(zhch)向量机向量机第47页/共65页第四十八页,共65页。+1-1 支持支持(zhch)向量机向量机第48页/共65页第四十九页,共65页。+1-1 支持支持(zhch)向量机向量机第49页/共65页第五十页,共65页。+1-1 支持支持(zhch)向量机向量机第50页/共65页第五十
28、一页,共65页。+1-1线性分类器的间隔(margin):到超平面最近的样本(yngbn)与此超平面之间的距离。支持支持(zhch)向量机向量机第51页/共65页第五十二页,共65页。+1-1具有最大间隔的线性分类器叫做最大间隔线性分类器。其就是一种最简单的支持(zhch)向量机(SVM)(称为线性支持(zhch)向量机,即LSVM)线性支持(zhch)向量机 支持支持(zhch)向量机向量机第52页/共65页第五十三页,共65页。+1-1支持向量(Support Vectors):是那些距离(jl)超平面最近的点。具有最大间隔的线性分类器叫做最大间隔线性分类器。其就是一种最简单(jindn)
29、的支持向量机(SVM)(称为线性支持向量机,即LSVM)线性支持(zhch)向量机 支持向量机支持向量机第53页/共65页第五十四页,共65页。线性不可线性不可(bk)分?分?第54页/共65页第五十五页,共65页。第55页/共65页第五十六页,共65页。第56页/共65页第五十七页,共65页。生物神经元生物神经元典型的神经元,即神经细胞典型的神经元,即神经细胞(shn jn x bo)结构:胞体、树突、结构:胞体、树突、轴突、突触轴突、突触胞体:神经细胞的本体,完成胞体:神经细胞的本体,完成(wn chng)普通细胞的生存功普通细胞的生存功能。能。树突:有大量的分枝,接受来自树突:有大量的分
30、枝,接受来自(li z)其他神经元的信号。其他神经元的信号。轴突:用以输出信号。轴突:用以输出信号。突触:神经元相联系的部位,对树突的突触为兴奋性的,使下一个神经突触:神经元相联系的部位,对树突的突触为兴奋性的,使下一个神经元兴奋;对胞体的突触为抑制性的,阻止下一个神经元兴奋。元兴奋;对胞体的突触为抑制性的,阻止下一个神经元兴奋。神经网络神经网络第57页/共65页第五十八页,共65页。人工人工(rngng)神经元神经元人工人工(rngng)神经元模型:神经元模型:xi:输入:输入(shr),神经元的输入,神经元的输入(shr)值值i:权值,突触的连接强度:权值,突触的连接强度f:输出函数,非线
31、性函数:输出函数,非线性函数y:输出:输出神经元动作:神经元动作:常用输出函数:常用输出函数:阈值函数:阈值函数:第58页/共65页第五十九页,共65页。神经网络神经网络u前馈神经网络:各神经元接受前级输入,并输出前馈神经网络:各神经元接受前级输入,并输出(shch)到下一级,无反馈,可用一有向无环图表示。到下一级,无反馈,可用一有向无环图表示。u前馈网络通常分为不同的层,第前馈网络通常分为不同的层,第i层的输入只与第层的输入只与第i-1层的输层的输出出(shch)联接。联接。u可见层:输入层和输出可见层:输入层和输出(shch)层层u隐层:中间层隐层:中间层第59页/共65页第六十页,共65
32、页。第60页/共65页第六十一页,共65页。输出输出(shch)方式:方式:ACON:all classes one net,多输出,多输出(shch)型型OCON:one class one net,单输出,单输出(shch)型型ACONOCON第61页/共65页第六十二页,共65页。多输出型应用典型多输出型应用典型(dinxng)方法方法ACON应用最多,典型方法是:应用最多,典型方法是:网络的每个输入节点对应于样本的一个网络的每个输入节点对应于样本的一个(y)特征特征输出层单元采用输出层单元采用“c中取中取1”编码,每个输出节点对应一个编码,每个输出节点对应一个(y)类,类,即输出层单元
33、数即输出层单元数=模式类数模式类数l训练样本训练样本(yngbn)数据的期望输出:数据的期望输出:0,0,1,0,即其即其所属类的相应输出节点为所属类的相应输出节点为1,其他节点均为,其他节点均为0l识别阶段:未知样本识别阶段:未知样本(yngbn)的类别判定为与输出值最大的的类别判定为与输出值最大的节点对应的类别节点对应的类别第62页/共65页第六十三页,共65页。单输出型应用单输出型应用(yngyng)典典型方法:型方法:每一类别建立一个网络每一类别建立一个网络输入:每个输入节点对应样本的一个特征输入:每个输入节点对应样本的一个特征输出:输出层节点只有一个输出:输出层节点只有一个训练:输入训练样本的类别是训练:输入训练样本的类别是i,则第,则第i个网络的期望输出设为个网络的期望输出设为1,其,其余网络输出节点均为余网络输出节点均为0识别:输出值最大的网络对应的类别识别:输出值最大的网络对应的类别减少隐层节点,克服减少隐层节点,克服(kf)类别之间的耦合,各网络的隐层节点数类别之间的耦合,各网络的隐层节点数可以不同。可以不同。第63页/共65页第六十四页,共65页。第64页/共65页第六十五页,共65页。
限制150内