数据分析和总结.pdf
《数据分析和总结.pdf》由会员分享,可在线阅读,更多相关《数据分析和总结.pdf(85页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1第四章:数据分析&总结(描述性统计)图!图!图!(和一些数字图!图!图!(和一些数字)幻灯片主要由Elizabeth Newton(麻省理工学院)制作,其中一部分是由Jacqueline Telford(约翰斯霍普金斯大学)和Roy Welsch(麻省理工学院)制作。2图形的优越性“使复杂的思想能够显示得清楚、准确、有效。使复杂的思想能够显示得清楚、准确、有效。”显示数据。让你考虑实质而不是方法、图形设计或者其它的。在很小的空间中有很多的数字。使大的数据集有条理。使数据的不同部分显示得更清楚。3Charles Joseph Minard法国1864年葡萄酒出口的图形描述可登陆网址:http:
2、/www.math.yorku.ca/SCS/Gallery/4总结分类数据频数表显示了每一类的样本数。相对频数是每一类样本占所有样本的比例条形图和餠图用来图示分类数据。帕累托图是将分类样本按从高到低排列的条形图。(QC:精华都是从大量琐碎中提炼出来的。)5游乐场普遍受欢迎的项目的饼图和条形图相对频率()相对频率()6Charles Joseph Minard用包含了法国各地的饼图显示了1864年从法国各地送往巴黎的肉的数量。可登陆网址:http:/www.math.yorku.ca/SCS/Gallery/7关于单变量数值型数据的图形散点图(对应观测数)直方图茎叶图箱图(箱和线)QQ图(正态
3、图)8Iris数据散点图这个图表是使用S-PLUS(R)软件产生出来的,S-PLUS(R)是Insightful公司的一个注册商标。图中横轴为观测数字,纵轴为iris“Sepal W”,“Setosa”9带有观察编号的Iris数据散点图这个图表是使用S-PLUS(R)软件产生出来的,S-PLUS(R)是Insightful公司的一个注册商标。图中横轴为观测数字,纵轴为iris21。10S-Plus中运用波动函数的数据图这个图表是使用S-PLUS(R)软件产生出来的,S-PLUS(R)是Insightful公司的一个注册商标。图中横轴为观测值,左图纵轴为x值,右图纵轴为jitter(x)11序列
4、图 对于时间序列数据,按时间顺序做数据图通常是有用的。序列图就是以时间为轴做数据图。请试用不同的方法来做出合适的数据图!请试用不同的方法来做出合适的数据图!12直方图数据:n=24 一加仑汽油所行驶的里程(汽油消耗定额)。31,13,20,21,24,25,25,27,28,40,29,30,31,23,31,32,35,28,36,37,38,40,50,17提示:条形只用于连续的数据,不用于离散的数据。给出数据分布的图形。直方图的面积表示样本比例。使用命令approx.sqrt(n)“bins”如果太多、太不光滑,或太少,太平滑(没有细节)。显示分布是:对称的还是不对称的。单峰的还是双峰的
5、。数据中的缝隙也许显示了测量过程中的问题。很多的质量控制应用:有两种过程吗?重做检验还是伪造数据?过程中是否存在特殊性。13Iris数据的直方图这个图表是使用S-PLUS(R)软件产生出来的,S-PLUS(R)是Insightful公司的一个注册商标。14带密度曲线的Iris数据直方图这个图表是使用S-PLUS(R)软件产生出来的,S-PLUS(R)是Insightful公司的一个注册商标。15茎叶图Cum.分布函数数据:每加仑里程数茎叶计数茎叶计数和直方图一样能显示出数据的分布,但保留了更实际的数据。可以看到数据的数值模式(像40至50间的数)。每个数据值出现一个阶越(同一个数据点数值大的更
6、高)。16Iris数据的茎叶图冒号左边的数字是保留一位小数的这个图表是使用S-PLUS(R)软件产生出来的,S-PLUS(R)是Insightful公司的一个注册商标。17数值型数据的描述统计 位置测量:均值(“平均值”):中位数:位于排序样本中间的值(像分布中的0.5)。如果n为奇数,中位数如果n为偶数。0,1,2的中位数是1:n=3所以n+1=4&(n+1)/2=2(第二次值),0,1,2,3的中间值是1.5(假设数据是连续的):n=4。众数:最普遍的值。18均值还是中位数?对于数据中心的合适描述?均值:如果数据的分布是对称的,并且尾部较小(即:和位于正中的观察数据相比只占很小的比例)。中
7、位数:如果数据分布是胖尾或者是不对称的。大部分数据相差较大的极值叫做奇异值。对均值影响很大但对中位数没太大影响。右偏和左偏(不对称)。19分位数、分位点、百分点对于一种理论分布:xp是随机变量X的p分位数的值,即P(Xxp)=p。对n维正态分布:在S-Plus中:命令qnorm(p),0p1,则输出分位点。在S-Plus中:命令pnorm(q),则输出概率。对于一个样本:排序统计是将样本值按升序排列。表示为X(1),X(n)。p分位数是指在已排好序的数据中的某一个值,p分之一的数据会小于或等于这个数据值。20正态CDF这个图表是使用S-PLUS(R)软件产生出来的,S-PLUS(R)是Insi
8、ghtful公司的一个注册商标。图中横轴为x值,纵轴为pnorm(x)值。21计算样本分位数的算法1)按从小到大的顺序排列观测值。2)给定一个比例p,计算:样本规模*p=np.3)如果np不是整数,进位到下一个整数(取np的上限)并且取相应的观测值xp。4)如果np是整数k,取排序后第k和第(k+1)个数据的平均值,这个均值就是xp。课本中有另一种算法。22分位数(续)(p分位数100p百分位数)举例:数据:0,1,2,3,4,5,6=x(1),x(2),x(3),x(4),x(5),x(6),x(7)n=7Q1=ceiling(0.25*7)=2 Q1=x(2)=1=25百分位数Q2=cei
9、ling(0.50*7)=4 Q2=x(4)=3=中值(50百分位数)Q3=ceiling(0.75*7)=6 Q3=x(6)=5=75百分位数S-Plus给出了不同的答案!计算分位数的不同方法。23离散测度(范围,差异)两组数据也许有相同的中心,但围绕中心的离散程度可能相差很大。描述差异的两种方法:1、给出将数据等分的数值。中位数是第50位百分位数。第25,50,75位百分位数称为四分点(Q1,Q2,Q3),并把数据分成四等份。最小值,最大值和三个分位数称为数据的“五点描述”。2、计算单值。例如:极差,四分位数差,方差和标准差。24离散测度(续)极差最大值最小值。四分位数差(IQR)Q3-Q
10、1。样本方差:样本标准差:样本均值,方差和标准差与总体的均值,方差和标准差相似。25其它的离散测度和均值偏差的绝对值的样本平均值:和中位数偏差的绝对值的样本中位数:的中位数。26离散测度的计算例如:数据0,1,2,3,4,5,6=x(1),x(2),x(3),x(4),x(5),x(6),x(7)均值=(0+1+2+3+4+5+6)/7=21/7=3,最小值0,最大值6。Q1=x(2)=1=第25个百分点Q2=x(4)=3=中位数(第50个百分点)Q3=x(6)=5=第75个百分点极差最大值最小值606。IQR=Q3Q1514,s2(02+12+22+32+42+52+62)-7(32)/(7
11、-1)=91-63/6=4.67s=sqrt(4.67)=2.1627样本方差和标准差s2和s只能用来描述对称分布的离散程度。对于不对称分布,应该用分位数给出对离散程度更细致的描述。对正态数据和大样本:50的数据值落到均值 0.67s的区间内,68的数据值落到的区间均值 1s,95的数据值落到的区间均值 2s,99.7的数据值落到的区间均值 3s。对正态分布数据:IQR(均值+0.67s)-(均值-0.67s)=1.34s28标准正态密度曲线这个图表是使用S-PLUS(R)软件产生出来的,S-PLUS(R)是Insightful公司的一个注册商标。图中横轴为x值,纵轴为dnorm(x)值。29
12、箱(和线)图数据描述的可视化显示(超过五个点)箱图的奇异值数据:每加仑汽油里程数 箱图的分位数IQR=Q3-Q1上界Q31.5IQR下界Q31.5IQR两条线叫做线,并且将大部分极值包含在界内。留在界外的观测值被认为可能是奇异值,用点和圈或者星号表示。30Iris数据的箱图这个图表是使用S-PLUS(R)软件产生出来的,S-PLUS(R)是Insightful公司的一个注册商标。图中横轴为iris21值。31QQ图比较样本分布和理论分布将数据排序。第i个数据值为p分位数,即p=(i-0.5)/n,0p1。课本中用i/(n+1)。(为什么不能记为i/n)?在理论分布中获得相同p分位数。例如:对于
13、正态分布,在S-Plus中,命令qnorm(p)可输出结果。理论分位点图vs.经验分位点(分类数据)。S-Plus:plot(qnorm(1:length(y)-0.5)/n),sort(y)拟合线通过每个分布的第一和第三分位点。32Iris数据的QQ图这个图表是使用S-PLUS(R)软件产生出来的,S-PLUS(R)是Insightful公司的一个注册商标。图中横轴为标准正态分位数值,纵轴为iris21值。33正态变换数据分布可以通过多种形式表现出非正态,例如:分布可能不是钟型的,可能比正态分布胖尾,或者不是对称的。只有从对称出发才可以通过数据变换来进行修正。如果分布是正偏的数据,那么右边的
14、尾部需要向里收缩。常见变换方法是对数变换:x log x(例如:分贝,里氏震级,蒲福风力等级);见图4.11。开方变换()提供了一种较弱的收缩作用;它常被用于(泊松)序次数据。对于负偏数据,可以用指数(ex)和平方(x2)变换。34从某一确定分布中生成的正态概率图这个图表是使用S-PLUS(R)软件产生出来的,S-PLUS(R)是Insightful公司的一个注册商标。图中横轴为标准正态分位数,纵轴为x值。35对于相同数据进行对数变换后的正态分布图这个图表是使用S-PLUS(R)软件产生出来的,S-PLUS(R)是Insightful公司的一个注册商标。图中横轴为标准正态分位数,纵轴为log(
15、x)值。36相同数据的直方图这个图表是使用S-PLUS(R)软件产生出来的,S-PLUS(R)是Insightful公司的一个注册商标。37多变量数据描述当每个抽样个体中有两个或更多变量要测量时,结果得到多变量数据。如果只有两个变量需要测量,结果得到双变量数据。其中一个称为变量x,另一个称为变量y。我们可以用之前学的方法单独分析变量x或y,但这些方法不能回答x和y之间的关系问题。x和y之间的本质关系是什么(如果有的话)?关系有多强?在何种程度上可以通过其中一个变量预测另一个变量?38双变量分类数据描述双向表表格中的数字代表每种可能类别组合的频率。格、行和列的百分比可以用于计算估计分布。39关于
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 总结
限制150内