《统计学—基于R》(03)第3章--数据的描述统计量(R3).pptx
《《统计学—基于R》(03)第3章--数据的描述统计量(R3).pptx》由会员分享,可在线阅读,更多相关《《统计学—基于R》(03)第3章--数据的描述统计量(R3).pptx(46页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、3-3-1 1统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)数据分析数据分析(方法与案例方法与案例)作者 贾俊平 版权所有 违者必究统计学统计学R R 语言语言第第 3 章章 数据的描述统计量数据的描述统计量3.1 描述水平的描述水平的统计量统计量 3.2 描述差异的统计量描述差异的统计量3.3 描述描述分布形状的分布形状的统计量统计量3.4 数据的综合描述数据的综合描述 3.1 描述水平的统计量描述水平的统计量 3.1.1 平均数平均数 3.1.2 分位数分位数 3.1.3 众数众数第第 3 章章 数据数据的描述统计量的描述统计量 3.1.1 平均数平均数3.1 描述水平
2、的描述水平的统计量统计量3-3-5 5统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25平均数平均数(mean)l也称为均值,常用的统计量之一l消除了观测值的随机波动l易受极端值的影响l根据总体数据计算的,称为总体平均数,记为;根据样本数据计算的,称为样本平均数,记为x3-3-6 6统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25计算简单平均数计算简单平均数#计算计算3030名学生考试分数的平均数名学生考试分数的平均数 load(C:/example/ch3/example3_1.RDat
3、a)mean(example3_1$分数)设一组数据为:设一组数据为:x x1 1,x x2 2,x xn n(总体数据总体数据x xN N)样本平均数样本平均数样本平均数样本平均数总体平均数总体平均数总体平均数总体平均数3-3-7 7统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25计算加权平均数计算加权平均数#计算计算3030名学生考试分数的加权平均数名学生考试分数的加权平均数 load(C:/example/ch3/example3_2.RData)weighted.mean(example3_2$组中值,example3_2$人数)样
4、本加权平均数样本加权平均数样本加权平均数样本加权平均数总体加权平均数总体加权平均数总体加权平均数总体加权平均数3.1.2 分位数分位数3.1 描述水平的描述水平的统计量统计量3-3-9 9统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25中位数中位数(median)l排序后处于中间位置上的值。不受极端值影响排序后处于中间位置上的值。不受极端值影响MMe e50%50%位置确定位置确定位置确定位置确定数值数值数值数值确定确定确定确定3-3-1010统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-
5、25计算中位数计算中位数#计算计算1010名学生考试分数的中位数名学生考试分数的中位数【例例例例3232】3030名名学生的考试分数的学生的考试分数的中位数中位数load(C:/example/ch3/example3_1.RData)median(example3_1$分数)3-3-1111统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25四分位数四分位数(quartile)用用3 3个点等分个点等分数据。数据。排序后处于排序后处于25%25%和和75%75%位置上的值位置上的值Q QQ25%25%25%Q QQ50%50%50%Q QQ7
6、5%75%75%25%25%25%25%SPSS SPSS 算法算法算法算法R R算法:算法:算法:算法:type=6 type=6 R R 算法算法算法算法共共共共9 9种。参见种。参见种。参见种。参见helphelp3-3-1212统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25计算四分位数计算四分位数#计算计算3030名学生考试分数的四分位数名学生考试分数的四分位数(example3_1example3_1)#汇总汇总输出基本的描述统计输出基本的描述统计量量(example3_1example3_1)用用用用R R计算汇总输出基本的描
7、述统计量计算汇总输出基本的描述统计量计算汇总输出基本的描述统计量计算汇总输出基本的描述统计量load(C:/example/ch3/example3_1.RData)quantile(example3_1$分数,probs=c(0.25,0.75),type=6)load(C:/example/ch3/example3_1.RData)summary(example3_1$分数)#默认使用type=73-3-1313统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25百分位数百分位数(percentile)3-3-1414统计学统计学基于基于基
8、于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25计算百分位数计算百分位数#计算计算3030名学生考试分数的百分位数名学生考试分数的百分位数(example3_1example3_1)load(C:/example/ch3/example3_1.RData)quantile(example3_1$分数,probs=c(0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9),type=6)3.1.3 众数众数3.1 描述水平的描述水平的统计量统计量3-3-1616统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252
9、018-9-25众数众数(mode)l一组数据中出现次数最多的变量值l适合于数据量较多时使用l不受极端值的影响l一组数据可能没有众数或有几个众数3-3-1717统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25计算众数计算众数#编写函数计算众数编写函数计算众数编写函数计算众数编写函数计算众数(example3_1example3_1)#which.maxwhich.max函数函数函数函数 无无众数返回众数返回1,双众数只返回第一,双众数只返回第一个个 load(C:/example/ch3/example3_1.RData)mode-func
10、tion(x)ux-sort(unique(x)#列出每一个的数值并排序 tab-tabulate(match(x,ux)#比较x与ux中相同的数值,列出它们在ux中位置,再计算每个位置的频数 uxtab=max(tab)#找出ux对象中频数最多的元素 mode(example3_1$分数)#使用mode函数计算对象的众数load(C:/example/ch3/example3_1.RData)which.max(table(example3_1$分数)14#众数在频数分布表的第14位3.2 描述差异的统计量描述差异的统计量 3.2.1 极差和四分位差极差和四分位差 3.2.2 方差和标准差方
11、差和标准差 3.2.3 变异系数变异系数 3.2.4 标准分数标准分数 第第 3 章章 数据数据的描述统计量的描述统计量 3.2.1 极差和四分位差极差和四分位差3.2 描述差异的统计量描述差异的统计量3-3-2020统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25极差极差(range)l一组数据的最大值与最小值之差l离散程度的最简单测度值l易受极端值影响l未考虑数据的分布l计算公式为:load(C:/example/ch3/example3_1.RData)R-max(example3_1$分数)-min(example3_1$分数);R
12、#或写为:R-diff(range(example3_1$分数);R=max()min()3-3-2121统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25四分位差四分位差(interquartile range)l也称四分位距。上四分位数与下四分位数之差l反映了中间50%数据的离散程度l不受极端值的影响l用于衡量中位数的代表性lR函数:l =75%75%25%25%IQR(example3_1$IQR(example3_1$分数分数,type=6type=6)3-3-2222统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)
13、2018-9-252018-9-25四分位差四分位差(interquartile range)【例【例【例【例3 3 3 3 7 7 7 7】计算计算3030名学生考试分数极差和四分位差名学生考试分数极差和四分位差例例#计算极差计算极差#计算四分位差计算四分位差 load(C:/example/ch3/example3_1.RData)range-max(example3_1$分数)-min(example3_1$分数);rangeIQR(example3_1$分数,type=6)3.2.2 方差和标准差方差和标准差3.2 描述差异的统计量描述差异的统计量3-3-2424统计学统计学基于基于基
14、于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25方差和标准差方差和标准差(variance and standard deviation)l l数据离散程度的最常用测度值数据离散程度的最常用测度值l l反映各变量值与均值的平均差异反映各变量值与均值的平均差异l l根据总体数据计算的,称为总体方差根据总体数据计算的,称为总体方差(标准差标准差),记为,记为 2 2();根据样本数据计算的,称为样本方差;根据样本数据计算的,称为样本方差(标准差标准差),记为记为s s2 2(s)(s)样本样本标准差标准差s3-3-2525统计学统计学基于基于基于基于 R R(第第第
15、第 3 3 版版版版)2018-9-252018-9-25计算方差和标准差计算方差和标准差【例例38】计算30名学生考试分数的方差和标准差。#方差方差#标准差标准差load(C:/example/ch3/example3_1.RData)var(example3_1$分数)sd(example3_1$分数)3.2.3 变异系数变异系数3.2 描述差异的统计量描述差异的统计量3-3-2727统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25变异系数变异系数(coefficient of variation)l标准差与其相应的均值之比l对数据相对
16、离散程度的测度l消除了数据水平高低和计量单位的影响l用于对不同组别数据离散程度的比较l计算公式为3-3-2828统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25变异系数变异系数(例题分析例题分析)【例例例例3939】评价哪名运动员的发挥更稳定评价哪名运动员的发挥更稳定评价哪名运动员的发挥更稳定评价哪名运动员的发挥更稳定纳塔利娅帕杰林娜郭文珺卓格巴德拉赫蒙赫珠勒妮诺萨卢克瓦泽维多利亚柴卡莱万多夫斯卡萨贡亚斯娜舍卡里奇米拉内万苏10.010.09.39.89.38.110.28.78.510.510.010.39.410.39.69.310.0
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学基于R 统计学 基于 03 数据 描述 统计 R3
限制150内