Python数据分析与可视化教案4.2 数据的统计与描述.docx
《Python数据分析与可视化教案4.2 数据的统计与描述.docx》由会员分享,可在线阅读,更多相关《Python数据分析与可视化教案4.2 数据的统计与描述.docx(6页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、课 题4.2数据的统计与描述课 型讲练授课班级大数据授课时数2教学目标1 .能够计算数值型字段的统计指标。2 .能够统计字符型字段的频数。3 .掌握describe函数的用法。教学重点1 .能够计算数值型字段的统计指标。2 .能够统计字符型字段的频数。教学难点1.掌握describe函数的用法。在进行数据分析时,首先需要判断分析的字段是数值型还是字符串型,学情分析学情分析因为不同类型的字段处理方法是不同的,这一点在使用describe函数时就 非常明显。数据的统计与描述可以用来概括和表示数据的状况,通过一些统计指标可以方便 地表示一组数据的集中趋势、离散程度、频数分布等特征。一、数值型字段的统
2、计与描述数值型字段是指该字段是用数值来描述的,如身高、体重、成绩等。数值型字段 的描述性统计主要包括计算最小值、最大值、均值、中位数、四分位数、极差、方差、 标准差等统计指标。1 .直接利用统计指标进行计算pandas提供了很多方法来计算数值型字段的各类指标,常用统计指标如表4-*所 Zjx O表4-*数值型数据统计指标方法名称说明方法名称说明mean均值max最大值median中位数min最小值mode众数PtP极差quantile四分位数std标准差sum总和cumsum累加和skew偏度kurt峰度其中,quantile表示四分位数,是指通过三个分割点将全部数据等分为四局部, 其中每局部
3、包含25%的数据,这三个分割点就是四分位数。中间的四分位数就是中位 数,而处在25%位置上的四分位数称为下四分位数,处在75%位置上的四分位数称为 上四分位数。skew表示偏度,是描述分布偏离对称性程度的一个特征数。当分布左右对称时, 偏度系数为0。当偏度系数大于。时,该分布为右偏。当偏度系数小于。时,该分布 为左偏。kurt表示峰度,是指用来反映频数分布曲线顶端尖峭或扁平程度的指标。峰度大 于。表示该数据分布与正态分布相比拟为陡峭,为尖顶峰;峰度小于0表示该数据分 布与正态分布相比拟为平坦,为平顶峰。cumsum表示累加和,是指对列数据进行累加,其结果也是一列数据。直接利用统计指标进行计算的
4、一般方法为:DataFramecolumn.统计指标 例如代码如下: import numpy as np import pandas as pdarr = np.arange( 1,17).reshape(4,4)data = pd.DataFrame(arr,columns=,a7b,/c,/d) print(初始数据为:nn,data)print。a 列的最大值=,dataa.max() print(Hb 列的平均值廿,datac.mean()print(nc列的标准差值二%.2F%(datac1.std()print,”)datae二datad.cumsum()printed列的累加和
5、结果为e列:n”,datad?e) 输出结果如图4-*所示。Run:4-2AC:UsersliliangAnaconda3python.exe C:/Users/liliang/PycharmProjects/sjfx/4-2.py初始数据为: abed=$01234U15678”.29101112W 313141516a列的最大值=13b列的平均值=9.0 c列的标准差值=5.16d列的累加和结果为e列:d e0441 81212 242 16 40Process finished with exit code 0图4-*统计指标计算例如结果2利用describe函数进行计算pandas提供
6、了 describe函数用来一次性计算数值型字段的八个统计指标,如表3-* 所示。表4-*数值型字段的describe函数统计结果方法名称说明count非空个数mean均值std标准差min最小值25%25%分位数50%50%分位数,即中位数75%75%分位数max最大值在调用describe函数计算统计指标时,还可以采用describe()i (i=0,l,2,)的方 法调用某个统计指标,如用describe。0调用第1个统计指标count, describe()U调用 第2个统计指标mean。同时,还可以利用指标名称来调用指标,如describeOHS%】 表示调用25%分位数,即调用下四
7、分位数。例如代码如下:des = dataa .describe。print(na列的describe函数计算结果:n”,round(des,2) #利用round函数保存所有2 位小数print(”a 列的平均值=desl)print(na 列的 25%分位数二”,des25%)输出结果如图4-*所示。Run:4-2 It=方C:UsersliliangAnaconda3python.exe C:/Users/1iliang/PycharmProjects/sjfx/4-2.py a列的describe函数计算结果:count4.00mean7.00丑X 二std5.16min1.0025%
8、4.0050%7.0075%10.00max13.00Name: a, dtype: float64a列的平均值=7.0a列的25%分位数=4.0Process finished with exit code 0图4-*统计指标计算例如结果二、分类型字段的统计与描述分类型字段是指该字段的具有分类作用,如省份名、城市名、商品类别等,分类 型字段统计与描述主要是频数统计。1 .利用value_counts函数进行统计分析pandas提供了 value_counts函数用来统计分类型字段的频数,value_counts函数的一般用法为:_value_counts(normalize,ascendin
9、g)其中,normalize表示是否按频率显示,True表示按频率显示,False表示按频数显示,默认为False,即默认按按频数显示。例如代码如下:data,f=A,;B7B,;C,print(初始数据为:n”,data)print(按频数统计f列降序的结果:n,dataf.value_counts(ascending=False)print(按频率统计f列升序的结果:n,data| T . value_counts(normalize=True,ascending=True)输出结果如图4-*所示。Run:4-2C:UsersliliangAnaconda3python.exe C:/Us
10、ers/liliang/PycharmProjects/sjfx/4-2.py初始数据为: a b c d e f5012344A共 1567gl2 B . 2 9 10 11 12 24 B3 13 14 15 16 40 C 按频数统计f列降序的结果:B 2A 1C 1Name: f, dtype: int64 技频率统Ilf列升序的结果:C 0.25A 0.25B 0.50Name: f, dtype: float64Process finished with exit code 0图4-* value_counts函数例如结果2 .利用describe函数进行统计分析pandas中de
11、scribe函数除了可以对数值型字段进行统计描述,还可以对分类型字 段进行统计描述。对于分类型字段,describe函数可以统计分类数目、最多频数类别 等结果,具体统计结果如表4-*所示。表4-*字符型数据describe函数统计结果例如代码如下:方法名称说明count表示非空数目。unique表示数据的种类。top表示出现最多的类型。freq表示出现最多的类型的数目。des二 dataf .describe()print(Hf列describe函数统计结果为:n”,des)print(4列的类别数量=H,desl)printCf列频数最多的类别为:s,该类别出现的次数为ddesltoplde
12、slfreq】) 输出结果如图3-*所示。Run:4-2AC:UsersliliangAnaconda3python.exe C:/Users/liliang/PycharmProjects/sjfx/4-2.py千列describe函数统计结果为:count 4力 unique3top b“ 看 freq2_ Name: f, dtype: objectf列的类别数量=3f列频数最多的类别为:b,该类别出现的次数为:2Process finished with exit code 0图4-* describe函数例如结果任务实训任务 1:利用 read_excel 导入 supermarke
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Python数据分析与可视化 教案 4.2 数据的统计与描述 Python 数据 分析 可视化 统计 描述
限制150内