Python数据分析与可视化教案4.3 数据的分组与分段.docx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《Python数据分析与可视化教案4.3 数据的分组与分段.docx》由会员分享,可在线阅读,更多相关《Python数据分析与可视化教案4.3 数据的分组与分段.docx(6页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、课 题4.3数据的分组与分段课 型讲练授课班级大数据授课时数2教学目标1 .能够将数据按照指定列分组并汇总统计。2 .能够将数据按指定列进行数据分段。教学重点1 .能够将数据按照指定列分组并汇总统计。2 .能够将数据按指定列进行数据分段。教学难点1 .能够将数据按照指定列分组并汇总统计。2 .能够将数据按指定列进行数据分段。学情分析本次课有一定难度,数据的分组统计是数据分析的一种常用的方法,这 种方法类似于Excel的分类汇总,仅仅分组是很不出任何结果的,只有统计 后才能看到结果,而数据分段有点类似于Excel的if函数嵌套进行数据分 组。充分理解Excel的分类汇总和if函数有助于本次课的学
2、习。在数据分析时,对数据进行分组和分段是常用的一种操作,通过分组和分段可以 挖掘出更多数据的内在信息。数据分组的作用是可以快速对所有分组进行统计计算, 比方计算男女学生的平均成绩时,可以先按性别分组,然后再按成绩统计各组的平均 数。数据分段作用在于可以将连续的数据离散化,比方将成绩分为不同的成绩等级, 将年龄分为不同的年龄段,这样就可以通过不同数据段的统计分析挖掘出一些更加有 用的信息。一、数据分组统计分析分组是指将DataFrame按照某列划分为多个不同的组,然后再按另外一列计算每 组的一些统计指标,这一点类似于Excel的分类汇总,分组统计时只要确定分组字段、 统计字段和统计方法就可以执行
3、。1 .数据分组pandas提供了一个灵活高效的groupby函数,通过groupby函数可以对DataFrame 进行分组操作,进而再对每一组进行统计分析,如计算最大值、最小值、平均值、中 位数等。(1)按某列对DataFrame进行分组通过groupby函数执行分组操作,只会返回一个GroupBy对象,该对象实际上并 没有进行任何的计算,其仅仅是中间数据。groupby函数的一般用法为:DataFrame.groupby(by =分组歹(J)其中,by表示分组的列,即DataFrame按照这一列进行分组,但是其结果只是 一个中间数据,不产生任何的统计结果。例如代码如下:import num
4、py as npimport pandas as pdarr = np.arange( 1,17).reshape(4,4)data = pd.DataFrame(arr,columns=,aVb,c7d,)datafe1 =print(初始数据为:n;data)group = data.groupby(by=e)print(按e列分组的结果为:group)print(分组结果的类型为:,type(group)输出结果如图4-*所示。Run:4-3AC:UsersliliangAnaconda3python.exe C:/Users/liliang/PycharmProjects/sjfx/4
5、-3.py初始数据为:a b c d e501234A过 15678 B29 10 11 12 B3 13 14 15 16 A 按e列分组的结果为:(pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001F7AE17D400 分组结果的类型为: Process finished with exit code 0图4-* DataFrame分组例如结果(2)查看分组结果按某列对DataFrame进行分组后的结果是一个可以迭代的对象,通过循环语句可以查看每一组的情况。例如代码如下:print(按e列分组后的每一组的结果为:)
6、for g in group:print(g)输出结果如图4-求所示。Run:4-3AC:UsersliliangAnaconda3python.exe C:/Users/liliang/PycharmProjects/sjfx/4-3.py初始数据为: a b c d e二?501234A二1567gB.29101112 BW313141516 A按Q列分组后的每一组的结果为:(A, a b c d e01234A313141516A)(E, a b c d e15678B29101112B)Process finished with exit code 0 4: Run := 6: TOD
7、O ES Terminal *3* Python Console图4-*查看分组结果例如结果【结果分析】从图4-*的结果中可以看到,利用grougby对data按照e列进行 分组后,所有“A”为一组,所有“B”为一组,共分成了两组,这些分组的信息都被 存储在DataFrameGroupBy的数据类型中,通过循环语句就可以查看每一组的结果。2 .分组统计在DataFrame中,按照某一列进行分组后,还可以再对指定的列进行统计分析, 其一般方法为:DataFrame. 810叩6丫8丫二分组列)统计列,统计方法例如代码如下:print(初始数据为:n”,data)data_resultl = da
8、ta.groupby(by=e)a,mean()data_result2 二 data.groupby(by=e)b.max()print(按e列分组再按a列统计平均值的结果为:n”,data_resultl)print(按e列分组再按b列统计最大值的结果为:n”,data_result2)输出结果如图4-*所示。Run:4-3C:UsersliliangAnaconda3python.exe C:/Users/liliang/PycharmProjects/sjfx/4-3.py 初始数据为: a b c d e01234A15678B29101112B313141516A按q列分组再按a列
9、统计平均值的结果为: eA 7B 7Name: a, dtype: int32按e列分组再按b列统计最大值的结果为: eA 14B 10Name: b, dtype: int32Process finished with exit code 0图4-*分组统计例如结果二、数据分段统计分析在数据分析中,常常需要将连续数据离散化,这就是数据分段。数据分段就是指 在连续数据取值范围内设置一些离散的分段点,而将连续数据按照这些分段点进行分 段。如将年龄按照四个分段点7、18、35、65就可以分为五个年龄段,分别是:童年、 少年、青年、中年、老年。pandas中的cut函数可以实现将连续型数据转换为分段
10、型数据,cut函数的一般 用法为:pandas.cut(x,bins,labels)其中,x表示要分段的列。bins表示用于分段的分段点,这些分段点可以组成分 段区间,并且这些区间是左开右闭区间(除了第1个区间和最后1个区间),如 bins=0,10,20,30,40表示四个分段区间:0,10、(11,20、(21,30 31,40o labels 表示 每个分段的标签。例如代码如下:arr = np.arange(3,50,3).reshape(4,4)data = pd.DataFrame(arr,columns=a,b,c,/d,)print(初始数据为:nn,data)dataa_cu
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Python数据分析与可视化 教案 4.3 数据的分组与分段 Python 数据 分析 可视化 分组 分段
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内