(高职)12.2 pandas模块ppt课件.pptx
《(高职)12.2 pandas模块ppt课件.pptx》由会员分享,可在线阅读,更多相关《(高职)12.2 pandas模块ppt课件.pptx(15页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、12.2 pandas模块Python Python 程序设计程序设计丁辉丁辉 商俊燕商俊燕 范晓玲范晓玲第十二章第十二章 数据处理数据处理u12.1 numpy模块模块u12.2 pandas模块模块u12.3 matplotlib模块模块u12.4 大数据处理精选案例大数据处理精选案例u小结小结2022年5月8日32022年5月8日4pandas 是基于numpy构建的含有更高级数据结构和工具的数据分析包,是一个专门用于数据分析的开源Python库。目前,所有使用Python语言研究和分析数据集的专业人士,在做统计分析和决策时,pandas都是他们的基础工具。它能够以最简单的方式提供数据处
2、理、数据抽取和数据操作所需的全部工具。 l pandas引入 from pandas import Series,DataFrame import pandas as pdlSeries对象 Series对象类似numpy数组的数据结构,同时每个元素带有标签(lable)或者说索引(index)。支持float、int、bool、datatime、timedelta、category、object类型。创建Series对象可以使用Series()构造函数来声明,把要存放在Series对象中的数据以数组形式传入。 import pandas as pd from pandas import Se
3、ries,DataFrame sn = Series(1,2,3,as) print (sn)0 11 22 33Asdtype: object sn = Series(1,2,3,as,index=a,b,c,d) #增加索引参数 print (sn)a 1b 2c 3d asdtype: object print(sn.index)Index(a, b, c, d, dtype=object) print(sn.values)1,2,3, as12.2 pandas模块选择Series内部元素 sn = Series(1,2,3,4,index=a,b,c,d) print(sn2,snc
4、) print(sn0:2)3 3a 1b 2dtype: int64 2022年5月8日5lDataFrame对象 DataFrame对象是一种二维的表结构,类似Excel中的工作表。pandas的DataFrame可以存储许多种不同的数据类型,并且每一个坐标轴都有自己的标签。DataFrame由按一定顺序排列的多列数据组成,各列的数据类型可以不同。创建DataFrame对象 import pandas as pd from pandas import Series,DataFrame data = id: 2000, 2001, 2002,name: lily, apple, micky,
5、age: 15, 17,19 #从字典创建 frame1 = DataFrame(data) print(frame1) i d name age0 2000 lily 151 2001 apple 172 2002 micky 19 选取元素使用DataFram对象中的columns属性,可以获取DataFram中所有列。 fc = frame1.columns print(fc)Index(id, name, age, dtype=object)DataFram对象中的index属性获取索引列表,values属性获取所有元素。 print(frame1.index)RangeIndex(s
6、tart=0, stop=3, step=1) print(frame1.values)2000 lily 15 2001 apple 17 2002 micky 1912.2 pandas模块2022年5月8日6l DataFrame对象使用ix属性能获取DataFram对象中的行。 fr = frame1.ix0 fr1 = frame1.ix1 fr2 = frame1.ix0.:1 print(fr)id 2000name lilyage 15Name: 0, dtype: object print(fr1)id 2001name appleage 17Name: 1, dtype:
7、object print(fr2)id name age0 2000 lily 151 2001 apple 17函数应用 frame2 = pd.DataFrame(np.arange(6).reshape(2,3),columns=id,name,age) fs = np.sqrt(frame2) fm = np.max(frame2) fmean = np.mean(frame2) print(frame2) id name age0 0 1 21 3 4 5 print(fs) id name age0 0.000000 1.0 1.4142141 1.732051 2.0 2.236
8、068 print(fm)id 3name 4age 5dtype: int32print(fmean) id 1.5name 2.5age 3.5dtype: float6412.2 pandas模块2022年5月8日7l DataFrame对象NaN数据处理 from pandas import Series,DataFrame import numpy as np import pandas as pd ser = pd.Series(0,1,np.NaN,3,index=red,blue,white,green) print(ser)red 0.0blue 1.0white NaNgr
9、een 3.0dtype: float64 ser.dropna() #过滤掉缺失值red 0.0blue 1.0green 3.0dtype: float64 frame1 = pd.DataFrame(1,np.NaN,np.NaN,2,np.NaN,np.NaN,columns=id,name,age) f = frame1.dropna() #只要有NaN,则整列或整行被删除 print(f) Empty DataFrameColumns: id, name, ageIndex: 12.2 pandas模块2022年5月8日8lDataFrame对象 print (frame1.dro
10、pna(how=all) #只会删除全列或行都为NaN的列或行 id name age0 1 NaN NaN1 2 NaN NaN print(frame1.fillna(5) #用一个值替换NaN id name age0 1 5.0 5.01 2 5.0 5.0 print(frame1.fillna(name:zhanglin,age:25) id name age0 1 zhanglin 25.01 2 zhanglin 25.012.2 pandas模块2022年5月8日9l 数据集成 在Python中,panda.merge()函数可根据一个或多个键将不同DataFrame中的行连
11、接起来;pandas.concat()函数可以沿着一条轴将多个对象堆叠到一起。使用merge()函数进行合并merge()函数的格式为:merge(left, right, how=inner, on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=True, suffixes=(_x, _y), copy=True, indicator=False) left与与right:两个不同的DataFrame。how:指的是合并(连接)的方式有inner(内连接),left(左外连接),rig
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 高职12.2 pandas模块ppt课件 高职 12.2 pandas 模块 ppt 课件
限制150内