《数据采集与预处理》教学教案—10用Pandas进行数据预处理.docx
《《数据采集与预处理》教学教案—10用Pandas进行数据预处理.docx》由会员分享,可在线阅读,更多相关《《数据采集与预处理》教学教案—10用Pandas进行数据预处理.docx(4页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据采集与预处理NO. 10教师姓名授课班级授课形式理实一体化授课时间年 月 日第周授课时数4授课章节名称任务3用Pandas进行数据预处理教学目的(1)熟悉Pandas的相关基础知识。(2)学会使用Pandas完成“北京公交线路信息” 数据的预处理。教材分析教学重点使用Pandas完成“北京公交线路信息” 数据的预处理教学难点使用Pandas完成 “北京公交线路信息” 数据的预处理更新、 补充、删节内容课外作业积极动手实践, 熟练完成相关任务的实施操作教学提示教学过程一、知识准备:无论是对于数据分析还是数据挖掘而言,Pandas都是一个非常重要的 Python包。它不仅提供了很多方法,使数据
2、处理非常简单,还在数据处理 速度上做了很多优化,使得其和Python内置方法相比有很大的优势。1 .导入数据pd.read_csv(filename):从 CSV 文件中导入数据。pd.read_table(filename):从限定分隔符的文本文件中导入数据。pd.read_excel(filename):从 Excel 文件中导入数据。pd.read_sql(query, connection_object):从 SQL 表/库中导入数据。 pd.read_json(json_string):从JSON格式的字符串中导入数据。pd.read_html(url):解析URL、字符串或HTML
3、文件,抽取其中的tables。 pd.read_clipboard():从粘贴板中获取内容,并传送给read_table()o pd.DataFrame(dict):从字典对象中导入数据,Key表示列名,Value 表示数据。2 .导出数据df.to_csv(filename):导出数据到CSV文件中。df.to_excel(filename):导出数据到 Excel 文件中。df.to_sql(table_name, connection_object):导出数据到 SQL 表中。df.tojson(filename):以JSON格式导出数据到文本文件中。3 .创建测试对象pd.DataFr
4、ame(np.random.rand(20,5):创建 20 行 5 列的、由随机数组 成的DataFrame对象。pd.Series(myist):从可迭代对象 my_list中创建一个Series对象。df.index = pd.date_range(1900/1/30; periods = df.shape0):增加一个日 期索引。4 .查看、检查数据df.head(n):查看DataFrame对象的前n彳亍。df.tail(n):查看DataFrame对象的最后n行。df.shape():查看行数和列数。http:/df.info():查看索引、数据类型和内存信息。df.describ
5、e():查看数值型列的汇总统计。5 .value_counts(dropna=False):查看 Series 对象的唯一值和计数。df.apply(pd.Series.value_counts):查看 DataFrame 对象中每一列的唯 一值和计数。6 .数据选取dfcol:根据列名,以Series的形式返回列。dfcoll, col2:以 DataFrame 的形式返回多列。7 .iloc0:按位重选取数据。8 .loc,index_one,:按索引选取数据。df.iloc0,:返回第一行。df.iloc0,0:返回第一列的第一个元素。6 .数据清理df.columns =:重命名列名。
6、pd.isnull():检查DataFrame对象中的空值,并返回一个Boolean数组。pd.notnull():检查 DataFrame对象中的非空值,并返回一个 Boolean 数组。df.dropna():删除所有包含空值的行。df.dropna(axis=l):删除所有包含空值的列。df.dropna(axis= 1 ,thresh=n):保留至少有n个非空值的行。df.fillna(x):用x替换DataFrame对象中的所有空值。s.astype(float):将Series中的数据类型更改为float类型。s.repIaceCl/one1):用one代替所有等于1的值。s.re
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据采集与预处理 数据 采集 预处理 教学 教案 10 Pandas 进行
限制150内