Python数据分析与可视化教案6.4 超市数据分析与可视化.docx
《Python数据分析与可视化教案6.4 超市数据分析与可视化.docx》由会员分享,可在线阅读,更多相关《Python数据分析与可视化教案6.4 超市数据分析与可视化.docx(9页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、6.4超市数据分析与可视化随着互联网与大数据的开展,电商杨业得到飞速开展,每天产生成千上万的数据,挖 掘出其中的价值尤为重要。在电商超市数据分析中,分析的内容主要包括三个方面:为高 管提供盈利性分析,为运营部门提供产品分析,为销售部门提供客户分析。一、数据源本案例包括三个数据集:supermarket.csv、category.xlsxs region.txto1. supermarket.csvsupermarketcsv数据集包括字段:利润率、产品ID、产品名称、利润、发货日期、国 家、城市、子类别、客户ID、客户名称、折扣、数量、省、细分、订单ID、订单日期、 邮寄方式、销售额。数据源1
2、如图6-*所示。利润率,产品ID,产品名称,利润,发货日期,国家,城市,子类客户ID,客户名称,折扣,数量,省,细分,订单ID,订单日期,邮寄方式,销售额-47%,办公用-用品-10002717Fiskars 剪刀,蓝色760.704,2018/4/29,中国杭州用品,曾惠-14485,曾惠,0.4.2,浙江,公司,US-2018-1357144,2018/4/27,二级,129.696 34%,办公用-信封-10004832,GlobeWeis 搭扣信封,红色二42.56,2018/6/19,中国,内江,信封,i镇-10165,许安,0,2.00,四川,消费者,CN-2018-1973789
3、,2018/6/15,标酒 13%,办公用-装订-10001505,Cardinal 抑口固邮,回收42,2018/6八9,中国,内江,窃了机,哙-10165,$,0.42四川,消费者,CN-2018-1973789,2018/6/15,屣纷 -8%,办公用-用品-10003746, Weencut 开信刀,1,-27.104,2018/12/13,中国,镇江用品,宋良-17170,宋良,0.4,400,江苏,公司,US-2018-3017568,2018/12/9,标准纺 40%,办公用-器具-10003452,KtchenAid 搅拌机,黑色”,550.2,2017/6/2,中国,汕头,器
4、具万兰-15730,万兰0,3.00,广东消费者,CN-2017-2975416,2017/5/31,13 34%,技术-设备-10001640,柯尼卡打印机红色,3783.78,2016/10/31,中国,景德镇,设备渝明-18325渝明,0,9,江西,消费者,CN-2016-4497736,2016/10/27,标准级,1 36%,办公用-装订-10001029,由记。订书机 实惠,172.76,2016/10/31,中国,景德猛装订机渝明-18325渝明,0,2,江西消费者,CN-2016-4497736,2016/10/27,标准级 31 %,家具-椅子-10000578JSAFC。扶
5、手椅,可谓,2684.08,2016/10/31,中国,景德镇,椅子,俞明-18325,俞明。4,江西消费者,CN-2016-4497736,2016/10/27标准级 8%,办公用-纸张-10001629JGreen Bar计划信息表,多色,4692016/10/31,中国,景德镇,纸张,俞明-18325,俞明,05江西,消费者,CN-2016-4497736,2016/10/27,标 22%,办公用-系固-10004801,3tockwell 橡皮筋,整包:33.88,2016/10/31,中国,景德镇,系固件,俞明-18325,俞明,0,2,江西,消费者,CN-2016-4497736,
6、2016/10/27,标 1 %,技术-设备0000001,爱普生计算器,耐用二422015/12/24,中国,榆林,设备,谢雯-21700,谢雯。2,陕西,小型企业XN-2015-4195213,2015/12/22,二级434.28图6-*数据源1 (局部)region.txt数据集包括字段:地区、省。数据源2如图6-*所示。二region -记事本文件(F)编辑(E)格式(0)查看(V)帮助(H)地区 省南南南南南南南南南南南南南南南南南南南北南南西东庆南藏川湖湖河海广广重云西四-*数据源2 (局部)category.xlsx数据集包括字段:子类别、类别。数据源3如图6.*所示。 Fig
7、ure 1今G今 中Q三上 El不同邮政方式的利润和58. 7%标准级图6-*步骤10输出结果三、结论1 .从数据去重的分析结果中可以看出,“订单ID”、“产品ID”、“客户ID”三个字段 相同数据的行很少,说明绝大局部的数据均是可用的。2 .从数据描述性统计的分析结果中可以看出,销售金额排名的前5的产品中有两件产 品是扶手椅,分别排名第2名和第5名。3 .从2015到2018的利润环比情况看,利润是逐年递增的,并且2016年、2017年、 2018年与上一年的利润环比分别为26.3%、32.28%. 9.52%。4 .从交叉透视表分析结果可以看出,销量数量较多包括椅子(华东地区与中南地区)、
8、 装订机(华东地区与中南地区),平均销售金额较多包括桌子(华北地区、东北地区和中南 地区)、复印机(华北地区)、器具(西北地区、东北地区与华北地区)。说明一些商品虽然 销量大,但利润却不大。5 .从条形图的结果中可以看出,在所有地区中,西北和华北平均销售额超过了总体平 均销售额,说明这个地区的销售情况较好。6 .从多子图柱形折线叠加图的结果中可以看出,1月、3月、8月、和12月销售和利润 情况较好,其他月份较差。7 .从环形图的结果中可以看出,标准级的邮寄方式贡献的利润最大,占比到达58.7%。8 .从不同邮寄方式的利润环形图可以看出,标准级的情况最好。文件开始插入页面布局公式数据审c0粘贴等
9、送 12 A? A”X剪切 亳复制 W格式刷/ABC1子类别类别2桌子家具3用具家具4椅子家具5书架家具6设备技术7配件技术8复印机技术9 技术10装订机办公用品11纸张办公用品12用品办公用品13信封办公用品14系固件办公用品15收纳具办公用品16器具办公用品17美术办公用品18标签办公用品B / U 1少笠剪贴板 Q字体E30&图6-*数据源3 (局部)二、目标1 .统计销售金额排名的前5的产品,找出热销商品。2 .计算所有年份的利润,分析利润变化趋势。3 .计算2015-2018年的利润环比。4 .计算2016年中南地区办公用品的平均每月利润。5 .分析不同地区的不同类别对于销售金额的影
10、响。6 .根据不同地区的平均销售额绘制条形图,分析哪些地区的平均销售额较高。7 .根据不同月份的平均销售额、平均利润、平均利润率,在同一个绘图窗口中绘制多 子图柱形图与折线图,并分析哪些月份销售和利润情况较好。8 .根据不同邮寄方式的利润绘制环形图,并分析哪些邮寄方式的利润和较高。三、步骤步骤1 :导入库,设置参数。(1)导入所需要的库 pandas、numpy、matplotlib.pyploto(2)利用pd.sejoption解除显示宽度的显示,设置数据对齐。(3)利用reParams设置相关参数,将显示字体设置为黑体,字体大小设置为15。步骤1代码如下:import pandas as
11、 pdimport matplotlib.pyplot as pitpd.set_option(display.unicode.east_asian_widthTrue)pd.set_option(display.widthNone)plt.rcParams,fbnt.sans-serif=,Simhei,plt.rcParamstfont.sizel 5步骤2:读入数据,合并数据,显示数据形状。(1)导入超市的销售数据supermarket.csv、地区分布数据region.txt、商品类别数据 category.xlsx (三个文件均存放在c:data路径中),将导入的数据命名为datal
12、、data2s data3o其中,region.txt文件的分隔符是Tab, category.xlsx的数据在Sheet 1工作表内。(2)利用merge函数将datal、data2. data3三个数据按照合适的关键字进行合并,合 并方式为外连接,命名为data。(3)输出data的行数、列数、列名以及前5行。步骤2 (1)代码如下:datal = pd.read_csv(Hc:/data/supermarket.csvn)data2 = pd.read_csv(,c:/data/region.txt,sep=t,)data3 = pd.read_excel(nc:/data/catego
13、ry.xlsxn,sheet_name=Sheetr)步骤2 (2)代码如下:data = pd.merge(datal,data2,how=outer,on=)data 二 pd.merge(data,data3,how=outer,on=子类另lJ)步骤2 (3)代码如下:print(数据的行数=%dn 数据的列数=%dM%(data.shapeO,data.shapel)print(数据的前 5 行为:n”,data.head()输出结果如图6-*所示。Run:6-2C:UsersliliangAnaconda3python.exe C:/Users/liliang/PycharmPro
14、jects/sjfx/6-2.py 数据的行数=9959 数据的列数=20 数据的列名为:Index(利润率,产品ID,产品名称,利润发货日期,国家,城市,子类别,客户ID,客户名称,折扣,数量省,细分,订单ID,订单日期,邮寄方式,销售额,地区,类别 dtype=object)Process finished with exit code 0数据的前5行为:发货日期国家城市子类别利润率产品ID产品名称利润0-47%办公用-用品-10002717Fiskars剪刀,蓝色-60.7042018/4/29中国杭州 用品1-47%办公用-用品-10002717Fiskars剪刀,蓝色-182.112
15、2017/6/14中国温岭 用品2-5%办公用-用品-10001427Elite大剪刀,蓝色-33.4602015/2/6中国椒江 用品3-42%办公用-用品-10000347Stiletto尺子,锯齿状-68.1802015/11/17中国杭州 用品4-18%办公用-用品-10000764Elite尺子,工业-15.8482017/11/30中国湖州 用品图6-*步骤2输出结果步骤3 :数据预处理(1)将利润率中格式改为小数形式,如5%改为0.05。(2)删除数据中“订单ID”、“产品ID”、“客户ID”三个字段相同数据的行,保存第 一次出现的值。步骤3 (1)代码如下:print(data
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Python数据分析与可视化 教案 6.4 超市数据分析与可视化 Python 数据 分析 可视化 超市
限制150内