【课件】数据分析+第2课时 课件高中信息技术粤教版(2019)必修1.pptx
《【课件】数据分析+第2课时 课件高中信息技术粤教版(2019)必修1.pptx》由会员分享,可在线阅读,更多相关《【课件】数据分析+第2课时 课件高中信息技术粤教版(2019)必修1.pptx(26页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、粤教版普通高中教科书第五章 数据处理和可视化表达5.1 5.1 认识大数据认识大数据5.2 5.2 数据的采集数据的采集5.3 5.3 数据的分析数据的分析5.4 5.4 数据的可视化表达数据的可视化表达 数据分析-数据分析就是在一堆杂乱无章的数据中,运用数字化工具和技术,探索数据内在的结构和规律,构建数学模型,并进行可视化表达,通过验证将模型转化为知识,为诊断过去,预测未来发挥作用。数据分析常用方法特征探索关联分析聚类与分类建立模型模型评价回顾与导入回顾与导入 特征探索-数据特征探索的主要任务是对数据进行预处理,发现和处理缺失值、异常数据,绘制直方图,观察分析数据的分布特征,求最大值、最小值
2、、极差等描述性统计量。回顾与导入回顾与导入2.数据清洗,发现缺失值3.异常值处理中,利用画散点图发现异常值部分4.求最大值、最小值、极差、组距,绘制价格直方图和评论数直方图1.创建MySQL数据库特征探索一般过程高中信息技术必修1 数据与计算5.35.3.2.2 关联分析关联分析数据分析常用方法特征探索关联分析聚类与分类建立模型模型评价1.概念:分析并发现存在于大量数据之间的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。2.常见案例:l价格和年龄之间的关系:个性化推荐l购买相关商品之间的关系:捆绑销售3.常用的算法:aprior算法(关联规则挖掘算法)案例:捆绑销售5.35.
3、3.2.2 关联分析关联分析3.关联分析的基本算法及流程图扫描数据,并统计数据出现的频率次数构建候选项集C1计算支持度:数据出现的频率次数/总数形成频繁项集L1:筛选候选项集C1,要求支持度不小于最小支持度连接频繁项集L1,生成候选项集C2重复步骤-,得到最大的频繁项集扫描数据库,统计数据出现的频率次数构建候选项集Cn支持度最小支持度形成频繁项集Ln开始结束是否计算支持度:频率次数/总数构建候选项集Cn+1Aprioir-Gen运算扫描数据库统计数据出现的频率次数5.35.3.2.2 关联分析关联分析4.案例分析原始数据集:面包,牛奶,面包,尿布,啤酒,鸡蛋牛奶,尿布,啤酒,可乐面包,牛奶,尿
4、布,啤酒面包,牛奶,尿布,可乐扫描数据库,统计每种食物出现的次数候选项集C1食物数目牛奶4面包4尿布4啤酒3鸡蛋1可乐25.35.3.2.2 关联分析关联分析4.案例分析支持度大于2的频繁项集L1候选项集C1食物数目牛奶4面包4尿布4啤酒3鸡蛋1可乐2频繁项集L1食物数目牛奶4面包4尿布4啤酒3候选项集C2食物组合牛奶、面包牛奶、尿布牛奶、啤酒面包、尿布面包、啤酒尿布、啤酒根据算法,生成候选项集C25.35.3.2.2 关联分析关联分析4.案例分析原始数据集:面包,牛奶,面包,尿布,啤酒,鸡蛋牛奶,尿布,啤酒,可乐面包,牛奶,尿布,啤酒面包,牛奶,尿布,可乐扫描数据库,统计候选项集C2食物组合
5、出现的次数候选项集C2食物组合牛奶、面包牛奶、尿布牛奶、啤酒面包、尿布面包、啤酒尿布、啤酒候选项集C2食物组合数目牛奶、面包3牛奶、尿布3牛奶、啤酒2面包、尿布3面包、啤酒2尿布、啤酒35.35.3.2.2 关联分析关联分析4.案例分析候选项集C2食物组合数目牛奶、面包3牛奶、尿布3牛奶、啤酒2面包、尿布3面包、啤酒2尿布、啤酒3支持度大于2的频繁项集L2频繁项集L2食物组合数目牛奶、面包3牛奶、尿布3面包、尿布3尿布、啤酒3候选项集C3食物组合牛奶、面包、尿布牛奶、面包、啤酒牛奶、尿布、啤酒面包、尿布、啤酒根据算法,生成候选项集C35.35.3.2.2 关联分析关联分析4.案例分析根据算法,
6、生成候选项集C3候选项集C3食物组合牛奶、面包、尿布牛奶、面包、啤酒牛奶、尿布、啤酒面包、尿布、啤酒候选项集C3食物组合数目牛奶、面包、尿布2牛奶、面包、啤酒1牛奶、尿布、啤酒2面包、尿布、啤酒2原始数据集:面包,牛奶,面包,尿布,啤酒,鸡蛋牛奶,尿布,啤酒,可乐面包,牛奶,尿布,啤酒面包,牛奶,尿布,可乐扫描数据库,统计候选项集C3食物组合出现的次数5.35.3.2.2 关联分析关联分析4.案例分析候选项集C3食物组合数目牛奶、面包、尿布2牛奶、尿布、啤酒1牛奶、尿布、啤酒2面包、尿布、啤酒2根据计算和筛选,得到最终的频繁项集最终的频繁项集食物组合牛奶、面包、尿布原始数据集:面包,牛奶,面包
7、,尿布,啤酒,鸡蛋牛奶,尿布,啤酒,可乐面包,牛奶,尿布,啤酒面包,牛奶,尿布,可乐5.35.3.2.2 关联分析关联分析4.案例分析lsupport(支持度)两个商品被同时购买发生的概率lconfidence(置信度)B商品被购买的情况下,A商品被购买的概率P(A|B)=P(AB)/P(B)l例如:同时买牛奶、面包的概率为买了牛奶后,买面包的概率为P(A|B)=P(AB)/P(B)=(3/5)/(4/5)=3/4原始数据集:面包,牛奶,面包,尿布,啤酒,鸡蛋牛奶,尿布,啤酒,可乐面包,牛奶,尿布,啤酒面包,牛奶,尿布,可乐P(AB)=3/55.35.3.2.2 关联分析关联分析实践一一2.通
8、过修改“程序5-8-1 关联分析(教材范例).py”代码,对采集到的店铺销售订单数据(sale_orders.xls)进行关联分析,寻找商品之间的关联性,观察关联分析结果,以小组为单位,通过学习、交流,探究和实践,填写下表。关联分析程序关键代码关联分析结果(截图)分析结果商品b和a,商品d和a,商品c和a的支持度和置信度非常高,客户经常一起购买,可以对它们进行捆绑销售。data=pd.read_excel(sale_orders.xls,header=None)print(un转换原始数据至0-1矩阵.)ct=lambda x:pd.Series(1,index=xpd.notnull(x)#
9、转换0-1矩阵的过渡函数b=map(ct,data.as_matrix()#用map方式执行data=pd.DataFrame(list(b).fillna(0)#实现矩阵转换,空值用0填充print(un转换完毕。)del b#删除中间变量b,节省内存support=0.4#最小支持度confidence=0.5#最小置信度ms=-#连接符,默认-,用来区分不同元素,如A-B。需要保证原始表格中不含有该字符find_rule(data,support,confidence,ms).to_excel(关联分析结果.xls)#保存结果5.35.3.2.2 关联分析关联分析高中信息技术必修1 数据
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 课件 数据 分析 课时 高中 信息技术 粤教版 2019 必修
限制150内