Python数据分析与应用(第2版)全书电子教案完整版课件.pptx
《Python数据分析与应用(第2版)全书电子教案完整版课件.pptx》由会员分享,可在线阅读,更多相关《Python数据分析与应用(第2版)全书电子教案完整版课件.pptx(446页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1熟悉熟悉Python数据分析的工具数据分析的工具目录目录认识数据分析认识数据分析2安装安装Python的的Anaconda发行版发行版3掌握掌握Jupyter Notebook常用功能常用功能4数据分析是指用适当的分析方法对收集来的大量数据进行分析,提取有用信息和形成结论,对数据加以详细研究和概括总结的过程。随着计算机技术的全面发展,企业生产、收集、存储和处理数据的能力大大提高,数据量与日俱增。而在现实生活中,需要将这些繁多、复杂的数据通过统计分析进行提炼,以此研究出数据的发展规律,进而帮助企业管理层做出决策。数据分析的概念数据分析的概念广义的数据分析包括狭义数据分析和数据挖掘。狭义数据分析
2、是指根据分析目的,采用对比分析、分组分析、交叉分析和回归分析等分析方法,对收集的数据进行处理与分析,提取有价值的信息,发挥数据的作用,得到一个特征统计量结果的过程。数据分析的概念数据分析的概念数据分析的流程数据分析的流程数据分析已经逐渐演化为一种解决问题的过程,甚至是一种方法论。虽然每个公司都会根据自身需求和目标创建最适合的数据分析流程,但是数据分析的核心步骤是一致的。需求分析一词来源于产品设计,主要是指从用户提出的需求出发,挖掘用户内心的真实意图,并转化为产品需求的过程。产品设计的第一步就是需求分析,也是最关键的一步,因为需求分析决定了产品方向。错误的需求分析可能导致产品在实现过程中走入错误
3、方向,甚至对企业造成损失。数据分析中的需求分析是数据分析环节的第一步,也是非常重要的一步,决定了后续的分析方向和方法。数据分析中的需求分析的主要内容是,根据业务、生产和财务等部门的需要,结合现有的数据情况,提出数据分析需求的整体分析方向、分析内容,最终和需求方达成一致意见。数据分析的流程数据分析的流程1.需求分析需求分析数据获取是数据分析工作的基础,是指根据需求分析的结果提取、收集数据。数据获取主要有两种方式:网络数据与本地数据。网络数据是指存储在互联网中的各类视频、图片、语音和文字等信息。本地数据则是指存储在本地数据库中的生产、营销和财务等系统的数据。本地数据按照数据时间又可以划分为两部分,
4、分别是历史数据与实时数据。历史数据是指系统在运行过程中遗存下来的数据,其数据量随系统运行时间的增加而增长;实时数据是指最近一个单位时间周期(月、周、日、小时等)内产生的数据。在数据分析过程中,具体使用哪种数据获取方式,需要依据需求分析的结果而定。数据分析的流程数据分析的流程2.数据获取数据获取数据预处理是指对数据进行数据合并、数据清洗、数据标准化和数据变换,并直接用于分析建模的这一过程的总称。其中,数据合并可以将多张互相关联的表格合并为一张;数据清洗可以去除重复、缺失、异常、不一致的数据;数据标准化可以去除特征间的量纲差异;数据变换则可以通过离散化、哑变量处理等技术满足后期分析与建模的数据要求
5、。在数据分析的过程中,数据预处理的各个过程互相交叉,并没有明确的先后顺序。数据分析的流程数据分析的流程3.数据预处理数据预处理分析与建模是指通过对比分析、分组分析、交叉分析、回归分析等分析方法,以及聚类模型、分类模型、关联规则、智能推荐等模型与算法,发现数据中有价值的信息,并得出结论的过程。在数据分析过程中,具体使用哪种数据获取方式,需要依据需求分析的结果而定。分析与建模的方法按照目标不同可以分为几大类。如果分析目标是描述客户行为模式的,那么可以采用描述型数据分析方法,同时还可以考虑关联规则、序列规则和聚类模型等。如果分析目标是量化未来一段时间内某个事件发生概率的,那么可以使用两大预测分析模型
6、,即分类预测模型和回归预测模型。在常见的分类预测模型中,目标特征通常为二元数据,如欺诈与否、流失与否、信用好坏等。在回归预测模型中,目标特征通常为连续型数据,常见的有股票价格预测等。数据分析的流程数据分析的流程4.分析与建模分析与建模模型评价是指对于已经建立的一个或多个模型,根据其模型的类别,使用不同的指标评价模型性能优劣的过程。常用的聚类模型评价指标有ARI评价法(兰德系数)、AMI评价法(互信息)、V-measure评分、FMI评价法和轮廓系数等。常用的分类模型评价指标有准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1值(F1Value)、ROC和AU
7、C等。常用的回归模型评价指标有平均绝对误差、均方误差、中值绝对误差和可解释方差值等。模型优化则是指模型性能在经过模型评价后已经达到了要求,但在实际生产环境应用过程中,发现模型的性能并不理想,继而对模型进行重构与优化的过程。多数情况下,模型优化和分析与建模的过程基本一致。数据分析的流程数据分析的流程5.模型评价与优化模型评价与优化部署是指将数据分析结果与结论应用至实际生产系统的过程。根据需求的不同,部署阶段可以是一份包含了现状具体整改措施的数据分析报告,也可以是将模型部署在整个生产系统的解决方案。在多数项目中,数据分析师提供的是一份数据分析报告或一套解决方案,实际执行与部署的是需求方。数据分析的
8、流程数据分析的流程6.部署部署企业使用数据分析解决不同的问题,实际应用的数据分析场景主要分为客户分析、营销分析、社交媒体分析、网络安全、设备管理、交通物流分析和欺诈行为检测7类。客户分析主要是根据客户的基本数据信息进行商业行为分析,首先界定目标客户,根据客户的需求、目标客户的性质、所处行业的特征和客户的经济状况等基本信息,使用统计分析方法和预测验证法分析目标客户,提高销售效率。其次了解客户的采购过程,根据客户采购类型、采购性质进行分类分析,制定不同的营销策略。根据已有的客户特征进行客户特征分析、客户忠诚度分析、客户注意力分析、客户营销分析和客户收益分析。通过有效的客户分析能够掌握客户的具体行为
9、特征,将客户细分,使得运营策略达到最优,提升企业整体效益等。了解数据分析应用场景了解数据分析应用场景1.客户分析(客户分析(Customer Analytics)营销分析囊括了产品分析、价格分析、渠道分析、广告与促销分析这4类分析。产品分析主要是竞争产品分析,通过对竞争产品的分析制定自身产品策略。价格分析又可以分为成本分析和售价分析。成本分析的目的是降低不必要的成本;售价分析的目的是制定符合市场的价格。渠道分析是指对产品的销售渠道进行分析,确定最优的渠道配比。广告与促销分析则能够结合客户分析,实现销量的提升、利润的增加。了解数据分析应用场景了解数据分析应用场景2.营销分析(营销分析(Sales
10、 and Marketing Analytics)社交媒体分析是以不同的社交媒体渠道生成的内容为基础,实现不同社交媒体的用户分析、访问分析和互动分析等。用户分析主要根据用户注册信息、登录平台的时间点和平时发表的内容等用户数据,分析用户个人画像和行为特征。访问分析则是通过用户平时访问的内容分析用户的兴趣爱好,进而分析潜在的商业价值。互动分析根据互相关注对象的行为预测该对象未来的某些行为特征。社交媒体分析还能为情感和舆情监督提供丰富的资料。了解数据分析应用场景了解数据分析应用场景3.社交媒体分析(社交媒体分析(Social Media Analytics)大规模网络安全事件的发生,例如,2017年
11、5月席卷全球的WannaCry病毒,让企业意识到网络攻击发生时预先快速识别的重要性。传统的网络安全主要依靠静态防御,处理病毒的主要流程是发现威胁、分析威胁和处理威胁,这种情况下,往往只在威胁发生以后系统才能做出反应。新型的病毒防御系统可使用数据分析技术,建立潜在攻击识别分析模型,监测大量网络活动数据和相应的访问行为,识别可能进行入侵的可疑模式,做到未雨绸缪。了解数据分析应用场景了解数据分析应用场景4.网络安全(网络安全(Cyber Security)设备管理同样是企业关注的重点。设备维修一般采用标准修理法、定期修理法和检查后修理法等方法。其中,标准修理法可能会造成设备过剩修理,修理费用高;虽然
12、检查后修理法解决了修理费用成本问题,但是修理前的准备工作繁多,设备的停歇时间过长。目前企业能够通过物联网技术收集和分析设备上的数据流,包括连续用电、零部件温度、环境湿度和污染物颗粒等多种潜在特征,建立设备管理模型,从而预测设备故障,合理安排预防性的维护,以确保设备正常工作,降低因设备故障带来的安全风险。了解数据分析应用场景了解数据分析应用场景5.设备管理(设备管理(Plant and Facility Management)物流是物品从供应地向接收地的实体流动,是将运输、储存、装卸搬运、包装、流通加工、配送和信息处理等功能有机结合起来从而实现用户要求的过程。用户可以通过业务系统和GPS定位系统
13、获得数据,使用数据构建交通状况预测分析模型,有效预测实时路况、物流状况、车流量、客流量和货物吞吐量,进而提前补货,制定库存管理策略。了解数据分析应用场景了解数据分析应用场景6.交通物流分析(交通物流分析(Transport and Logistics Analytics)身份信息泄露及盗用事件逐年增长,随之而来的是欺诈行为和交易的增多。公安机关、各大金融机构、电信部门可利用用户基本信息、用户交易信息和用户通话短信信息等数据,识别可能发生的潜在欺诈交易,做到提前预防、未雨绸缪。以大型金融机构为例,通过分类模型分析方法对非法集资和洗钱的逻辑路径进行分析,找到其行为特征。聚类模型分析方法可以分析相似
14、价格的运动模式。例如,对股票进行聚类,可能发现关联交易及内幕交易的可疑信息。关联规则分析方法可以监控多个用户的关联交易行为,为发现跨账号协同的金融诈骗行为提供依据。了解数据分析应用场景了解数据分析应用场景7.欺诈行为检测(欺诈行为检测(Fraud Detection)1熟悉熟悉Python数据分析的工具数据分析的工具目录目录认识数据分析认识数据分析2安装安装Python的的Anaconda发行版发行版3掌握掌握Jupyter Notebook常用功能常用功能4目前主流的数据分析语言主要有Python、R、MATLAB这3种。其中,Python具有丰富和强大的库,同时Python常被称为胶水语言
15、,能够将使用其他语言制作的各种模块(尤其是C/C+)轻松地连接在一起,是一门更易学、更严谨的程序设计语言。R语言通常用于统计分析、绘图。R是属于GNU系统的一个自由、免费、源代码开放的软件。MATLAB的作用是进行矩阵运算、绘制函数与数据、实现算法、创建用户界面和连接其他编程语言的程序等,其主要应用于工程计算、控制设计、信号处理与通信、图像处理、信号检测、金融建模设计与分析等领域。了解数据分析常用工具了解数据分析常用工具Python、R、MATLAB这3种语言均可以进行数据分析。表11从语言学习难易程度、使用场景、第三方支持、流行领域和软件成本5方面比较了Python、R、MATLAB这3种数
16、据分析工具。了解数据分析常用工具了解数据分析常用工具PythonPythonRMATLAB语言学习难易程语言学习难易程度度接口统一,学习曲线平缓接口众多,学习曲线陡峭自由度大,学习曲线较为平缓使用场景使用场景数据分析、机器学习、矩阵运算、科学数据可视化、数字图像处理等统计分析、机器学习、科学数据可视化等矩阵运算、数值分析、科学数据可视化、机器学习、符号计算、数字图像处理、数字信号处理等第三方支持第三方支持拥有大量的第三方库,能够简便地调用C、C+、Fortran、Java等其他程序语言拥有大量的包,能够调用C、C+、Fortran、Java等其他程序语言拥有大量专业的工具箱,在新版本中加入了对
17、C、C+、Java的支持流行领域流行领域工业界学术界工业界学术界工业界学术界软件成本软件成本开源免费开源免费商业收费语法简单精练。语法简单精练。对于初学者来说,比起其他编程语言,Python更容易上手。含有大量功能强大的库。含有大量功能强大的库。结合在编程方面的强大实力,可以只使用Python这一种语言去构建以数据为中心的应用程序。功能强大。功能强大。从特性观点来看,Python是一个混合体。丰富的工具集使Python介于传统的脚本语言和系统语言之间。Python不仅具备所有脚本语言简单和易用的特点,而且提供了编译语言所具有的高级软件工程工具。研究、原型构建和构建生产系统。研究、原型构建和构建
18、生产系统。研究人员和工程技术人员使用同一种编程工具,会给企业带来非常显著的组织效益,并降低企业的运营成本。Python是一门胶水语言。是一门胶水语言。Python程序能够以多种方式轻易地与其他语言的组件“粘接”在一起。例如,Python的C语言API可以帮助Python程序灵活地调用C程序,这意味着用户可以根据需要给Python程序添加功能或在其他环境系统中使用Python。了解了解Python数据分析的优势数据分析的优势使用Python进行数据分析时所用到的类库主要有NumPy、SciPy、pandas、Matplotlib、seaborn、pyecharts、scikit-learn等。N
19、umPy是NumericalPython的简称,是一个Python科学计算的基础包。NumPy主要提供了以下内容。快速高效的多维数组对象快速高效的多维数组对象ndarray。对数组执行元素级计算和直接对数组执行数学运算的函数。对数组执行元素级计算和直接对数组执行数学运算的函数。读读/写硬盘上基于数组的数据集的工具。写硬盘上基于数组的数据集的工具。线性代数运算、傅里叶变换和随机数生成的功能。线性代数运算、傅里叶变换和随机数生成的功能。将将C、C+、Fortran代码集成到代码集成到Python的工具。的工具。了解了解Python数据分析常用类库数据分析常用类库1.NumPy除了为Python提供
20、快速的数组处理能力外,NumPy在数据分析方面还有另外一个主要作用,即作为算法之间传递数据的容器。对于数值型数据,使用NumPy数组存储和处理数据要比使用内置的Python数据结构高效得多。此外,由低级语言(如C和Fortran)编写的库可以直接操作NumPy数组中数据,无须进行任何数据复制工作。了解了解Python数据分析常用类库数据分析常用类库SciPy是基于Python的开源代码,是一组专门解决科学计算中各种标准问题域的模块的集合,特别是与NumPy、Matplotlib和pandas这些核心包一起使用时。SciPy主要包含了8个模块,不同的模块有不同的应用,如用于插值、积分、优化、处理
21、图像和特殊函数等。了解数据分析应用场景了解数据分析应用场景2.SciPy模块名称模块名称简介简介scipy.integrate数值积分和微分方程求解器scipy.linalg扩展了由numpy.linalg提供的线性代数求解和矩阵分解功能scipy.optimize函数优化器(最小化器)以及根查找算法scipy.signal信号处理工具scipy.sparse稀疏矩阵和稀疏线性系统求解器scipy.specialSPECFUN这是一个实现了许多常用数学函数(如伽马函数)的Fortran库的包装器scipy.stats检验连续和离散概率分布(如密度函数、采样器、连续分布函数等)的函数与方法、各种
22、统计检验的函数与方法,以及各类描述性统计的函数与方法scipy.weave利用内联C+代码加速数组计算的工具pandas是Python的数据分析核心库,最初被作为金融数据分析工具而开发出来。pandas为时间序列分析提供了很好的支持,它提供了一系列能够快速、便捷地处理结构化数据的数据结构和函数。Python之所以成为强大而高效的数据分析环境与它息息相关。pandas兼具NumPy高性能的数组计算功能以及电子表格和关系型数据库(如SQL)灵活的数据处理功能。它提供了复杂精细的索引功能,以便完成重塑、切片与切块、聚合和选取数据子集等操作。pandas将是本书中使用的主要工具。了解数据分析应用场景了
23、解数据分析应用场景3.pandasMatplotlib是较为流行的用于绘制数据图表的Python库,是Python的2D绘图库。Matplotlib最初由约翰亨特(JohnD.Hunter,JDH)创建,目前由一个庞大的开发团队维护。Matplotlib的操作比较容易,用户只需用几行代码即可生成直方图、功率谱图、条形图、错误图和散点图等图形。Matplotlib提供了pylab的模块,其中包括了NumPy和pyplot中许多常用的函数,方便用户快速进行计算和绘图。Matplotlib与IPython的结合,提供了一种非常好用的交互式数据绘图环境。绘制的图表也是交互式的,读者可以利用绘图窗口中工
24、具栏中的相应工具放大图表中的某个区域,或对整个图表进行平移浏览。了解数据分析应用场景了解数据分析应用场景4.Matplotlibseaborn是基于Matplotlib的图形可视化Python库,它提供了一种高度交互式界面,便于用户能够做出各种有吸引力的统计图表。seaborn是在Matplotlib的基础上进行了更高级的API封装,使得作图更加容易。seaborn不需要了解大量的底层代码,即可使图形变得精致。在大多数情况下,使用seaborn能做出很具有吸引力的图,而使用Matplotlib能制作具有更多特色的图。因此,可将seaborn视为Matplotlib的补充,而不是替代物。同时,s
25、eaborn能高度兼容NumPy与pandas数据结构以及scipy与statsmodels等统计模式,可以在很大程度上帮助用户实现数据可视化。了解数据分析应用场景了解数据分析应用场景5.seabornEcharts是一个由百度开源的数据可视化工具,凭借着良好的交互性,精巧的图表设计,得到了众多开发者的认可。而Python是一门富有表达力的语言,很适合用于数据处理。pyecharts是Python与Echarts的结合。pyecharts可以展示动态交互图,对于展示数据更方便,当鼠标悬停在图上时,即可显示数值、标签等。pyecharts支持主流Notebook环境,如JupyterNotebo
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Python 数据 分析 应用 全书 电子 教案 完整版 课件
限制150内