大数据分析技术 习题答案项目二.docx
1 .简述Python语言与其他数据分析工具的比拟(1)与Excel相比,Python通过调用强大的数据分析和处理模块,实现灵活处理更大数据 集的报表数据,并能够进一步自动地实现数据分析和建立更加复杂的机器学习模型。(2)与R语言拥有过于分散和相对杂乱的机器学习库相比,Pylhon有着更为集中和高效的 机器学习框架ScikitTearn。这让Python更容易被理解和掌握。因此,Python的机器学习 和数据统计分析用户社区和群体在近几年不断攀升。(3)与SPSS相比,Python能够处理更为庞大和复杂的数据结构,以及适应更为复杂的数 据分析业务场景。SPSS是一款优秀的统计软件,主要应用在科学实验方面的数据分析场景。(4) Python在数据科学及其一整套技术框架上面优势十清楚显,包括数据采集、数据存储 和管理、数据分析和处理、数据可视化、机器学习、人工智能、APP开发和运维等整套解决 方案。2 .简述基于Python的数据分析第三方库有哪些,分别有什么作用?基于Python的数据分析之所以强大,得益于其背后丰富的第三方库,开箱即用,方便快捷。 主要包括如下:(1) NumPyNumPy对Python最大的支持在于其很好地弥补/ Python对数据组的缺乏。NumPy能够高效 地创立N维阵列,并能够通过其丰富的函数对N维阵列进行处理。同时,NumPy中还包括基 本线性代数函数,傅里叶变换,高级随机数功能和集成工具等强大的数学科学计算工具。(2) PandasPandas拥有许多高级的数据分析功能,是Python下最强大的数据分析和探索工具。Pandas 带有高级的数据结构和精巧的工具,能够高效快速地处理数据,Pandas构建在NumPy之匕 强化和丰富了 NumPy的使用方式。(3) SciPySciPy依赖于NumPy,其主要作用在于拥有强大的对象和函数能够处理数据矩阵。SciPy的 高级数学计算模块包括:离散傅立叶变换,线性代数,稀疏矩阵、最优化、积分、插值、拟 合、信号处理与图像处理、常微分求解方程等。另外,SciPy还具有局部图形功能,能够向 MATLAB 一样绘制用于科学和工程计算的数据图形。(4) MatplotlibUatplotlib用于绘制大量图形的库,它可与NumPy一起使用,主要用于绘制二维图和局部 三维图像,包括:直方图、折线图和散点图等。Matplotlib是一个综合库,用于在Python 中创立静态,动画和交互式可视化。(5) Scikit-learnScikit-learn依赖于NumPy、SciPy、Matplot lib,主要包含用于机器学习的库。 Scikit-learn提供了丰富且完善的一整套机器学习流程和工具,包括数据预处理、分类、 回归、聚类、预测和模型分析。(6) StatModelsStatModels主要用于数据的统计分析和建模,为不同的数据类型提供了广泛统计,统计测 试,绘图功能和结果统计的列表。StatModels可以于Pandas交互使用实现数据挖掘组合。(7) SeabornSeaborn是构建在matplotlib的Python数据可视化库。通过提供丰富的API实现高级的统 计图形绘图功能。Seaborn和Matpl oil ib相7补充能够实现更多更有特色的图形。Seaborn 能够接受基于Numpy与pandas的数据结构,并于Scipy与Statsmodels等统计模式高度兼容。3 .请安装Anaconda并运行Jupter Notebook之后,创立自己的第一个Python工程文档。 参见任务2安装Python的Anaconda发行版.请安装PyCharm,并配置Anaconda中的Python解释器,创立自己的第一个Python工程 文档。参见任务3掌握PyCharm安装和使用