数据的描述复习课件.pptx
《数据的描述复习课件.pptx》由会员分享,可在线阅读,更多相关《数据的描述复习课件.pptx(29页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据的描述复习ppt课件CATALOGUE目录数据描述的基本概念数据的统计描述数据可视化描述数据特征选择与降维数据预处理技术数据描述在机器学习中的应用CHAPTER数据描述的基本概念01数据类型描述事物的性质、类别、属性等,如性别、国籍等。描述事物的数量、大小、距离等,如年龄、收入等。将事物按照某种标准进行分类,如教育程度、婚姻状况等。按照某种顺序排列的数据,如评分等级、优先级等。定性数据定量数据分类数据顺序数据准确性完整性及时性一致性数据质量01020304数据是否真实、准确,没有误差或偏差。数据是否全面、完整,没有遗漏或缺失。数据是否及时更新,反映最新的情况。数据在不同来源或不同时间是否保
2、持一致。描述事物随时间变化的情况,如历史数据、未来预测等。时间维度描述事物在不同地理位置的情况,如地区分布、国家差异等。空间维度描述事物的各种属性,如人口统计数据中的年龄、性别等。属性维度描述事物的大小、数量等,如GDP、收入等。度量维度数据维度CHAPTER数据的统计描述02所有数值的和除以数值的数量,表示数据的平均水平。均值中位数众数将数据从小到大排序后,位于中间位置的数值,用于表示数据的中等水平。出现次数最多的数值,反映数据的集中趋势。030201均值、中位数和众数每个数值与均值之差的平方和的平均值,用于衡量数据的离散程度。方差方差的平方根,表示数据的离散程度。标准差方差和标准差通过条形
3、的面积或高度表示数值出现的频数或概率,可以直观地展示数据的分布形态。通过箱体、中位数、四分位数等来表示一组数据的分布特征,可以直观地比较不同数据集的分布情况。数据的分布形态:直方图和箱线图箱线图直方图CHAPTER数据可视化描述03散点图用于展示两个变量之间的关系,通过散点的分布情况来反映变量间的关联程度。线性图用于展示一个变量随另一个变量的变化趋势,通常用于表示时间序列数据或比例数据。散点图和线性图饼图用于展示各部分在整体中所占的比例,通过扇形面积或角度来表示各部分占比。条形图用于比较不同类别之间的数据,通过条形的长度或高度来表示各类别的数值大小。饼图和条形图通过颜色的深浅来表示数据的大小,
4、通常用于展示多维数据的集中程度或变化趋势。热力图用于展示层次结构或分类关系,通过节点和连接线来表示不同类别之间的关系。树状图热力图和树状图CHAPTER数据特征选择与降维04概念:PCA是一种常用的降维技术,通过线性变换将原始特征转换为新的特征,新特征为原始特征的主成分,即能最大程度保留原始数据的方差。主成分分析(PCA)步骤1.标准化数据:将数据转化为均值为0,标准差为1的形式。2.计算协方差矩阵。主成分分析(PCA)3.对协方差矩阵进行特征值分解,得到特征值和特征向量。4.选择前k个最大的特征值对应的特征向量,构成降维后的数据。应用:PCA常用于高维数据的降维处理,如图像处理、文本分析等。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 描述 复习 课件
限制150内