大数据时代的数据挖掘与商务智能三课件.ppt
《大数据时代的数据挖掘与商务智能三课件.ppt》由会员分享,可在线阅读,更多相关《大数据时代的数据挖掘与商务智能三课件.ppt(239页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、大数据时代的数据挖掘与商务智能1第三部分基于统计的传统数据分析技术2数据分析基本概念n统计学简介n测量与数据n数据来源n数据的类型n数据预处理技术3统计数据分析方法n n 描述统计n n 推断统计n n 常用统计分析软件4数学家的幽默n n 统计学家调侃数学家:你们不是说若且,则吗!那么想必你若喜欢一个女孩,那么这个女孩喜欢的男生你也喜欢吧?n n 数学家反问道:那么你把左手放到一锅一百度的开水中,右手放到一锅零度的冰水里想来也没事吧!因为它们平均不过是五十度而已!”5何为统计学?n n 统计与数量有关,同时它已经渗透到社会经济活动和科学研究的方方面面。那么究竟何为统计?统计是如何开展研究的?
2、作为一门科学的统计学与其他学科有何区别与联系?6统计(Statistics)的涵义n n 统计是人们认识客观世界总体数量变动关系和变动规律的活动的总称,是认识客观世界的有力工具。n n 统计学是研究如何测定、收集、整理、归纳和分析反映客观现象总体数量的数据,以便给出正确认识的方法论科学。7统计的研究对象的特点n n 数量性。统计数据是客观事物量的反映。n n 总体性。统计的数量研究是对现象总体中各单位普遍存在的事实进行大量观察和综合分析。n n 变异性。总体各单位的特征表现存在着差异,而且这些差异并不是事先可以预知的。8统计研究的基本环节9统计设计收集数据整理与分析资料积累开发应用统计学理论与
3、相关实质性学科理论描述统计推断统计统计调查、实验统计设计n n根据所要研究问题的性质,在有关学科理论的根据所要研究问题的性质,在有关学科理论的指导下,制定统计指标、指标体系和统计分类,指导下,制定统计指标、指标体系和统计分类,给出统一的定义、标准。同时提出收集、整理给出统一的定义、标准。同时提出收集、整理和分析数据的方案和工作进度等。和分析数据的方案和工作进度等。n n搞好统计设计不仅要有统计学的一般理论和方搞好统计设计不仅要有统计学的一般理论和方法为指导,而且还要求设计者对所要研究的问法为指导,而且还要求设计者对所要研究的问题本身具有深刻的认识和相关的学科知识。题本身具有深刻的认识和相关的学
4、科知识。10收集数据n n统计数据的收集有两种基本方法。统计数据的收集有两种基本方法。n n对于大多数自然科学和工程技术研究来说,有对于大多数自然科学和工程技术研究来说,有可能通过有控制的科学实验去取得数据,这时可能通过有控制的科学实验去取得数据,这时可以采用实验法。可以采用实验法。n n对于社会经济现象来说,一般无法进行重复实对于社会经济现象来说,一般无法进行重复实验,要取得有关数据就必须进行调查观察。验,要取得有关数据就必须进行调查观察。n n海量数据的积累!海量数据的积累!11整理与分析n n描述统计描述统计是指对采集的数据进行登记、审核、是指对采集的数据进行登记、审核、整理、归类,在此
5、基础上进一步计算出各种能整理、归类,在此基础上进一步计算出各种能反映总体数量特征的综合指标,并用图表的形反映总体数量特征的综合指标,并用图表的形式表示经过归纳分析而得到的各种有用的统计式表示经过归纳分析而得到的各种有用的统计信息。信息。n n推断统计推断统计是在对样本数据进行描述的基础上,是在对样本数据进行描述的基础上,利用一定的方法根据样本数据去估计或检验总利用一定的方法根据样本数据去估计或检验总体的数量特征。推断统计是现代统计学的主要体的数量特征。推断统计是现代统计学的主要内容。内容。12统计资料的积累、开发与应用n n对于已经公布的统计资料需要加以积累,同时对于已经公布的统计资料需要加以
6、积累,同时还可以进行进一步的加工,结合相关的实质性还可以进行进一步的加工,结合相关的实质性学科的理论知识去进行分析和利用。学科的理论知识去进行分析和利用。n n如何更好地将统计数据和统计方法应用于各自如何更好地将统计数据和统计方法应用于各自的研究领域是应用统计学研究的一个重要方面。的研究领域是应用统计学研究的一个重要方面。13统计学的流派nn 政治算术学派nn 国势学派nn 社会统计学派nn 数理统计学派nn 理论统计学nn 应用统计学14政治算术学派与国势学派n n政治算术学派。最早的统计学源于政治算术学派。最早的统计学源于1717世纪英国。世纪英国。其代表人物是威廉配第其代表人物是威廉配第
7、(William Patty(William Patty,1623 1623 1687 1687年 年)。政治算术学派主张用大量观察。政治算术学派主张用大量观察和和数量分析数量分析等方法对社会经济现象进行研究的等方法对社会经济现象进行研究的主张,为统计学的发展开辟了广阔的前景。主张,为统计学的发展开辟了广阔的前景。n n国势学派。最早使用国势学派。最早使用“统计学统计学”这一术语的是这一术语的是德国国势学派。国势学派虽然创造了统计学这德国国势学派。国势学派虽然创造了统计学这一名词,但他们主要一名词,但他们主要使用文字记述方法使用文字记述方法对国情对国情国力进行研究,其学科内容与现代统计学有较国
8、力进行研究,其学科内容与现代统计学有较大差别。大差别。15社会统计学派n n18501850年,德国的统计学家克尼斯年,德国的统计学家克尼斯(K.G.A.knies)(K.G.A.knies)发发表了题为表了题为独立科学的统计学独立科学的统计学的论文,提出统计的论文,提出统计学是一门独立的社会科学,是一门对社会经济现象学是一门独立的社会科学,是一门对社会经济现象进行数量对比分析的科学。进行数量对比分析的科学。n n各国学者在社会经济统计指标的设定与计算、指数各国学者在社会经济统计指标的设定与计算、指数的编制、资料的收集与整理、统计调查的组织和实的编制、资料的收集与整理、统计调查的组织和实施、经
9、济社会的数量分析和预测等方面做出的贡献施、经济社会的数量分析和预测等方面做出的贡献已成为现代统计学的重要组成部分。已成为现代统计学的重要组成部分。n n例如,例如,“恩格尔系数恩格尔系数”,至今仍为人们广泛使用。,至今仍为人们广泛使用。国内生产总值国内生产总值(GDP)(GDP)的核算方法被称为的核算方法被称为“2020世纪最世纪最伟大的发明之一。伟大的发明之一。”16数理统计学派n n 认为统计学是一门通用的方法论科学。创始人是比利 认为统计学是一门通用的方法论科学。创始人是比利时统计学家凯特勒 时统计学家凯特勒(Adolphe Quetelet(Adolphe Quetelet,1796
10、1796 1874 1874年 年)。他所著的代表作。他所著的代表作 社会物理学 社会物理学 等将概率论和统计 等将概率论和统计方法引入社会经济方面的研究。方法引入社会经济方面的研究。n n 从 从19 19世纪中叶到 世纪中叶到20 20世纪中叶,数理统计学得到迅速发 世纪中叶,数理统计学得到迅速发展。展。英国生物学家高尔顿提出并阐述了 英国生物学家高尔顿提出并阐述了“相关 相关”的概念;的概念;皮尔逊提出了计算复相关和偏相关的方法。皮尔逊提出了计算复相关和偏相关的方法。戈塞特建立了 戈塞特建立了“小样本理论 小样本理论”,即所谓的,即所谓的“t t分布 分布”;费歇尔样本相关系数的分布、方
11、差分析、实验设计等方面的 费歇尔样本相关系数的分布、方差分析、实验设计等方面的研究中做出了重要贡献。研究中做出了重要贡献。到 到20 20世纪中期,数理统计学的基本框架已经形成。数理统计 世纪中期,数理统计学的基本框架已经形成。数理统计学派成为英美等国统计学界的主流。学派成为英美等国统计学界的主流。17理论统计学和应用统计学n n历经历经300300多年的发展,统计学目前已经成为横多年的发展,统计学目前已经成为横跨社会科学和自然科学领域的多科性的科学。跨社会科学和自然科学领域的多科性的科学。n n“统计学是有关如何测定、收集和分析反映客统计学是有关如何测定、收集和分析反映客观现象总体数量的数据
12、,以便给出正确认识的观现象总体数量的数据,以便给出正确认识的方法论科学。方法论科学。”n n现代统计学可以分为两大类:一类是以抽象的现代统计学可以分为两大类:一类是以抽象的数量为研究对象,研究一般的收集数据、整理数量为研究对象,研究一般的收集数据、整理数据和分析数据方法的数据和分析数据方法的理论统计学理论统计学。另一类是。另一类是以各个不同领域的具体数量为研究对象的以各个不同领域的具体数量为研究对象的应用应用统计学统计学。18数学与统计学的联系n n 数学与统计学都是研究数量规律的,都要利用各种公式进行运算。n n 数学中的概率论,为统计学提供了数量分析的理论基础。统计学中的理论统计学以抽象的
13、数量为研究对象,其大部分内容也可以看作是数学的分支。19统计学与数学的区别n n从研究对象看,数学以最一般的形式研究数量从研究对象看,数学以最一般的形式研究数量的联系和空间形式。统计学特别是应用统计学的联系和空间形式。统计学特别是应用统计学则总是与客观的对象联系在一起的。则总是与客观的对象联系在一起的。n n从研究方法看,数学主要是逻辑推理和演绎论从研究方法看,数学主要是逻辑推理和演绎论证的方法。而统计本质上是证的方法。而统计本质上是归纳归纳的方法。统计的方法。统计学家特别是应用统计学家需要深入实际,进行学家特别是应用统计学家需要深入实际,进行调查或实验去取得数据,研究时不仅要运用统调查或实验
14、去取得数据,研究时不仅要运用统计的方法,而且还要掌握某一专门领域的知识。计的方法,而且还要掌握某一专门领域的知识。20测量与数据n n 数据是通过把感兴趣领域里的实体以某种测量过程映射到符号表示得到的。n n 测量就是把实体的一个给定属性与一个变量值联系起来。21属性(变量):重量属性(变量)值:2kg 测量统计数据22基本构成要素实体(Element)变量(Variable)观测(Observation)关于实体的一种属性或特征研究对象由各实体组成关于某一实体所有各变量的信息变量与变量值n n说明现象的某一数量特征的概念也被称为变量,说明现象的某一数量特征的概念也被称为变量,变量的具体取值是
15、变量值,统计数据就是统计变变量的具体取值是变量值,统计数据就是统计变量的具体表现。量的具体表现。n n连续型变量是指变量的取值在数轴上连续不断,连续型变量是指变量的取值在数轴上连续不断,无法一一列举,即在一个区间内可以取任意实数无法一一列举,即在一个区间内可以取任意实数值。值。n n离散型变量是指变量的其取值是整数值,可以一离散型变量是指变量的其取值是整数值,可以一一列举。一列举。23例:员工个人资料表姓名姓名性别性别年年龄龄身高身高(m)(m)体体重重(kg(kg)民民族族公司公司服务服务年限年限受教受教育年育年限限甲甲男男 33331.851.856565汉汉 331818乙乙女女 252
16、51.651.655555回回 221616丙丙男男 26261.721.726060满满 111515丁丁女女 35351.601.605353回回 441616戊戊男男 32321.831.836868汉汉 22191924变量的测度等级n n 变量的测度等级:量化程度n n 变量的测度等级直接关系到数据分析方法的选择。n n 常用的划分为四种名义测度(名义测度(Nominal Nominal)有序测度(有序测度(OrdinalOrdinal)间距测度(间距测度(IntervalInterval)比率测度(比率测度(RatioRatio)25名义测度(Nominal)n n 变量用多种状态
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 时代 挖掘 商务 智能 课件
限制150内