大数据时代的数据挖掘与商务智能13819.pptx
《大数据时代的数据挖掘与商务智能13819.pptx》由会员分享,可在线阅读,更多相关《大数据时代的数据挖掘与商务智能13819.pptx(239页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、大数据时代的数据挖掘与商务智能1第三部分第三部分基于统计的传统数据分析技术2数据分析基本概念n统计学简介统计学简介n测量与数据测量与数据n数据来源数据来源n数据的类型数据的类型n数据预处理技术数据预处理技术3统计数据分析方法统计数据分析方法n n描述统计描述统计n n推断统计推断统计n n常用统计分析软件常用统计分析软件4数学家的幽默n n统计学家调侃数学家:你们不是说若统计学家调侃数学家:你们不是说若且,则吗!那么想必你若且,则吗!那么想必你若喜欢一个女孩,那么这个女孩喜欢的男生喜欢一个女孩,那么这个女孩喜欢的男生你也喜欢吧?你也喜欢吧?n n数学家反问道:那么你把左手放到一锅一数学家反问道
2、:那么你把左手放到一锅一百度的开水中,右手放到一锅零度的冰水百度的开水中,右手放到一锅零度的冰水里想来也没事吧!因为它们平均不过是五里想来也没事吧!因为它们平均不过是五十度而已!十度而已!”5何为统计学?n n统计与数量有关,同时它已统计与数量有关,同时它已经渗透到社会经济活动和科经渗透到社会经济活动和科学研究的方方面面。那么究学研究的方方面面。那么究竟何为统计?统计是如何开竟何为统计?统计是如何开展研究的?作为一门科学的展研究的?作为一门科学的统计学与其他学科有何区别统计学与其他学科有何区别与联系?与联系?6统计(Statistics)的涵义n n统计是人们认识客观世界总体数量变动关统计是人
3、们认识客观世界总体数量变动关系和变动规律的活动的总称,是认识客观系和变动规律的活动的总称,是认识客观世界的有力工具。世界的有力工具。n n统计学是研究如何测定、收集、整理、归统计学是研究如何测定、收集、整理、归纳和分析反映客观现象总体数量的数据,纳和分析反映客观现象总体数量的数据,以便给出正确认识的以便给出正确认识的方法论科学方法论科学。7统计的研究对象的特点n n数量性。统计数据是客观事物量的反映。数量性。统计数据是客观事物量的反映。n n总体性。统计的数量研究是对现象总体总体性。统计的数量研究是对现象总体中各单位普遍存在的事实进行大量观察中各单位普遍存在的事实进行大量观察和综合分析。和综合
4、分析。n n变异性。总体各单位的特征表现存在着变异性。总体各单位的特征表现存在着差异,而且这些差异并不是事先可以预差异,而且这些差异并不是事先可以预知的。知的。8统计研究的基本环节统计设计统计设计收集数据收集数据整理与分析整理与分析资料积累资料积累开发应用开发应用统计学理统计学理论与相关论与相关实质性学实质性学科理论科理论描述统计描述统计推断统计推断统计统计调查、统计调查、实验实验9统计设计n n根据所要研究问题的性质,在有关学科理论的根据所要研究问题的性质,在有关学科理论的根据所要研究问题的性质,在有关学科理论的根据所要研究问题的性质,在有关学科理论的指导下,制定统计指标、指标体系和统计分类
5、,指导下,制定统计指标、指标体系和统计分类,指导下,制定统计指标、指标体系和统计分类,指导下,制定统计指标、指标体系和统计分类,给出统一的定义、标准。同时提出收集、整理给出统一的定义、标准。同时提出收集、整理给出统一的定义、标准。同时提出收集、整理给出统一的定义、标准。同时提出收集、整理和分析数据的方案和工作进度等。和分析数据的方案和工作进度等。和分析数据的方案和工作进度等。和分析数据的方案和工作进度等。n n搞好统计设计不仅要有统计学的一般理论和方搞好统计设计不仅要有统计学的一般理论和方搞好统计设计不仅要有统计学的一般理论和方搞好统计设计不仅要有统计学的一般理论和方法为指导,而且还要求设计者
6、对所要研究的问法为指导,而且还要求设计者对所要研究的问法为指导,而且还要求设计者对所要研究的问法为指导,而且还要求设计者对所要研究的问题本身具有深刻的认识和相关的学科知识。题本身具有深刻的认识和相关的学科知识。题本身具有深刻的认识和相关的学科知识。题本身具有深刻的认识和相关的学科知识。10收集数据n n统计数据的收集有两种基本方法。统计数据的收集有两种基本方法。统计数据的收集有两种基本方法。统计数据的收集有两种基本方法。n n对于大多数自然科学和工程技术研究来说,有对于大多数自然科学和工程技术研究来说,有对于大多数自然科学和工程技术研究来说,有对于大多数自然科学和工程技术研究来说,有可能通过有
7、控制的科学实验去取得数据,这时可能通过有控制的科学实验去取得数据,这时可能通过有控制的科学实验去取得数据,这时可能通过有控制的科学实验去取得数据,这时可以采用实验法。可以采用实验法。可以采用实验法。可以采用实验法。n n对于社会经济现象来说,一般无法进行重复实对于社会经济现象来说,一般无法进行重复实对于社会经济现象来说,一般无法进行重复实对于社会经济现象来说,一般无法进行重复实验,要取得有关数据就必须进行调查观察。验,要取得有关数据就必须进行调查观察。验,要取得有关数据就必须进行调查观察。验,要取得有关数据就必须进行调查观察。n n海量数据的积累!海量数据的积累!海量数据的积累!海量数据的积累
8、!11整理与分析n n描述统计描述统计描述统计描述统计是指对采集的数据进行登记、审核、是指对采集的数据进行登记、审核、是指对采集的数据进行登记、审核、是指对采集的数据进行登记、审核、整理、归类,在此基础上进一步计算出各种能整理、归类,在此基础上进一步计算出各种能整理、归类,在此基础上进一步计算出各种能整理、归类,在此基础上进一步计算出各种能反映总体数量特征的综合指标,并用图表的形反映总体数量特征的综合指标,并用图表的形反映总体数量特征的综合指标,并用图表的形反映总体数量特征的综合指标,并用图表的形式表示经过归纳分析而得到的各种有用的统计式表示经过归纳分析而得到的各种有用的统计式表示经过归纳分析
9、而得到的各种有用的统计式表示经过归纳分析而得到的各种有用的统计信息。信息。信息。信息。n n推断统计推断统计推断统计推断统计是在对样本数据进行描述的基础上,是在对样本数据进行描述的基础上,是在对样本数据进行描述的基础上,是在对样本数据进行描述的基础上,利用一定的方法根据样本数据去估计或检验总利用一定的方法根据样本数据去估计或检验总利用一定的方法根据样本数据去估计或检验总利用一定的方法根据样本数据去估计或检验总体的数量特征。推断统计是现代统计学的主要体的数量特征。推断统计是现代统计学的主要体的数量特征。推断统计是现代统计学的主要体的数量特征。推断统计是现代统计学的主要内容。内容。内容。内容。12
10、统计资料的积累、开发与应用n n对于已经公布的统计资料需要加以积累,同时对于已经公布的统计资料需要加以积累,同时对于已经公布的统计资料需要加以积累,同时对于已经公布的统计资料需要加以积累,同时还可以进行进一步的加工,结合相关的实质性还可以进行进一步的加工,结合相关的实质性还可以进行进一步的加工,结合相关的实质性还可以进行进一步的加工,结合相关的实质性学科的理论知识去进行分析和利用。学科的理论知识去进行分析和利用。学科的理论知识去进行分析和利用。学科的理论知识去进行分析和利用。n n如何更好地将统计数据和统计方法应用于各自如何更好地将统计数据和统计方法应用于各自如何更好地将统计数据和统计方法应用
11、于各自如何更好地将统计数据和统计方法应用于各自的研究领域是应用统计学研究的一个重要方面。的研究领域是应用统计学研究的一个重要方面。的研究领域是应用统计学研究的一个重要方面。的研究领域是应用统计学研究的一个重要方面。13统计学的流派n n政治算术学派政治算术学派n n国势学派国势学派n n社会统计学派社会统计学派n n数理统计学派数理统计学派n n理论统计学理论统计学n n应用统计学应用统计学14政治算术学派与国势学派n n政治算术学派。最早的统计学源于政治算术学派。最早的统计学源于政治算术学派。最早的统计学源于政治算术学派。最早的统计学源于17171717世纪英国。世纪英国。世纪英国。世纪英国
12、。其代表人物是威廉配第其代表人物是威廉配第其代表人物是威廉配第其代表人物是威廉配第(William Patty(William Patty(William Patty(William Patty,16231623162316231687168716871687年年年年)。政治算术学派主张用大量观察。政治算术学派主张用大量观察。政治算术学派主张用大量观察。政治算术学派主张用大量观察和和和和数量分析数量分析数量分析数量分析等方法对社会经济现象进行研究的等方法对社会经济现象进行研究的等方法对社会经济现象进行研究的等方法对社会经济现象进行研究的主张,为统计学的发展开辟了广阔的前景。主张,为统计学的发展
13、开辟了广阔的前景。主张,为统计学的发展开辟了广阔的前景。主张,为统计学的发展开辟了广阔的前景。n n国势学派。最早使用国势学派。最早使用国势学派。最早使用国势学派。最早使用“统计学统计学统计学统计学”这一术语的是这一术语的是这一术语的是这一术语的是德国国势学派。国势学派虽然创造了统计学这德国国势学派。国势学派虽然创造了统计学这德国国势学派。国势学派虽然创造了统计学这德国国势学派。国势学派虽然创造了统计学这一名词,但他们主要一名词,但他们主要一名词,但他们主要一名词,但他们主要使用文字记述方法使用文字记述方法使用文字记述方法使用文字记述方法对国情对国情对国情对国情国力进行研究,其学科内容与现代统
14、计学有较国力进行研究,其学科内容与现代统计学有较国力进行研究,其学科内容与现代统计学有较国力进行研究,其学科内容与现代统计学有较大差别。大差别。大差别。大差别。15社会统计学派n n1850185018501850年,德国的统计学家克尼斯年,德国的统计学家克尼斯年,德国的统计学家克尼斯年,德国的统计学家克尼斯(K.G.A.knies)(K.G.A.knies)(K.G.A.knies)(K.G.A.knies)发发发发表了题为表了题为表了题为表了题为独立科学的统计学独立科学的统计学独立科学的统计学独立科学的统计学的论文,提出统计的论文,提出统计的论文,提出统计的论文,提出统计学是一门独立的社会
15、科学,是一门对社会经济现象学是一门独立的社会科学,是一门对社会经济现象学是一门独立的社会科学,是一门对社会经济现象学是一门独立的社会科学,是一门对社会经济现象进行数量对比分析的科学。进行数量对比分析的科学。进行数量对比分析的科学。进行数量对比分析的科学。n n各国学者在社会经济统计指标的设定与计算、指数各国学者在社会经济统计指标的设定与计算、指数各国学者在社会经济统计指标的设定与计算、指数各国学者在社会经济统计指标的设定与计算、指数的编制、资料的收集与整理、统计调查的组织和实的编制、资料的收集与整理、统计调查的组织和实的编制、资料的收集与整理、统计调查的组织和实的编制、资料的收集与整理、统计调
16、查的组织和实施、经济社会的数量分析和预测等方面做出的贡献施、经济社会的数量分析和预测等方面做出的贡献施、经济社会的数量分析和预测等方面做出的贡献施、经济社会的数量分析和预测等方面做出的贡献已成为现代统计学的重要组成部分。已成为现代统计学的重要组成部分。已成为现代统计学的重要组成部分。已成为现代统计学的重要组成部分。n n例如,例如,例如,例如,“恩格尔系数恩格尔系数恩格尔系数恩格尔系数”,至今仍为人们广泛使用。,至今仍为人们广泛使用。,至今仍为人们广泛使用。,至今仍为人们广泛使用。国内生产总值国内生产总值国内生产总值国内生产总值(GDP)(GDP)(GDP)(GDP)的核算方法被称为的核算方法
17、被称为的核算方法被称为的核算方法被称为“20202020世纪最世纪最世纪最世纪最伟大的发明之一。伟大的发明之一。伟大的发明之一。伟大的发明之一。”16数理统计学派n n认为统计学是一门通用的方法论科学。创始人是比利认为统计学是一门通用的方法论科学。创始人是比利认为统计学是一门通用的方法论科学。创始人是比利认为统计学是一门通用的方法论科学。创始人是比利时统计学家凯特勒时统计学家凯特勒时统计学家凯特勒时统计学家凯特勒(Adolphe Quetelet(Adolphe Quetelet(Adolphe Quetelet(Adolphe Quetelet,17961796179617961874187
18、418741874年年年年)。他所著的代表作。他所著的代表作。他所著的代表作。他所著的代表作社会物理学社会物理学社会物理学社会物理学等将概率论和统计等将概率论和统计等将概率论和统计等将概率论和统计方法引入社会经济方面的研究。方法引入社会经济方面的研究。方法引入社会经济方面的研究。方法引入社会经济方面的研究。n n从从从从19191919世纪中叶到世纪中叶到世纪中叶到世纪中叶到20202020世纪中叶,数理统计学得到迅速发世纪中叶,数理统计学得到迅速发世纪中叶,数理统计学得到迅速发世纪中叶,数理统计学得到迅速发展。展。展。展。英国生物学家高尔顿提出并阐述了英国生物学家高尔顿提出并阐述了英国生物学
19、家高尔顿提出并阐述了英国生物学家高尔顿提出并阐述了“相关相关相关相关”的概念;的概念;的概念;的概念;皮尔逊提出了计算复相关和偏相关的方法。皮尔逊提出了计算复相关和偏相关的方法。皮尔逊提出了计算复相关和偏相关的方法。皮尔逊提出了计算复相关和偏相关的方法。戈塞特建立了戈塞特建立了戈塞特建立了戈塞特建立了“小样本理论小样本理论小样本理论小样本理论”,即所谓的,即所谓的,即所谓的,即所谓的“t t t t分布分布分布分布”;费歇尔样本相关系数的分布、方差分析、实验设计等方面的费歇尔样本相关系数的分布、方差分析、实验设计等方面的费歇尔样本相关系数的分布、方差分析、实验设计等方面的费歇尔样本相关系数的分
20、布、方差分析、实验设计等方面的研究中做出了重要贡献。研究中做出了重要贡献。研究中做出了重要贡献。研究中做出了重要贡献。到到到到20202020世纪中期,数理统计学的基本框架已经形成。数理统计世纪中期,数理统计学的基本框架已经形成。数理统计世纪中期,数理统计学的基本框架已经形成。数理统计世纪中期,数理统计学的基本框架已经形成。数理统计学派成为英美等国统计学界的主流。学派成为英美等国统计学界的主流。学派成为英美等国统计学界的主流。学派成为英美等国统计学界的主流。17理论统计学和应用统计学n n历经历经历经历经300300300300多年的发展,统计学目前已经成为横多年的发展,统计学目前已经成为横多
21、年的发展,统计学目前已经成为横多年的发展,统计学目前已经成为横跨社会科学和自然科学领域的多科性的科学。跨社会科学和自然科学领域的多科性的科学。跨社会科学和自然科学领域的多科性的科学。跨社会科学和自然科学领域的多科性的科学。n n“统计学是有关如何测定、收集和分析反映客统计学是有关如何测定、收集和分析反映客统计学是有关如何测定、收集和分析反映客统计学是有关如何测定、收集和分析反映客观现象总体数量的数据,以便给出正确认识的观现象总体数量的数据,以便给出正确认识的观现象总体数量的数据,以便给出正确认识的观现象总体数量的数据,以便给出正确认识的方法论科学。方法论科学。方法论科学。方法论科学。”n n现
22、代统计学可以分为两大类:一类是以抽象的现代统计学可以分为两大类:一类是以抽象的现代统计学可以分为两大类:一类是以抽象的现代统计学可以分为两大类:一类是以抽象的数量为研究对象,研究一般的收集数据、整理数量为研究对象,研究一般的收集数据、整理数量为研究对象,研究一般的收集数据、整理数量为研究对象,研究一般的收集数据、整理数据和分析数据方法的数据和分析数据方法的数据和分析数据方法的数据和分析数据方法的理论统计学理论统计学理论统计学理论统计学。另一类是。另一类是。另一类是。另一类是以各个不同领域的具体数量为研究对象的以各个不同领域的具体数量为研究对象的以各个不同领域的具体数量为研究对象的以各个不同领域
23、的具体数量为研究对象的应用应用应用应用统计学统计学统计学统计学。18数学与统计学的联系n n数学与统计学都是研究数量规律的,都数学与统计学都是研究数量规律的,都要利用各种公式进行运算。要利用各种公式进行运算。n n数学中的概率论,为统计学提供了数量数学中的概率论,为统计学提供了数量分析的理论基础。统计学中的理论统计分析的理论基础。统计学中的理论统计学以抽象的数量为研究对象,其大部分学以抽象的数量为研究对象,其大部分内容也可以看作是数学的分支。内容也可以看作是数学的分支。19统计学与数学的区别n n从研究对象看,数学以最一般的形式研究数量从研究对象看,数学以最一般的形式研究数量从研究对象看,数学
24、以最一般的形式研究数量从研究对象看,数学以最一般的形式研究数量的联系和空间形式。统计学特别是应用统计学的联系和空间形式。统计学特别是应用统计学的联系和空间形式。统计学特别是应用统计学的联系和空间形式。统计学特别是应用统计学则总是与客观的对象联系在一起的。则总是与客观的对象联系在一起的。则总是与客观的对象联系在一起的。则总是与客观的对象联系在一起的。n n从研究方法看,数学主要是逻辑推理和演绎论从研究方法看,数学主要是逻辑推理和演绎论从研究方法看,数学主要是逻辑推理和演绎论从研究方法看,数学主要是逻辑推理和演绎论证的方法。而统计本质上是证的方法。而统计本质上是证的方法。而统计本质上是证的方法。而
25、统计本质上是归纳归纳归纳归纳的方法。统计的方法。统计的方法。统计的方法。统计学家特别是应用统计学家需要深入实际,进行学家特别是应用统计学家需要深入实际,进行学家特别是应用统计学家需要深入实际,进行学家特别是应用统计学家需要深入实际,进行调查或实验去取得数据,研究时不仅要运用统调查或实验去取得数据,研究时不仅要运用统调查或实验去取得数据,研究时不仅要运用统调查或实验去取得数据,研究时不仅要运用统计的方法,而且还要掌握某一专门领域的知识。计的方法,而且还要掌握某一专门领域的知识。计的方法,而且还要掌握某一专门领域的知识。计的方法,而且还要掌握某一专门领域的知识。20测量与数据n n数据是通过把感兴
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 时代 挖掘 商务 智能 13819
限制150内