欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    大数据时代的数据挖掘与商务智能(三)13817.pptx

    • 资源ID:87072113       资源大小:2.07MB        全文页数:239页
    • 资源格式: PPTX        下载积分:20金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要20金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    大数据时代的数据挖掘与商务智能(三)13817.pptx

    大数据时代的数据挖掘与商务智能1第三部分第三部分基于统计的传统数据分析技术2数据分析基本概念n统计学简介统计学简介n测量与数据测量与数据n数据来源数据来源n数据的类型数据的类型n数据预处理技术数据预处理技术3统计数据分析方法统计数据分析方法n n描述统计描述统计n n推断统计推断统计n n常用统计分析软件常用统计分析软件4数学家的幽默n n统计学家调侃数学家:你们不是说若统计学家调侃数学家:你们不是说若且,则吗!那么想必你若且,则吗!那么想必你若喜欢一个女孩,那么这个女孩喜欢的男生喜欢一个女孩,那么这个女孩喜欢的男生你也喜欢吧?你也喜欢吧?n n数学家反问道:那么你把左手放到一锅一数学家反问道:那么你把左手放到一锅一百度的开水中,右手放到一锅零度的冰水百度的开水中,右手放到一锅零度的冰水里想来也没事吧!因为它们平均不过是五里想来也没事吧!因为它们平均不过是五十度而已!十度而已!”5何为统计学?n n统计与数量有关,同时它已统计与数量有关,同时它已经渗透到社会经济活动和科经渗透到社会经济活动和科学研究的方方面面。那么究学研究的方方面面。那么究竟何为统计?统计是如何开竟何为统计?统计是如何开展研究的?作为一门科学的展研究的?作为一门科学的统计学与其他学科有何区别统计学与其他学科有何区别与联系?与联系?6统计(Statistics)的涵义n n统计是人们认识客观世界总体数量变动关统计是人们认识客观世界总体数量变动关系和变动规律的活动的总称,是认识客观系和变动规律的活动的总称,是认识客观世界的有力工具。世界的有力工具。n n统计学是研究如何测定、收集、整理、归统计学是研究如何测定、收集、整理、归纳和分析反映客观现象总体数量的数据,纳和分析反映客观现象总体数量的数据,以便给出正确认识的以便给出正确认识的方法论科学方法论科学。7统计的研究对象的特点n n数量性。统计数据是客观事物量的反映。数量性。统计数据是客观事物量的反映。n n总体性。统计的数量研究是对现象总体总体性。统计的数量研究是对现象总体中各单位普遍存在的事实进行大量观察中各单位普遍存在的事实进行大量观察和综合分析。和综合分析。n n变异性。总体各单位的特征表现存在着变异性。总体各单位的特征表现存在着差异,而且这些差异并不是事先可以预差异,而且这些差异并不是事先可以预知的。知的。8统计研究的基本环节9统计设计统计设计收集数据收集数据整理与分析整理与分析资料积累资料积累开发应用开发应用统计学理统计学理论与相关论与相关实质性学实质性学科理论科理论描述统计描述统计推断统计推断统计统计调查、统计调查、实验实验统计设计n n根据所要研究问题的性质,在有关学科理论的根据所要研究问题的性质,在有关学科理论的根据所要研究问题的性质,在有关学科理论的根据所要研究问题的性质,在有关学科理论的指导下,制定统计指标、指标体系和统计分类,指导下,制定统计指标、指标体系和统计分类,指导下,制定统计指标、指标体系和统计分类,指导下,制定统计指标、指标体系和统计分类,给出统一的定义、标准。同时提出收集、整理给出统一的定义、标准。同时提出收集、整理给出统一的定义、标准。同时提出收集、整理给出统一的定义、标准。同时提出收集、整理和分析数据的方案和工作进度等。和分析数据的方案和工作进度等。和分析数据的方案和工作进度等。和分析数据的方案和工作进度等。n n搞好统计设计不仅要有统计学的一般理论和方搞好统计设计不仅要有统计学的一般理论和方搞好统计设计不仅要有统计学的一般理论和方搞好统计设计不仅要有统计学的一般理论和方法为指导,而且还要求设计者对所要研究的问法为指导,而且还要求设计者对所要研究的问法为指导,而且还要求设计者对所要研究的问法为指导,而且还要求设计者对所要研究的问题本身具有深刻的认识和相关的学科知识。题本身具有深刻的认识和相关的学科知识。题本身具有深刻的认识和相关的学科知识。题本身具有深刻的认识和相关的学科知识。10收集数据n n统计数据的收集有两种基本方法。统计数据的收集有两种基本方法。统计数据的收集有两种基本方法。统计数据的收集有两种基本方法。n n对于大多数自然科学和工程技术研究来说,有对于大多数自然科学和工程技术研究来说,有对于大多数自然科学和工程技术研究来说,有对于大多数自然科学和工程技术研究来说,有可能通过有控制的科学实验去取得数据,这时可能通过有控制的科学实验去取得数据,这时可能通过有控制的科学实验去取得数据,这时可能通过有控制的科学实验去取得数据,这时可以采用实验法。可以采用实验法。可以采用实验法。可以采用实验法。n n对于社会经济现象来说,一般无法进行重复实对于社会经济现象来说,一般无法进行重复实对于社会经济现象来说,一般无法进行重复实对于社会经济现象来说,一般无法进行重复实验,要取得有关数据就必须进行调查观察。验,要取得有关数据就必须进行调查观察。验,要取得有关数据就必须进行调查观察。验,要取得有关数据就必须进行调查观察。n n海量数据的积累!海量数据的积累!海量数据的积累!海量数据的积累!11整理与分析n n描述统计描述统计描述统计描述统计是指对采集的数据进行登记、审核、是指对采集的数据进行登记、审核、是指对采集的数据进行登记、审核、是指对采集的数据进行登记、审核、整理、归类,在此基础上进一步计算出各种能整理、归类,在此基础上进一步计算出各种能整理、归类,在此基础上进一步计算出各种能整理、归类,在此基础上进一步计算出各种能反映总体数量特征的综合指标,并用图表的形反映总体数量特征的综合指标,并用图表的形反映总体数量特征的综合指标,并用图表的形反映总体数量特征的综合指标,并用图表的形式表示经过归纳分析而得到的各种有用的统计式表示经过归纳分析而得到的各种有用的统计式表示经过归纳分析而得到的各种有用的统计式表示经过归纳分析而得到的各种有用的统计信息。信息。信息。信息。n n推断统计推断统计推断统计推断统计是在对样本数据进行描述的基础上,是在对样本数据进行描述的基础上,是在对样本数据进行描述的基础上,是在对样本数据进行描述的基础上,利用一定的方法根据样本数据去估计或检验总利用一定的方法根据样本数据去估计或检验总利用一定的方法根据样本数据去估计或检验总利用一定的方法根据样本数据去估计或检验总体的数量特征。推断统计是现代统计学的主要体的数量特征。推断统计是现代统计学的主要体的数量特征。推断统计是现代统计学的主要体的数量特征。推断统计是现代统计学的主要内容。内容。内容。内容。12统计资料的积累、开发与应用n n对于已经公布的统计资料需要加以积累,同时对于已经公布的统计资料需要加以积累,同时对于已经公布的统计资料需要加以积累,同时对于已经公布的统计资料需要加以积累,同时还可以进行进一步的加工,结合相关的实质性还可以进行进一步的加工,结合相关的实质性还可以进行进一步的加工,结合相关的实质性还可以进行进一步的加工,结合相关的实质性学科的理论知识去进行分析和利用。学科的理论知识去进行分析和利用。学科的理论知识去进行分析和利用。学科的理论知识去进行分析和利用。n n如何更好地将统计数据和统计方法应用于各自如何更好地将统计数据和统计方法应用于各自如何更好地将统计数据和统计方法应用于各自如何更好地将统计数据和统计方法应用于各自的研究领域是应用统计学研究的一个重要方面。的研究领域是应用统计学研究的一个重要方面。的研究领域是应用统计学研究的一个重要方面。的研究领域是应用统计学研究的一个重要方面。13统计学的流派n n政治算术学派政治算术学派n n国势学派国势学派n n社会统计学派社会统计学派n n数理统计学派数理统计学派n n理论统计学理论统计学n n应用统计学应用统计学14政治算术学派与国势学派n n政治算术学派。最早的统计学源于政治算术学派。最早的统计学源于政治算术学派。最早的统计学源于政治算术学派。最早的统计学源于17171717世纪英国。世纪英国。世纪英国。世纪英国。其代表人物是威廉配第其代表人物是威廉配第其代表人物是威廉配第其代表人物是威廉配第(William Patty(William Patty(William Patty(William Patty,16231623162316231687168716871687年年年年)。政治算术学派主张用大量观察。政治算术学派主张用大量观察。政治算术学派主张用大量观察。政治算术学派主张用大量观察和和和和数量分析数量分析数量分析数量分析等方法对社会经济现象进行研究的等方法对社会经济现象进行研究的等方法对社会经济现象进行研究的等方法对社会经济现象进行研究的主张,为统计学的发展开辟了广阔的前景。主张,为统计学的发展开辟了广阔的前景。主张,为统计学的发展开辟了广阔的前景。主张,为统计学的发展开辟了广阔的前景。n n国势学派。最早使用国势学派。最早使用国势学派。最早使用国势学派。最早使用“统计学统计学统计学统计学”这一术语的是这一术语的是这一术语的是这一术语的是德国国势学派。国势学派虽然创造了统计学这德国国势学派。国势学派虽然创造了统计学这德国国势学派。国势学派虽然创造了统计学这德国国势学派。国势学派虽然创造了统计学这一名词,但他们主要一名词,但他们主要一名词,但他们主要一名词,但他们主要使用文字记述方法使用文字记述方法使用文字记述方法使用文字记述方法对国情对国情对国情对国情国力进行研究,其学科内容与现代统计学有较国力进行研究,其学科内容与现代统计学有较国力进行研究,其学科内容与现代统计学有较国力进行研究,其学科内容与现代统计学有较大差别。大差别。大差别。大差别。15社会统计学派n n1850185018501850年,德国的统计学家克尼斯年,德国的统计学家克尼斯年,德国的统计学家克尼斯年,德国的统计学家克尼斯(K.G.A.knies)(K.G.A.knies)(K.G.A.knies)(K.G.A.knies)发发发发表了题为表了题为表了题为表了题为独立科学的统计学独立科学的统计学独立科学的统计学独立科学的统计学的论文,提出统计的论文,提出统计的论文,提出统计的论文,提出统计学是一门独立的社会科学,是一门对社会经济现象学是一门独立的社会科学,是一门对社会经济现象学是一门独立的社会科学,是一门对社会经济现象学是一门独立的社会科学,是一门对社会经济现象进行数量对比分析的科学。进行数量对比分析的科学。进行数量对比分析的科学。进行数量对比分析的科学。n n各国学者在社会经济统计指标的设定与计算、指数各国学者在社会经济统计指标的设定与计算、指数各国学者在社会经济统计指标的设定与计算、指数各国学者在社会经济统计指标的设定与计算、指数的编制、资料的收集与整理、统计调查的组织和实的编制、资料的收集与整理、统计调查的组织和实的编制、资料的收集与整理、统计调查的组织和实的编制、资料的收集与整理、统计调查的组织和实施、经济社会的数量分析和预测等方面做出的贡献施、经济社会的数量分析和预测等方面做出的贡献施、经济社会的数量分析和预测等方面做出的贡献施、经济社会的数量分析和预测等方面做出的贡献已成为现代统计学的重要组成部分。已成为现代统计学的重要组成部分。已成为现代统计学的重要组成部分。已成为现代统计学的重要组成部分。n n例如,例如,例如,例如,“恩格尔系数恩格尔系数恩格尔系数恩格尔系数”,至今仍为人们广泛使用。,至今仍为人们广泛使用。,至今仍为人们广泛使用。,至今仍为人们广泛使用。国内生产总值国内生产总值国内生产总值国内生产总值(GDP)(GDP)(GDP)(GDP)的核算方法被称为的核算方法被称为的核算方法被称为的核算方法被称为“20202020世纪最世纪最世纪最世纪最伟大的发明之一。伟大的发明之一。伟大的发明之一。伟大的发明之一。”16数理统计学派n n认为统计学是一门通用的方法论科学。创始人是比利认为统计学是一门通用的方法论科学。创始人是比利认为统计学是一门通用的方法论科学。创始人是比利认为统计学是一门通用的方法论科学。创始人是比利时统计学家凯特勒时统计学家凯特勒时统计学家凯特勒时统计学家凯特勒(Adolphe Quetelet(Adolphe Quetelet(Adolphe Quetelet(Adolphe Quetelet,17961796179617961874187418741874年年年年)。他所著的代表作。他所著的代表作。他所著的代表作。他所著的代表作社会物理学社会物理学社会物理学社会物理学等将概率论和统计等将概率论和统计等将概率论和统计等将概率论和统计方法引入社会经济方面的研究。方法引入社会经济方面的研究。方法引入社会经济方面的研究。方法引入社会经济方面的研究。n n从从从从19191919世纪中叶到世纪中叶到世纪中叶到世纪中叶到20202020世纪中叶,数理统计学得到迅速发世纪中叶,数理统计学得到迅速发世纪中叶,数理统计学得到迅速发世纪中叶,数理统计学得到迅速发展。展。展。展。英国生物学家高尔顿提出并阐述了英国生物学家高尔顿提出并阐述了英国生物学家高尔顿提出并阐述了英国生物学家高尔顿提出并阐述了“相关相关相关相关”的概念;的概念;的概念;的概念;皮尔逊提出了计算复相关和偏相关的方法。皮尔逊提出了计算复相关和偏相关的方法。皮尔逊提出了计算复相关和偏相关的方法。皮尔逊提出了计算复相关和偏相关的方法。戈塞特建立了戈塞特建立了戈塞特建立了戈塞特建立了“小样本理论小样本理论小样本理论小样本理论”,即所谓的,即所谓的,即所谓的,即所谓的“t t t t分布分布分布分布”;费歇尔样本相关系数的分布、方差分析、实验设计等方面的费歇尔样本相关系数的分布、方差分析、实验设计等方面的费歇尔样本相关系数的分布、方差分析、实验设计等方面的费歇尔样本相关系数的分布、方差分析、实验设计等方面的研究中做出了重要贡献。研究中做出了重要贡献。研究中做出了重要贡献。研究中做出了重要贡献。到到到到20202020世纪中期,数理统计学的基本框架已经形成。数理统计世纪中期,数理统计学的基本框架已经形成。数理统计世纪中期,数理统计学的基本框架已经形成。数理统计世纪中期,数理统计学的基本框架已经形成。数理统计学派成为英美等国统计学界的主流。学派成为英美等国统计学界的主流。学派成为英美等国统计学界的主流。学派成为英美等国统计学界的主流。17理论统计学和应用统计学n n历经历经历经历经300300300300多年的发展,统计学目前已经成为横多年的发展,统计学目前已经成为横多年的发展,统计学目前已经成为横多年的发展,统计学目前已经成为横跨社会科学和自然科学领域的多科性的科学。跨社会科学和自然科学领域的多科性的科学。跨社会科学和自然科学领域的多科性的科学。跨社会科学和自然科学领域的多科性的科学。n n“统计学是有关如何测定、收集和分析反映客统计学是有关如何测定、收集和分析反映客统计学是有关如何测定、收集和分析反映客统计学是有关如何测定、收集和分析反映客观现象总体数量的数据,以便给出正确认识的观现象总体数量的数据,以便给出正确认识的观现象总体数量的数据,以便给出正确认识的观现象总体数量的数据,以便给出正确认识的方法论科学。方法论科学。方法论科学。方法论科学。”n n现代统计学可以分为两大类:一类是以抽象的现代统计学可以分为两大类:一类是以抽象的现代统计学可以分为两大类:一类是以抽象的现代统计学可以分为两大类:一类是以抽象的数量为研究对象,研究一般的收集数据、整理数量为研究对象,研究一般的收集数据、整理数量为研究对象,研究一般的收集数据、整理数量为研究对象,研究一般的收集数据、整理数据和分析数据方法的数据和分析数据方法的数据和分析数据方法的数据和分析数据方法的理论统计学理论统计学理论统计学理论统计学。另一类是。另一类是。另一类是。另一类是以各个不同领域的具体数量为研究对象的以各个不同领域的具体数量为研究对象的以各个不同领域的具体数量为研究对象的以各个不同领域的具体数量为研究对象的应用应用应用应用统计学统计学统计学统计学。18数学与统计学的联系n n数学与统计学都是研究数量规律的,都数学与统计学都是研究数量规律的,都要利用各种公式进行运算。要利用各种公式进行运算。n n数学中的概率论,为统计学提供了数量数学中的概率论,为统计学提供了数量分析的理论基础。统计学中的理论统计分析的理论基础。统计学中的理论统计学以抽象的数量为研究对象,其大部分学以抽象的数量为研究对象,其大部分内容也可以看作是数学的分支。内容也可以看作是数学的分支。19统计学与数学的区别n n从研究对象看,数学以最一般的形式研究数量从研究对象看,数学以最一般的形式研究数量从研究对象看,数学以最一般的形式研究数量从研究对象看,数学以最一般的形式研究数量的联系和空间形式。统计学特别是应用统计学的联系和空间形式。统计学特别是应用统计学的联系和空间形式。统计学特别是应用统计学的联系和空间形式。统计学特别是应用统计学则总是与客观的对象联系在一起的。则总是与客观的对象联系在一起的。则总是与客观的对象联系在一起的。则总是与客观的对象联系在一起的。n n从研究方法看,数学主要是逻辑推理和演绎论从研究方法看,数学主要是逻辑推理和演绎论从研究方法看,数学主要是逻辑推理和演绎论从研究方法看,数学主要是逻辑推理和演绎论证的方法。而统计本质上是证的方法。而统计本质上是证的方法。而统计本质上是证的方法。而统计本质上是归纳归纳归纳归纳的方法。统计的方法。统计的方法。统计的方法。统计学家特别是应用统计学家需要深入实际,进行学家特别是应用统计学家需要深入实际,进行学家特别是应用统计学家需要深入实际,进行学家特别是应用统计学家需要深入实际,进行调查或实验去取得数据,研究时不仅要运用统调查或实验去取得数据,研究时不仅要运用统调查或实验去取得数据,研究时不仅要运用统调查或实验去取得数据,研究时不仅要运用统计的方法,而且还要掌握某一专门领域的知识。计的方法,而且还要掌握某一专门领域的知识。计的方法,而且还要掌握某一专门领域的知识。计的方法,而且还要掌握某一专门领域的知识。20测量与数据n n数据是通过把感兴趣领域里的实体以某数据是通过把感兴趣领域里的实体以某种种测量过程测量过程映射到符号表示得到的。映射到符号表示得到的。n n测量就是把实体的一个给定属性与一个测量就是把实体的一个给定属性与一个变量值联系起来。变量值联系起来。21属性(变量)属性(变量):重重量量属性(变量)值:属性(变量)值:2kg 测量测量统计数据22基基本本构构成成要要素素实体实体(ElementElement)变量(变量(VariableVariable)观测(观测(ObservationObservation)关于实体的一关于实体的一种属性或特征种属性或特征研究对象由各研究对象由各实体组成实体组成关于某一实体关于某一实体所有各变量的所有各变量的信息信息变量与变量值n n说明现象的某一数量特征的概念也被称为变量,说明现象的某一数量特征的概念也被称为变量,说明现象的某一数量特征的概念也被称为变量,说明现象的某一数量特征的概念也被称为变量,变量的具体取值是变量值,统计数据就是统计变变量的具体取值是变量值,统计数据就是统计变变量的具体取值是变量值,统计数据就是统计变变量的具体取值是变量值,统计数据就是统计变量的具体表现。量的具体表现。量的具体表现。量的具体表现。n n连续型变量是指变量的取值在数轴上连续不断,连续型变量是指变量的取值在数轴上连续不断,连续型变量是指变量的取值在数轴上连续不断,连续型变量是指变量的取值在数轴上连续不断,无法一一列举,即在一个区间内可以取任意实数无法一一列举,即在一个区间内可以取任意实数无法一一列举,即在一个区间内可以取任意实数无法一一列举,即在一个区间内可以取任意实数值。值。值。值。n n离散型变量是指变量的其取值是整数值,可以一离散型变量是指变量的其取值是整数值,可以一离散型变量是指变量的其取值是整数值,可以一离散型变量是指变量的其取值是整数值,可以一一列举。一列举。一列举。一列举。23例:员工个人资料表姓名姓名姓名姓名 性别性别性别性别年年年年龄龄龄龄身高身高身高身高(m)(m)体体体体重重重重(kg(kg)民民民民族族族族公司公司公司公司服务服务服务服务年限年限年限年限受教受教受教受教育年育年育年育年限限限限甲甲甲甲男男男男33331.851.856565汉汉汉汉3 31818乙乙乙乙女女女女25251.651.655555回回回回2 21616丙丙丙丙男男男男26261.721.726060满满满满1 11515丁丁丁丁女女女女35351.601.605353回回回回4 41616戊戊戊戊男男男男32321.831.836868汉汉汉汉2 2191924变量的测度等级n n变量的测度等级:量化程度变量的测度等级:量化程度n n变量的测度等级直接关系到数据分析方变量的测度等级直接关系到数据分析方法的选择。法的选择。n n常用的划分为四种常用的划分为四种名义测度(名义测度(名义测度(名义测度(Nominal Nominal Nominal Nominal)有序测度(有序测度(有序测度(有序测度(OrdinalOrdinalOrdinalOrdinal)间距测度(间距测度(间距测度(间距测度(IntervalIntervalIntervalInterval)比率测度(比率测度(比率测度(比率测度(RatioRatioRatioRatio)25名义测度(Nominal)n n变量用多种状态来表示,这些状态之间变量用多种状态来表示,这些状态之间既没有数量关系,也没有等级关系。既没有数量关系,也没有等级关系。n n例如,性别(男、女),颜色(红、黄、例如,性别(男、女),颜色(红、黄、蓝)蓝)n n可以用数字表示(编码),但数字只是可以用数字表示(编码),但数字只是用作标签。编码的数值之间不存在有实用作标签。编码的数值之间不存在有实际意义的量的关系。际意义的量的关系。26有序测度(Ordinal)n n有序测度量化水平高于名义测度有序测度量化水平高于名义测度n n变量编码不仅具有分类的作用,而且也变量编码不仅具有分类的作用,而且也存在量的关系(等级或次序关系)。存在量的关系(等级或次序关系)。n n例如,受教育程度(文盲半文盲例如,受教育程度(文盲半文盲1 1、小学、小学2 2、初中、初中3 3、高中、高中4 4、大学及以上、大学及以上5 5)n n编码的数值之间存在有实际意义的量的编码的数值之间存在有实际意义的量的关系,编码值可以应用于不等式计算。关系,编码值可以应用于不等式计算。27间距测度(Interval)n n变量取值不再是类的编码,而是采用一变量取值不再是类的编码,而是采用一定单位的实际测量值。可以度量两个不定单位的实际测量值。可以度量两个不同变量值之间的差异及大小。同变量值之间的差异及大小。n n例如,温度(例如,温度(5 5摄氏度,摄氏度,1010摄氏度)摄氏度)n n数值之间可以进行加法和减法,但不不数值之间可以进行加法和减法,但不不能进行乘除计算。因为这一测度等级的能进行乘除计算。因为这一测度等级的变量所取得的变量所取得的0 0值不是物理意义上的绝对值不是物理意义上的绝对0 0。28比率测度(Ratio)n n最高级的测度等级。最高级的测度等级。n n大多数物理量大多数物理量,例如质量例如质量,长度以及能长度以及能量都是比率测度量都是比率测度;华氏温度也是比率测华氏温度也是比率测度。度。n n可以进行各种运算。可以进行各种运算。n n较高等级的变量可以降级使用。较高等级的变量可以降级使用。29数据来源30总体和样本n n总体:又称母体,指所要研究对象的全总体:又称母体,指所要研究对象的全体,由许多客观存在的具有某种共同性体,由许多客观存在的具有某种共同性质的单位构成。总体单位数用质的单位构成。总体单位数用 N N 表示。表示。n n样本:又称子样,来自总体,是从总体样本:又称子样,来自总体,是从总体中按随机原则抽选出来的部分,由抽选中按随机原则抽选出来的部分,由抽选的单位构成。样本单位数(容量)用的单位构成。样本单位数(容量)用 n n 表示。表示。n n总体是唯一的、确定的,而样本是不确总体是唯一的、确定的,而样本是不确定的、可变的、随机的。定的、可变的、随机的。31总体参数和样本统计量n n总体参数:反映总体数量特征的指标。其数值是唯一总体参数:反映总体数量特征的指标。其数值是唯一总体参数:反映总体数量特征的指标。其数值是唯一总体参数:反映总体数量特征的指标。其数值是唯一的、确定的。的、确定的。的、确定的。的、确定的。n n样本统计量:根据样本分布计算的指标,是随机变量。样本统计量:根据样本分布计算的指标,是随机变量。样本统计量:根据样本分布计算的指标,是随机变量。样本统计量:根据样本分布计算的指标,是随机变量。32平均数平均数标准差、方差标准差、方差参数参数 、2统计量统计量S、S2 总体总体 样本样本数据的类型n n横截面数据又称为静态数据,它是指在同一时横截面数据又称为静态数据,它是指在同一时横截面数据又称为静态数据,它是指在同一时横截面数据又称为静态数据,它是指在同一时间对同一总体内不同单位的数量进行观察而获间对同一总体内不同单位的数量进行观察而获间对同一总体内不同单位的数量进行观察而获间对同一总体内不同单位的数量进行观察而获得的数据。得的数据。得的数据。得的数据。n n时间序列数据又称为动态数据,它是指在不同时间序列数据又称为动态数据,它是指在不同时间序列数据又称为动态数据,它是指在不同时间序列数据又称为动态数据,它是指在不同时间对同一总体的数量表现进行观察而获得的时间对同一总体的数量表现进行观察而获得的时间对同一总体的数量表现进行观察而获得的时间对同一总体的数量表现进行观察而获得的数据。数据。数据。数据。例如,例如,例如,例如,2008200820082008年全国各省市自治区的国内生产总值就年全国各省市自治区的国内生产总值就年全国各省市自治区的国内生产总值就年全国各省市自治区的国内生产总值就属于横截面数据。而属于横截面数据。而属于横截面数据。而属于横截面数据。而“十一五十一五十一五十一五”期间我国历年的国期间我国历年的国期间我国历年的国期间我国历年的国内生产总值就属于时间序列数据。内生产总值就属于时间序列数据。内生产总值就属于时间序列数据。内生产总值就属于时间序列数据。n n面板数据:横截面数据与时间序列数据交织在面板数据:横截面数据与时间序列数据交织在面板数据:横截面数据与时间序列数据交织在面板数据:横截面数据与时间序列数据交织在一起。一起。一起。一起。n n非结构化数据非结构化数据非结构化数据非结构化数据33面板数据n n所谓所谓“面板数据面板数据”也称为也称为“平行数据平行数据”,是指对不同时刻的截面个体作连续观,是指对不同时刻的截面个体作连续观测所得到的多维时间序列数据。测所得到的多维时间序列数据。n n例如,在研究生产成本与企业规模和技例如,在研究生产成本与企业规模和技术进步的关系时,选择不同规模企业在术进步的关系时,选择不同规模企业在不同时间上的数据作为样本观测值,这不同时间上的数据作为样本观测值,这些观测值数据就是面板数据。些观测值数据就是面板数据。34非结构化数据n n相对于结构化数据相对于结构化数据相对于结构化数据相对于结构化数据(即存储在数据库中,可以即存储在数据库中,可以即存储在数据库中,可以即存储在数据库中,可以用二维表结构来逻辑表达的数据用二维表结构来逻辑表达的数据用二维表结构来逻辑表达的数据用二维表结构来逻辑表达的数据)而言而言而言而言,不方便不方便不方便不方便用数据库二维表来表现的数据即称为非结构化用数据库二维表来表现的数据即称为非结构化用数据库二维表来表现的数据即称为非结构化用数据库二维表来表现的数据即称为非结构化数据。数据。数据。数据。n n包括所有格式的办公文档、文本、图片、各类包括所有格式的办公文档、文本、图片、各类包括所有格式的办公文档、文本、图片、各类包括所有格式的办公文档、文本、图片、各类报表、图像和音频报表、图像和音频报表、图像和音频报表、图像和音频/视频信息等等。视频信息等等。视频信息等等。视频信息等等。n n据调查,现在人们所使用的数据有据调查,现在人们所使用的数据有据调查,现在人们所使用的数据有据调查,现在人们所使用的数据有 80%80%80%80%是非结是非结是非结是非结构化的,而非结构化的数据又往往同结构化的构化的,而非结构化的数据又往往同结构化的构化的,而非结构化的数据又往往同结构化的构化的,而非结构化的数据又往往同结构化的数据结合在一起。数据结合在一起。数据结合在一起。数据结合在一起。35数据与模型的关系36数据数据1数据数据2数据数据n模型模型分析结分析结果果决策方决策方案案输入输入输出输出处理过程处理过程数据的质量 n n数据分析的有效性与数据质量密不可分。数据分析的有效性与数据质量密不可分。n nGIGOGIGOGarbage In,Garbage Out.Garbage In,Garbage Out.n n垃圾进,垃圾出。垃圾进,垃圾出。37数据的质量 n n数据分析研究的目的不同,对样本数据数据分析研究的目的不同,对样本数据要求也不同。选择样本数据,除了考虑要求也不同。选择样本数据,除了考虑数据的可得性之外,还必须考虑数据的数据的可得性之外,还必须考虑数据的可用性。可用性。n n为保证分析结论的可靠性,应从完整性、为保证分析结论的可靠性,应从完整性、准确性、可比性和一致性等方面对选取准确性、可比性和一致性等方面对选取的样本数据的质量进行考虑。的样本数据的质量进行考虑。38数据的完整性 n n人们无论是从宏观、中观和微观角度研人们无论是从宏观、中观和微观角度研究的现象都可以看成一个系统,研究所究的现象都可以看成一个系统,研究所依据的数据,作为系统状态和其内部机依据的数据,作为系统状态和其内部机制及外部环境的数量应该是完整的,否制及外部环境的数量应该是完整的,否则,模型就无法确定。在统计模型中,则,模型就无法确定。在统计模型中,表现为样本数据的完整性。表现为样本数据的完整性。n n百分之百的完整是难以达到的,但对于百分之百的完整是难以达到的,但对于少数少数“遗失数据遗失数据”,必须采用科学的方,必须采用科学的方法人为地补充以达到数据的完整性。法人为地补充以达到数据的完整性。39数据的准确性 n n数据的准确性包括两个方面的含义。数据的准确性包括两个方面的含义。n n一是它必须准确反映它所代表的研究对一是它必须准确反映它所代表的研究对象的状态,要求统计数据或调查数据本象的状态,要求统计数据或调查数据本身是准确的;身是准确的;n n二是它必须是模型研究中所要求的数据,二是它必须是模型研究中所要求的数据,它要求研究人员准确地选择、应用数据。它要求研究人员准确地选择、应用数据。40数据的可比性与一致性n n数据的可比性即数据口径问题,在统计模型研数据的可比性即数据口径问题,在统计模型研数据的可比性即数据口径问题,在统计模型研数据的可比性即数据口径问题,在统计模型研究中人们得到的统计数据,经常具有比较差的究中人们得到的统计数据,经常具有比较差的究中人们得到的统计数据,经常具有比较差的究中人们得到的统计数据,经常具有比较差的可比性,其原因在于统计范围口径的变化,必可比性,其原因在于统计范围口径的变化,必可比性,其原因在于统计范围口径的变化,必可比性,其原因在于统计范围口径的变化,必须进行处理后才能为研究所用。须进行处理后才能为研究所用。须进行处理后才能为研究所用。须进行处理后才能为研究所用。n n统计分析方法,是从历史的数据或同一时间截统计分析方法,是从历史的数据或同一时间截统计分析方法,是从历史的数据或同一时间截统计分析方法,是从历史的数据或同一时间截面的不同点的数据中寻找其内在规律性,如果面的不同点的数据中寻找其内在规律性,如果面的不同点的数据中寻找其内在规律性,如果面的不同点的数据中寻找其内在规律性,如果数据是不可比的,当然找出的规律并不能反映数据是不可比的,当然找出的规律并不能反映数据是不可比的,当然找出的规律并不能反映数据是不可比的,当然找出的规律并不能反映对象本身的固有规律。对象本身的固有规律。对象本身的固有规律。对象本身的固有规律。n n数据的一致性并不是可比性可以包容的,主要数据的一致性并不是可比性可以包容的,主要数据的一致性并不是可比性可以包容的,主要数据的一致性并不是可比性可以包容的,主要指纵向一致性指纵向一致性指纵向一致性指纵向一致性(例如用于商品分类的代码不一例如用于商品分类的代码不一例如用于商品分类的代码不一例如用于商品分类的代码不一致致致致)。41数据预处理n n为什么需要预处理为什么需要预处理n n数据清理数据清理n n数据集成和变换数据集成和变换n n数据规约数据规约42为什么需要预处理n n脏数据脏数据不完整,含噪声,不一致不完整,含噪声,不一致不完整,含噪声,不一致不完整,含噪声,不一致n n数据清理通过填写空缺值,平滑噪声数数据清理通过填写空缺值,平滑噪声数据,识别删除异常点,并解决不一致来据,识别删除异常点,并解决不一致来清理数据。清理数据。43脏数据形成的原因n n滥用缩写词滥用缩写词n n数据输入错误数据输入错误n n数据中的内嵌控制信息数据中的内嵌控制信息n n不同的惯用语不同的惯用语n n重复记录重复记录n n丢失值丢失值n n拼写变化拼写变化n n不同的计量单位不同的计量单位n n过时的编码过时的编码44数据清理的重要性vv脏数据的普遍存在,使得在大型数脏数据的普遍存在,使得在大型数据库中维护数据的正确性和一致性据库中维护数据的正确性和一致性成为一个非常困难的任务。成为一个非常困难的任务。vv数据清理可以改进数据的质量,从数据清理可以改进数据的质量,从而有助于提高分析和挖掘过程的精而有助于提高分析和挖掘过程的精度和性能。度和性能。45数据清理处理内容n n填充空缺值填充空缺值n n格式标准化格式标准化n n异常数据清除异常数据清除n n错误纠正错误纠正n n重复数据的清除重复数据的清除46空缺值n n忽略元组忽略元组n n人工填充空缺值人工填充空缺值n n使用一个全局常量填充空缺值使用一个全局常量填充空缺值n n使用属性的平均值填充空缺值使用属性的平均值填充空缺值n n使用与给定元组属于同一类的所有样本使用与给定元组属于同一类的所有样本的属性平均值填充空缺值的属性平均值填充空缺值n n使用最有可能的值填充空缺值使用最有可能的值填充空缺值47噪声数据n n如何平滑数据,去掉噪声如何平滑数据,去掉噪声n n数据平滑技术数据平滑技术分箱分箱分箱分箱聚类聚类聚类聚类计算机和人工检查相结合计算机和人工检查相结合计算机和人工检查相结合计算机和人工检查相结合回归回归回归回归48分箱(binning)n n分箱方法通过考察数据的分箱方法通过考察数据的“近邻近邻”来光来光滑有序数据的值。滑有序数据的值。n n平滑方法平滑方法:按箱平均值平滑按箱平均值平滑按箱平均值平滑按箱平均值平滑按箱中值平滑按箱中值平滑按箱中值平滑按箱中值平滑按箱边界值平滑按箱边界值平滑按箱边界值平滑按箱边界值平滑49分箱方法用于数据平滑qq价格数据价格数据价格数据价格数据 (美元美元美元美元):4,8,9,15,21,21,24,25,26,28,29,34):4,8,9,15,21,21,24,25,26,28,29,34):4,8,9,15,21,21,24,25,26,28,29,34):4,8,9,15,21,21,24,25,26,28,29,34*划分为(等频)箱:划分为(等频)箱:划分为(等频)箱:划分为(等频)箱:-箱箱箱箱1:4,8,9,151:4,8,9,151:4,8,9,151:4,8,9,15 -箱箱箱箱2:21,21,24,252:21,21,24,252:21,21,24,252:21,21,24,25 -箱箱箱箱3:26,28,29,343:26,28,29,343:26,28,29,343:26

    注意事项

    本文(大数据时代的数据挖掘与商务智能(三)13817.pptx)为本站会员(jix****n11)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开