欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    数据挖掘——认识数据.pptx

    • 资源ID:73033516       资源大小:798.45KB        全文页数:112页
    • 资源格式: PPTX        下载积分:20金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要20金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    数据挖掘——认识数据.pptx

    数据对象数据对象数据集由数据对象构成数据集由数据对象构成一个数据对象代表一个实体一个数据对象代表一个实体例子例子:销售数据库销售数据库sales database:sales database:客户客户/顾客顾客,商店物品商店物品,salessales医学数据库医学数据库:patients,treatments:patients,treatments大学数据库大学数据库:students,professors,courses:students,professors,courses又称为又称为 样本样本,事例事例,实例实例,数据点数据点,对象对象,元组元组tuples.tuples.数据对象由属性来描述数据对象由属性来描述Database rows-data objects;columns-Database rows-data objects;columns-attributes.attributes.第1页/共112页属性属性属性属性Attribute(orAttribute(or维度维度,特征特征,变量变量):):一个数据字段一个数据字段,表示一个数据对象的某个特征表示一个数据对象的某个特征.E.g.,customer _ID,name,addressE.g.,customer _ID,name,address类型类型:名词性名词性NominalNominal二元的二元的数字的数字的Numeric:Numeric:数量的数量的Interval-scaledInterval-scaledRatio-scaledRatio-scaled第2页/共112页属性类型属性类型 名词性名词性Nominal:类别类别,状态状态,or“名目名目”Hair_color=auburn,black,blond,brown,grey,red,white婚姻状态婚姻状态,职业职业occupation,ID numbers,zip codes二元二元只有只有2个状态的名词性属性个状态的名词性属性(0 and 1)对称二元对称二元Symmetric binary:同样重要的两相同样重要的两相e.g.,gender非对称非对称Asymmetric binary:非同等重要非同等重要 e.g.,医疗检查医疗检查(positive vs.negative)惯例惯例Convention:assign 1 to most important outcome(e.g.,HIV positive)顺序的顺序的 Ordinal值有一个有意义的顺序值有一个有意义的顺序(排序排序)但连续值之间的大小未但连续值之间的大小未知知.Size=small,medium,large,等级等级,军队排名军队排名第3页/共112页数值属性的类型数值属性的类型 数量数量Quantity(integer or real-valued)区间区间Interval在某个同等大小的一个尺度单位上在某个同等大小的一个尺度单位上Measured on a scale of equal-sized units值有序值有序E.g.,temperature in Cor F,calendar dates没有真正的零点没有真正的零点Ratio有真正的零点有真正的零点可以讲值是被测量单位一个数量级可以讲值是被测量单位一个数量级(10 K is twice as high as 5 K).e.g.,温度在开尔文温度在开尔文,长度长度,计数计数,货币的数量货币的数量第4页/共112页离散离散 vs.连续属性连续属性 Discrete Attribute一个有限的或可数无限集值一个有限的或可数无限集值E.g.,zip codes,the set of words in a collection of documents 有时有时,表示为整数变量表示为整数变量注注:二元属性是离散属性的一个特殊情况二元属性是离散属性的一个特殊情况 Continuous Attribute属性值为实数属性值为实数E.g.,temperature,height,or weight实际上,实值只能使用有限位数进行测量和代表实际上,实值只能使用有限位数进行测量和代表连续属性通常表示为浮点变量连续属性通常表示为浮点变量第5页/共112页数据概述数据概述第6页/共112页数据的计量与类型数据的计量与类型数据的计量尺度数据的计量尺度数据的类型数据的类型数据的表现形式数据的表现形式 第7页/共112页数据的计量尺度数据的计量尺度数据的计量尺度(数据的计量尺度(Levels of Measurement)一般认为,数据是对客观现象计量的结果。一般认为,数据是对客观现象计量的结果。按照对事物计量的精确程度,可将所采用的计量尺度由低级到高级分为四个层次:按照对事物计量的精确程度,可将所采用的计量尺度由低级到高级分为四个层次:定类尺度定类尺度(Nominal Level)定序尺度定序尺度(Ordinal Level)定距尺度定距尺度(Interval Level)定比尺度定比尺度(Ratio Level)第8页/共112页定类尺度定类尺度定类尺度(列名尺度):按照事物的某种属性对其进行平行的分类或分组。定类尺度(列名尺度):按照事物的某种属性对其进行平行的分类或分组。例:人口的性别(男、女);企业的所有制性质(国有、集体、私营等)例:人口的性别(男、女);企业的所有制性质(国有、集体、私营等)计量层次最低计量层次最低对事物进行平行的分类对事物进行平行的分类各类别可以指定数字代码表示各类别可以指定数字代码表示具有具有=或或 的数学特性的数学特性数据表现为数据表现为“类别类别”第9页/共112页定类尺度定类尺度定类尺度只测度了事物之间的类别差,而对各类之间的其他差别却无法从中得知,因此定类尺度只测度了事物之间的类别差,而对各类之间的其他差别却无法从中得知,因此各类地位相同,顺序可以任意改变。各类地位相同,顺序可以任意改变。对定类尺度的计量结果,可以且只能计算每一类别中各元素个体出现的频数对定类尺度的计量结果,可以且只能计算每一类别中各元素个体出现的频数(frequency)。对事物进行分类时,必须符合穷尽对事物进行分类时,必须符合穷尽(exhaustive)和互斥和互斥(mutually exclusive)要求。要求。第10页/共112页定序尺度定序尺度定序尺度(顺序尺度):是对事物之间等级或顺序差别的一种测度。定序尺度(顺序尺度):是对事物之间等级或顺序差别的一种测度。例:产品等级(一等品、二等品例:产品等级(一等品、二等品);考试成绩(优、良、中、可、差);考试成绩(优、良、中、可、差)对事物分类的同时给出各类别的顺序对事物分类的同时给出各类别的顺序比定类尺度精确比定类尺度精确不仅可以测度类别差(分类),还可以测度次序差(比较优劣或排序)不仅可以测度类别差(分类),还可以测度次序差(比较优劣或排序)数据表现为数据表现为“类别类别”,但有序,但有序第11页/共112页定序尺度定序尺度无法测出类别之间的准确差值无法测出类别之间的准确差值该尺度的计量结果只能排序,不能进行算术运算。该尺度的计量结果只能排序,不能进行算术运算。具有具有或或的数学特性的数学特性第12页/共112页定距尺度定距尺度定距尺度(间隔尺度):是对事物类别或次序定距尺度(间隔尺度):是对事物类别或次序之间间距的测度。之间间距的测度。例:例:100分制考试成绩;摄氏温度对不同地区温度分制考试成绩;摄氏温度对不同地区温度的测量的测量不仅能将事物区分为不同类型并进行排序,而不仅能将事物区分为不同类型并进行排序,而且可准确指出类别之间的差距是多少且可准确指出类别之间的差距是多少比定序尺度精确比定序尺度精确定距尺度通常以自然或物理单位为计量尺度,定距尺度通常以自然或物理单位为计量尺度,因此数据表现为因此数据表现为“数值数值”没有绝对零点;没有绝对零点;“0”是测量尺度上的一个测量是测量尺度上的一个测量点,并不代表点,并不代表“没有没有”计量结果可以进行加减运算计量结果可以进行加减运算,具有具有+或或-的数的数学特性学特性第13页/共112页定比尺度定比尺度定比尺度(比率尺度):是能够测算两个测度值之间比值的一种计量尺度。定比尺度(比率尺度):是能够测算两个测度值之间比值的一种计量尺度。例:例:职工月收入职工月收入;企业产值;公制的距离、重量;企业产值;公制的距离、重量与定距尺度属于同一层次,计量结果也表现为数值;与定距尺度属于同一层次,计量结果也表现为数值;除了具有其他三种计量尺度的全部特点外,还具有可计算两个测度值之间比值的特除了具有其他三种计量尺度的全部特点外,还具有可计算两个测度值之间比值的特点;点;“0”表示表示“没有没有”,即它有一固定的绝对,即它有一固定的绝对“零点零点”,因此它可进行加、减、乘、,因此它可进行加、减、乘、除运算(而定距尺度只可进行加减运算)除运算(而定距尺度只可进行加减运算)第14页/共112页四种计量尺度的比较四种计量尺度的比较四种计量尺度的比较四种计量尺度的比较定类尺度定类尺度 定序尺度定序尺度 定距尺度定距尺度 定比尺度定比尺度 分类(,分类(,)排序(排序()间距(间距(+,-)比值(比值(,)“”表示该尺度所具有的特性第15页/共112页四种计量尺度的区别与联系四种计量尺度的区别与联系高层次的计量尺度具有低层次计量尺度的全部高层次的计量尺度具有低层次计量尺度的全部特性,但反之不行特性,但反之不行可将高层次计量尺度的计量结果转换为低层次可将高层次计量尺度的计量结果转换为低层次计量尺度的计量结果,但不能反过来计量尺度的计量结果,但不能反过来练习:指出下面变量的测量尺度:练习:指出下面变量的测量尺度:学生住址距学校的距离学生住址距学校的距离学生某门课的一次测验成绩学生某门课的一次测验成绩(5分制)分制)学生的出生地学生的出生地按年级分类的高校学生按年级分类的高校学生每周学生学习的小时数每周学生学习的小时数第16页/共112页数据分布特征的描述数据分布特征的描述第17页/共112页数据分布的特征数据分布的特征集中趋势集中趋势 (位置位置)离中趋势离中趋势 (分散程度分散程度)第18页/共112页集中趋势的测度集中趋势的测度定类数据:众数定序数据:中位数和四分位数定距和定比数据:平均数(均值)众数、中位数和均值的比较第19页/共112页集中趋势集中趋势(Central tendency)一组数据向其中心值靠拢的倾向和程度测度集中趋势就是寻找数据一般水平的代表值或中心值不同类型的数据用不同的集中趋势测度值低层次数据的集中趋势测度值适用于高层次的测量数据,反过来,高层次数据的集中趋势测度值并不适用于低层次的测量数据选用哪一个测度值来反映数据的集中趋势,要根据所掌握的数据的类型来确定第20页/共112页定类数据:众数(定类数据:众数(mode)出现次数最多的变量值用Mo表示不受极端值的影响可能没有众数或有几个众数主要用于定类数据,也可用于定序数据和数值型数据第21页/共112页众数的不唯一性众数的不唯一性无众数原始数据:10 5 9 12 6 8一个众数原始数据:6 5 9 8 5 5多于一个众数原始数据:25 28 28 36 42 42第22页/共112页众数的例子众数的例子例例 某城市居民关注广告类型的频数分布某城市居民关注广告类型的频数分布 广告类型广告类型人数人数(人人)比例比例频率频率(%)商品广告商品广告 服务广告服务广告 金融广告金融广告 房地产广告房地产广告 招生招聘广告招生招聘广告 其他广告其他广告112519161020.5600.2550.0450.0800.0500.01056.025.54.58.05.01.0合计合计2001100解解:这这里里的的变变量量为为“广广告告类类型型”,这这是是个个定定类类变变量量,不不同同类类型型的的广广告告就就是是变变量量值值。我我们们看看到到,在在所所调调查查的的200200人人当当中中,关关注注商商品品广广告告的的人人数数最最多多,为为112112人人,占占总总被被调调查查人人数数的的56%56%,因因此此众众数数为为“商商品品广广告告”这这一一类类别别,即即 MMo o商品广告商品广告第23页/共112页定序数据:中位数(定序数据:中位数(median)排序后处于中间位置上的值用Me表示不受极端值的影响主要用于定序数据,也可用数值型数据,但不能用于定类数据各变量值与中位数的离差绝对值之和最小,即 最小第24页/共112页中位数中位数第25页/共112页中位数的例子中位数的例子(定序数据定序数据)解:解:中位数的位置为:中位数的位置为:300/2300/2150150从从累累计计频频数数看看,中中位位数数的的在在“一一般般”这这一一组组别别中。因此中。因此 MMe e一般一般例例 甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)累计频数累计频数 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意2410893453024132225270300合计合计300第26页/共112页中位数的例子中位数的例子(数值型数据数值型数据)原始数据原始数据:24 22 21 26 20排排 序序:20 21 22 24 26位位 置置:1 2 3 4 5中位数 22第27页/共112页中位数的例子中位数的例子(数值型数据数值型数据)原始数据:10 5 9 12 6 8排 序:5 6 8 9 10 12位 置:1 2 3 4 5 6位置N+126+123.5中位数 8+928.5第28页/共112页定序数据:定序数据:四分位数(四分位数(quartile)排序后处于25%和75%位置上的值用ML和MU表示不受极端值的影响主要用于定序数据,也可用于数值型数据,但不能用于定类数据第29页/共112页四分位数四分位数方法2:较准确算法方法1:定义算法第30页/共112页四分位数四分位数其中 表示中位数的位置取整。这样计算出的四分位数的位置,要么是整数,要么在两个数之间0.5的位置上方法3:第31页/共112页四分位数的例子(定序数据)四分位数的例子(定序数据)解:QL位置=(300)/4=75 QU位置=(3300)/4 =225 从累计频数看,QL在“不满意”这一组别中;QU在“一般”这一组别中 四分位数为 QL =不满意 QU =一般甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)累计频数累计频数 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意 24108 93 45 30 24132225270300合计合计300第32页/共112页四分位数的例子(数值型数据)四分位数的例子(数值型数据)9个家庭的人均月收入数据原始数据:1500 750 780 1080 850 960 2000 1250 1630排 序:750 780 850 960 1080 1250 1500 1630 2000位 置:1 2 3 4 5 6 7 8 9方法方法1 1第33页/共112页四分位数的例子(数值型数据)四分位数的例子(数值型数据)9个家庭的人均月收入数据原始数据原始数据:1500 750 780 1080 850 960 2000 1250 1630排排 序序:750 780 850 960 1080 1250 1500 1630 2000位位 置置:1 2 3 4 5 6 7 8 9方法方法2 2第34页/共112页四分位数的例子(数值型数据)四分位数的例子(数值型数据)9个家庭的人均月收入数据 原始数据原始数据:1500 750 780 1080 850 960 2000 1250 1630 排排 序序:750 780 850 960 1080 1250 1500 1630 2000 位位 置置:1 2 3 4 5 6 7 8 9方法方法3 3第35页/共112页数值型数据:平均数(数值型数据:平均数(mean)一组数相加后除以数据的个数而得到的结果,也称为均值集中趋势的最常用测度值易受极端值的影响根据总体数据计算的,称为平均数,记为;根据样本数据计算的,称为样本平均数,记为x第36页/共112页简单平均数简单平均数设一组数据为:x1,x2,xn(总体数据xN)样本平均数总体平均数第37页/共112页加权平均数加权平均数设各组的组中值为:M1,M2,Mk 相应的频数为:f1,f2,fk样本加权平均总体加权平均第38页/共112页加权平均数加权平均数简单平均数的大小只和变量值的大小有关加权平均数的大小不仅受各组组中值(Mi)大小的影响,而且受各组变量值出现的频数即权数(fi)大小的影响。甲乙两组各有10名学生,他们的考试成绩及其分布数据如下甲组:考试成绩(x):0 20 100 人数分布(f):1 1 8乙组:考试成绩(x):0 20 100 人数分布(f):8 1 1第39页/共112页平均数的数学性质平均数的数学性质各变量值与平均数的离差之和等于零 各变量值与平均数的离差平方和最小第40页/共112页几何平均数几何平均数1.n 个变量值乘积的 n 次方根2.适用于对比率数据的平均3.主要用于计算平均增长率4.计算公式为5.可看作是平均数的一种变形第41页/共112页几何平均数的例子几何平均数的例子例 一位投资者购持有一种股票,在2000、2001、2002和 2003年 收 益 率 分 别 为 4.5%、2.1%、25.5%、1.9%。计算该投资者在这四年内的平均收益率 算术平均:算术平均:几何平均:几何平均:第42页/共112页众数、中位数和平均数的关系众数、中位数和平均数的关系左偏分布左偏分布左偏分布均值均值均值 中位数中位数中位数 众数众数众数对称分布对称分布对称分布 均值均值均值=中位数中位数中位数=众数众数众数右偏分布右偏分布右偏分布众数众数众数 中位数中位数中位数均值均值均值第43页/共112页众数、中位数、平均数的特点和应用众数、中位数、平均数的特点和应用1.众数不受极端值影响具有不惟一性数据分布偏斜程度较大且有明显峰值时应用2.中位数不受极端值影响数据分布偏斜程度较大时应用3.平均数易受极端值影响数学性质优良数据对称分布或接近对称分布时应用第44页/共112页数据类型与集中趋势测度值数据类型与集中趋势测度值数据类型和所适用的集中趋势测度值数据类型和所适用的集中趋势测度值数据类型数据类型定类数据定类数据 定序数据定序数据定距数据定距数据定比数据定比数据适适用用的的测测度度值值众数众数中位数中位数平均数平均数平均数平均数四分位数四分位数众数众数几何平均数几何平均数众数众数中位数中位数 中位数中位数四分位数四分位数四分位数四分位数众数众数第45页/共112页离散程度的度量离散程度的度量定类数据:异众比率定序数据:四分位差定距和定比数据:方差和标准差相对离散程度:离散系数第46页/共112页离中趋势离中趋势离中趋势的各测度值是对数据离散程度所作的描述反映各变量值远离其中心值的程度,因此也称为离中趋势从另一个侧面说明了集中趋势测度值的代表程度不同类型的数据有不同的离散程度测度值第47页/共112页定类数据:异众比率定类数据:异众比率(variation ratio)非众数组的频数占总频数的比例用于衡量众数的代表性第48页/共112页异众比率的例子异众比率的例子解:在所调查的50人当中,购买其他品牌饮料的人数占70%,异众比率比较大。因此,用“可口可乐”代表消费者购买饮料品牌的状况,其代表性不是很好不同品牌饮料的频数分布不同品牌饮料的频数分布 饮料品牌饮料品牌频数频数比例比例百分比百分比(%)可口可乐可口可乐 旭日升冰茶旭日升冰茶 百事可乐百事可乐 汇源果汁汇源果汁 露露露露1511 9 6 90.300.220.180.120.183022181218合计合计501100第49页/共112页定序数据:四分位差定序数据:四分位差(quartile deviation)也称为内距或四分间距上四分位数与下四分位数之差 Qd=QU QL反映了中间50%数据的离散程度不受极端值的影响用于衡量中位数的代表性第50页/共112页四分位差的例子四分位差的例子解:设非常不满意为1,不满意为2,一般为3,满意为 4,非常满意为5。已知 QL=不满意=2 QU =一般=3四分位差为 Qd=QU -QL =3 2 =1甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)累计频数累计频数 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意 24108 93 45 30 24132225270300合计合计300第51页/共112页数值型数据:极差(数值型数据:极差(range)一组数据的最大值与最小值之差离散程度的最简单测度值易受极端值影响未考虑数据的分布 R=max(xi)-min(xi)第52页/共112页平均差(平均差(mean deviation)各变量值与其平均数离差绝对值的平均数能全面反映一组数据的离散程度数学性质较差,实际中应用较少未分组数据组距分组数据第53页/共112页平均差的例子平均差的例子某电脑公司销售量数据平均差计算表某电脑公司销售量数据平均差计算表 按销售量分组按销售量分组组中值组中值(Mi)频数频数(fi)140150150 160160 170170 180180 190190 200200 210210 220220 230230 240145155165175185195205215225235 4 91627201710 8 4 540302010 01020304050160270320270 0170200240160250合计合计1202040Md=2040/120=17第54页/共112页方差和标准差方差和标准差(variance and standard deviation)数据离散程度的最常用测度值反映了各变量值与均值的平均差异方差:各变量值与其平均数离差平方的平均数标准差:方差的平方根根据总体数据计算的,称为总体方差或标准差,记为2()根据样本数据计算的,称为样本方差或标准差,记为s2(s)第55页/共112页总体方差和标准差总体方差和标准差未分组数据组距分组数据未分组数据组距分组数据方差的计算公式标准差的计算公式第56页/共112页样本方差和标准差样本方差和标准差未分组数据组距分组数据未分组数据组距分组数据方差的计算公式标准差的计算公式第57页/共112页样本方差的例子样本方差的例子某电脑公司销售量数据平均差计算表某电脑公司销售量数据平均差计算表 按销售量分组按销售量分组组中值组中值(Mi)频数频数(fi)140150150 160160 170170 180180 190190 200200 210210 220220 230230 240145155165175185195205215225235 4 91627201710 8 4 51600900400100 0100400900160025006400810064002700 0170040007200640012500合计合计12055400第58页/共112页样本方差的例子样本方差的例子 含义:每一天的销售量与平均数相比,平均相差21.58台第59页/共112页相对位置的度量:标准分数(相对位置的度量:标准分数(standard score)也称标准化值对某一个值在一组数据中相对位置的度量可用于判断一组数据是否有离群点(outlier)用于对变量的标准化处理第60页/共112页标准分数的性质标准分数的性质均值等于0方差等于1第61页/共112页标准分数的性质标准分数的性质标准分数只是将原始数据进行了线性变换,它并没有改变一个数据在改组数据中的位置,也没有改变该组数分布的形状,而只是将该组数据变为均值为0,标准差为1 第62页/共112页经验法则经验法则经验法则表明:当一组数据对称分布时约有68%的数据在平均数加减1个标准差的范围之内约有95%的数据在平均数加减2个标准差的范围之内约有99%的数据在平均数加减3个标准差的范围之内在三个标准差之外的数据,称为异常值或离群点第63页/共112页切比雪夫不等式切比雪夫不等式对于任意分布形态的数据,切比雪夫不等式指出:至少有1-1/k2的数据落在k个标准差之内。至少有75%的数据落在平均数加减2个标准差的范围之内至少有89%的数据落在平均数加减3个标准差的范围之内至少有94%的数据落在平均数加减4个标准差的范围之内第64页/共112页相对离散程度:离散系数(相对离散程度:离散系数(coefficient of variation)标准差与其相应的均值之比对数据相对离散程度的测度消除了数据水平高低和计量单位的影响用于对不同组别数据离散程度的比较第65页/共112页离散系数的例子离散系数的例子某管理局抽查了所属的8家企业,其产品销售数据如表。试比较产品销售额与销售利润的离散程度某管理局所属某管理局所属8家企业的产品销售数据家企业的产品销售数据企业编号企业编号产品销售额(万元)产品销售额(万元)x1销售利润(万元)销售利润(万元)x212345678170220390430480650950 1000 8.112.518.022.026.540.064.069.0第66页/共112页离散系数的例子离散系数的例子结论:计算结果表明,v1v2,说明产品销售额的离散程度小于销售利润的离散程度 v v1 1=536.25536.25309.19309.19=0.5770.577v v2 2=32.521532.521523.0923.09=0.7100.710第67页/共112页数据类型与离散程度测度值数据类型与离散程度测度值数据类型和所适用的离散程度测度数据类型和所适用的离散程度测度值值数据类型数据类型定类数据定类数据 定序数据定序数据数值型数据数值型数据适适用用的的测测度度值值异众比率异众比率四分位差四分位差 方差或标准差方差或标准差 异众比率异众比率 离散系数(比较时用)离散系数(比较时用)平均差平均差 极差极差 四分位差四分位差 异众比率异众比率第68页/共112页定类数据的整理与显示定类数据的整理与显示基本过程:列出各类别计算各类别的频数制作频数分布表用图形显示数据主要指标:频数:落在各类别中的数据个数比例:某一类别数据占全部数据的比值比率:不同类别数值的比值百分比:将对比的基数作为100而计算的比值第69页/共112页定类数据的显示定类数据的显示频数分布表频数分布表例:为研究广告市场的状况,一家广告公司在某城市随机抽取200人就广告问题做了邮寄问卷调查,其中的一个问题是“您比较关心下列哪一类广告?”1商品广告;2服务广告;3金融广告;4房地产广告;5招生招聘广告;6其他广告。某城市居民关注广告类型的频数分布某城市居民关注广告类型的频数分布 广告类型广告类型人数人数(人人)比例比例频率频率(%)商品广告商品广告服务广告服务广告金融广告金融广告房地产广告房地产广告招生招聘广告招生招聘广告其他广告其他广告112519161020.5600.2550.0450.0800.0500.01056.025.54.58.05.01.0合计合计2001100第70页/共112页定类数据的显示定类数据的显示条形图条形图条形图是用宽度相同的条形的高度或长短来表示数据变动的图形在表示定类数据的分布时,是用条形图的高度来表示各类别数据的频数或频率绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图第71页/共112页定类数据的显示定类数据的显示条形图条形图人数(人)5191610211204080120 商品广告 服务广告 金融广告 房地产广告 招生招聘广告 其他广告广告类型 某城市居民关注不同类型广告的人数分布第72页/共112页定类数据的显示定类数据的显示柱形图柱形图15119690481216频数第73页/共112页定类数据的显示定类数据的显示对比柱形图对比柱形图电脑销售量的对比条形图2562852475634683973286880100200300400500600700800联想IBM康柏戴尔电脑品牌销售量一季度二季度 分类变量在不同时间或不同空间上有多个取值 对比分类变量的取值在不同时间或不同空间上的差异或变化趋势第74页/共112页定类数据的显示定类数据的显示Pareto图图按各类别数据出现的频数多少排序后绘制的柱形图 第75页/共112页定类数据的显示定类数据的显示圆形图圆形图也称饼图,是用圆形及园内扇形的面积来表示数值大小的图形主要用于表示总体中各组成部分所占的比例,对于研究结构性问题十分有用在绘制圆形图时,总体中各部分所占的百分比用圆内的各个扇形面积表示,这些扇形的中心角度,是按各部分百分比占3600的相应比例确定的例如,关注服务广告的人数占总人数的百分比为25.5%,那么其扇形的中心角度就应为360025.5%91.80,其余类推。第76页/共112页定类数据的显示定类数据的显示圆形图圆形图 其他广告1.0%房地产广告8.0%商品广告56.0%金融广告4.5%服务广告25.5%招生招聘广告5.8%某城市居民关注不同类型广告的人数构成第77页/共112页定序数据的整理与显示定序数据的整理与显示主要指标:累计频数:将各类别的频数逐级累加累计频率:将各类别的频率(百分比)逐级累加例例:在在一一项项城城市市住住房房问问题题的的研研究究中中,研研究究人人员员在在甲甲乙乙两两个个城城市市各各抽抽样样调调查查300300户户,其其中中的的一一个个问问题题是是:“您您对对您您家家庭庭目目前前的的住房状况是否满意?住房状况是否满意?1 1非非常常不不满满意意;2 2不不满满意意;3 3一一般般;4 4满满意;意;5 5非常满意。非常满意。甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户户数数(户户)百分百分比比(%)向上累积向上累积 向下累积向下累积 户数户数(户户)百分比百分比(%)户数户数(户户)百分百分比比(%)非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意24108934530836311510241322252703008.044.075.090.0100.03002761687530100.092562510合计合计300100.0第78页/共112页定序数据的显示定序数据的显示累计频数分布图累计频数分布图243001322252700100200300400 非常不满意 不满意 一般 满意 非常满意累积户数(户)(a)向上累积27616830300750100200300400 非常不满意 不满意 一般 满意 非常满意累积户数(户)(b)向下累积甲城市家庭对住房状况评价的累积频数分布甲城市家庭对住房状况评价的累积频数分布第79页/共112页定序数据的显示定序数据的显示环形图环形图环形图中间有一个“空洞”,总体中的每一部分数据用环中的一段表示环形图与圆形图类似,但又有区别圆形图只能显示一个总体各部分所占的比例环形图则可以同时绘制多个总体的数据系列,每一个总体的数据系列为一个环环形图可用于进行比较研究 环形图可用于展示定类和定序的数据第80页/共112页定序数据的显示定序数据的显示环形图环形图8%36%31%15%7%33%26%21%13%10%非常不满意 不满意 一般 满意 非常满意 甲乙两城市家庭对住房状况的评价第81页/共112页数值型数据的整理与显示数值型数据的整理与显示按照研究需要,将原始经济数据按照某种标准化分成不同的组别,称为数据分组数据分组的方法:单变量值分组:把每一个变量值作为一组组距分组:将全部变量值依次划分为若干个区间,并将这一区间的变量值作为一组第82页/共112页单变量值分组单变量值分组将一个变量值作为一组适合于离散变量适合于变量值较少的情况例:某生产车间50名工人日加工零件数如下(单位:个)。试采用单变量值对数据进行分组。117 122 124 129 139 107 117 130 122 125108 131 125 117 122 133 126 122 118 108110 118 123 126 133 134 127 123 118 112112 134 127 123 119 113 120 123 127 135137 114 120 128 124 115 139 128 124 121第83页/共112页单变量值分组单变量值分组某车间某车间50名工人日加工零件数分组表名工人日加工零件数分组表零件数零件数(个个)频数频数(人人)零件数零件数(个个)频数频数(人人)零件数零件数(个个)频数频数(人人)107108110112113114115117118121211133119120121122123124125126127121443223128129130131133134135137139211122112第84页/共112页组距分组组距分组组距分组方法分为:等距分组异距分组特点:将变量值的一个区间作为一组适合于连续变量适合于变量值较多的情况必须遵循“不重不漏”的原则可采用等距分组,也可采用不等距分组第85页/共112页组距分组的步骤组距分组的步骤1.确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,可以按 Sturges 提出的经验公式来确定组数K2.2.确确定定各各组组的的组组距距:组组距距(Class(Class Width)Width)是是一一个个组组的的上上限限与与下下限限之之差差,可可根根据据全全部部数数据据的的最最大大值值和和最最小小值值及及所分的组数来确定,即所分的组数来确定,即 组距组距组距组距(最大值最大值最大值最大值 -最小值)最小值)最小值)最小值)组数组数组数组数 3.3.根据分组整理成频数分布表根据分组整理成频数分布表 第86页/共112页组距分组的几个概念组距分组的几个概念下限:一个组的最小值上限:一个组的最大值组距:上限与下限之差组中值:下限与上限之间的中点值下限值+上限值2组中值第87页/共112页等距分组表等距分组表(上下组限重叠)(上下组限重叠)某车间某车间50名工人日加工零件数分组表名工人日加工零件数分组表按零件数分组按零件数分组频数(人)频数(人)频率(频率(%)105110110115115120120125125130130135135140358141064610162820128合计合计50100第88页/共112页等距分组表等距分组表(上下组限间断)(上下组限间断)某车间某车间50名工人日加工零件数分组表名工人日加工零件数分组表按零件数分组按零件数分组频数(人)频数(人)频率(频率(%)105109110114115119120124125129130134135139358141064610162820128合计合计50100第89页/共112页等距分组表等距分组表(使用开口组)(使用开口组)某车间某车间50名工人日加工零件数分组表名工人日加工零件数分组表按零件数分组按零件数分组频数(人)频数(人)频率(频率(%)110以下以下110114115119120124125129130134135以上以上358141064610162820128合计合计50100第90页/共112页组距分组与异距分组组距分组与异距分组等距分组由于各组组距相同,各组频数的分布不受组距大小的影响可直接根据绝对频数来观察频数分布的特征和规律异距分组各组频数的分布受组距大小不同的影响各组绝对频数的多少不能反映频数分布的实际状况需要用频数密度(频数密度频数/组距)反映频数分布的实际状况第91页/共112页数值型数据的显示数值型数据的显示分组数据的显示原始数据的显示时间

    注意事项

    本文(数据挖掘——认识数据.pptx)为本站会员(莉***)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开