《数据清洗技术》PPT课件.ppt
《《数据清洗技术》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《数据清洗技术》PPT课件.ppt(35页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据清理技术数据清理技术冯国双冯国双 中国疾控中心卫生统计室中国疾控中心卫生统计室数据清洗数据清洗p从数据收集结束,到统计分析之前,需要对数据从数据收集结束,到统计分析之前,需要对数据做的清理工作做的清理工作数据清洗数据清洗p数据双录入对比数据双录入对比p数据合并数据合并p查找重复值查找重复值p查找缺失值查找缺失值p查找异常值查找异常值双录入对比双录入对比pExcelExcel用到的函数:用到的函数:pIfIf函数函数pIf(If(判断条件判断条件,条件满足返回值条件满足返回值,条件不满足返回值条件不满足返回值)pexactexact函数函数比较两个文本是否相同比较两个文本是否相同pexact
2、(exact(比较文本比较文本1,1,比较文本比较文本2)2)poffsetoffset函数函数返回给定偏移量的新区域返回给定偏移量的新区域poffset(offset(参照区域参照区域,行行,列列)双录入对比双录入对比psmall(small(数据区域数据区域,第几小第几小)计算单元格范围的第几小的数值计算单元格范围的第几小的数值pColumn()Column()p返回单元格所在号返回单元格所在号pRow()Row()p返回单元格所在行号返回单元格所在行号双录入对比双录入对比pSASSAS命令命令:pproc compare base=proc compare ;pby by 变量变量1 1
3、 变量变量2 2;prun;run;双录入对比双录入对比pproc compareproc compare语句调用数据比较过程,选项语句调用数据比较过程,选项basebase和和comparecompare分别指定两个比较和被比较的数据集;分别指定两个比较和被比较的数据集;nosummarynosummary的作用是不显示一些概括性的结果。的作用是不显示一些概括性的结果。pbyby语句指定的变量有点类似于索引的作用,通常语句指定的变量有点类似于索引的作用,通常指定指定idid号。如果两个数据集的观测数不同,利用号。如果两个数据集的观测数不同,利用byby语句可以保证它们比较的仍然是同一个语句可
4、以保证它们比较的仍然是同一个idid号,号,而不会出现错位比较的情况。而不会出现错位比较的情况。双录入对比双录入对比pdata a1;data a1;pinput id g gender age marriage height weight nation;input id g gender age marriage height weight nation;pcards;cards;p(数据)(数据)p;pdata a2;data a2;pinput id g gender age marriage height weight nation;input id g gender age marr
5、iage height weight nation;pcards;cards;p(数据)(数据)p;pproc compare base=a1 compare=a2 nosummary;proc compare base=a1 compare=a2 nosummary;prun;run;双录入对比双录入对比双录入对比双录入对比查找缺失值查找缺失值pExcelExcel函数:函数:pIfIf函数函数pIf(If(判断条件判断条件,条件满足返回值条件满足返回值,条件不满足返回值条件不满足返回值)pexactexact函数函数比较两个文本是否相同比较两个文本是否相同pexact(exact(比较文本
6、比较文本1,1,比较文本比较文本2)2)poffsetoffset函数函数返回给定偏移量的新区域返回给定偏移量的新区域poffset(offset(参照区域参照区域,行行,列列)查找缺失值查找缺失值psmall(small(数据区域数据区域,第几小第几小)计算单元格范围的第几小的数值计算单元格范围的第几小的数值pColumn()Column()p返回单元格所在号返回单元格所在号pRow()Row()p返回单元格所在行号返回单元格所在行号查找缺失值查找缺失值pSASSAS可用可用missingmissing函数实现函数实现p如果结合数组和自动变量,可以一次性实现所有如果结合数组和自动变量,可以一
7、次性实现所有变量缺失值的输出变量缺失值的输出查找缺失值查找缺失值pdata a1;data a1;pinput id g gender age marriage height weight nation;input id g gender age marriage height weight nation;pmiss_g=missing(g);miss_g=missing(g);pmiss_gender=missing(gender);miss_gender=missing(gender);pmiss_age=missing(age);miss_age=missing(age);pmiss_m
8、arriage=missing(marriage);miss_marriage=missing(marriage);pmiss_height=missing(height);miss_height=missing(height);pmiss_weight=missing(weight);miss_weight=missing(weight);pmiss_nation=missing(nation);miss_nation=missing(nation);pcards;cards;p(数据)(数据)p;pproc print;proc print;prun;run;查找缺失值查找缺失值p部分结果
9、部分结果查找缺失值查找缺失值p利用数组和自动变量利用数组和自动变量pdata missing;data missing;pset a;set a;parray cha*_character_;array cha*_character_;pdo i=1 to dim(cha);do i=1 to dim(cha);pif missing(chai)then output;if missing(chai)then output;pend;end;parray num*_numeric_;array num*_numeric_;pdo i=1 to dim(num);do i=1 to dim(nu
10、m);pif missing(numi)then output;if missing(numi)then output;pend;end;pdrop i;drop i;pproc print;proc print;prun;run;查找缺失值查找缺失值p缺失值结果缺失值结果查找重复值查找重复值pExcelExcel函数:函数:pcountif(countif(计数区域计数区域,条件条件)根据指定条件,在计数区域内计数根据指定条件,在计数区域内计数查找重复值查找重复值pSASSAS命令:命令:pproc sort out=proc sort ;pby by 变量变量1 1 变量变量2 2;pru
11、n;run;查找重复值查找重复值pproc sortproc sort语句调用排序过程。选项语句调用排序过程。选项out=out=数据集指定排序数据集指定排序后的数据集名。因为排序后数据发生了变化,因此可指定后的数据集名。因为排序后数据发生了变化,因此可指定该选项将排序后的数据存放到一个新的数据集中。如果不该选项将排序后的数据存放到一个新的数据集中。如果不加该选项,排序后的数据集将覆盖原有数据集,这样你就加该选项,排序后的数据集将覆盖原有数据集,这样你就找不回原有的未排序的数据了。找不回原有的未排序的数据了。p选项选项nodupkeynodupkey表示如果表示如果byby语句指定的排序变量有
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据清洗技术 数据 清洗 技术 PPT 课件
限制150内