数据挖掘SPSSclementine数据处理.pptx
《数据挖掘SPSSclementine数据处理.pptx》由会员分享,可在线阅读,更多相关《数据挖掘SPSSclementine数据处理.pptx(72页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1培训内容培训内容 第一章第一章 合并多个数据源数据第二章第二章 抽取样本,选择和缓存数据第三章第三章 处理缺失数据第四章第四章 处理日期第五章第五章 处理时序数据第六章第六章 文件操作第七章第七章 效率第1页/共72页2第一章第一章合并多个数据源数据合并多个数据源数据第2页/共72页3第一章第一章 合并多个数据源数据合并多个数据源数据内容:使用追加节点串联包含相似字段的记录集的文件使用合并节点把不同数据源的信息加入到现有数据源使用超级节点简化数据流区域的内容数据:acct97.txt,accounts98.sav,customer.dat第3页/共72页4追加节点合并数据文件追加节点合并数据
2、文件不同组记录的相似信息有可能存储在不同数据文件不同财政年度的银行帐目信息不同学年的考试结果不同部门的欺诈信息不同周的事务办理数据追加节点可以合并两个或者更多的数据源,可以分析和比较不同记录组的相似信息。第4页/共72页5文件读入文件读入追加节点读取并下传来自同一数据源的所有记录直至该数据源不再有记录为止,然后读取下一个数据源的记录。第一个读入的数据源的数据结构(记录和字段数目等)默认为输出数据的数据结构。追加节点假定读入的数据源和最初输入源有相似的数据结构,根据不同数据文件的字段名合并数据。第5页/共72页6字段数目不同时的读入规则字段数目不同时的读入规则如果一个输入的字段数目比最初数据源少
3、,输入源记录缺失的字段用未定义值($null$)填补。如果一个输入的字段数目比最初数据源多,默认为从流中过滤掉多余的字段,有一个选项可以允许输入所有数据集的字段,所有记录缺失的字段用未定义值($null$)填补。第6页/共72页7追加文件追加文件使用变量文件节点读入文件acct97.txt确定选中“从文件读取字段名”使用SPSS文件节点读入文件accounts98.sav使用追加节点连接两个数据源节点使用制表节点分别输出表格第7页/共72页8输入条目改变主数据集输入条目改变主数据集第8页/共72页9条目设置条目设置第9页/共72页10处理字段处理字段使用导出节点和子链函数提取字段substri
4、ng(1,2,ACCTNO)提取字段ACCTsubstring(4,5,ACCTNO)提取字段CUSTREF substring(10,5,ACCTNO)提取字段ACCTREF使用过滤节点过滤字段ACCTNO第10页/共72页11数据流和追加文件数据流和追加文件第11页/共72页12合并节点合并数据文件合并节点合并数据文件在很多企业里,个体的信息存放于不同数据源中消费者信息和购买信息账目详细资料和事务办理数据房产商的信息按照个体和财产水平同样本调查中每隔一段时间收集的个体的信息合并节点可以合并两个或者更多的数据源,可以整体分析个体存放于不同数据源中的信息。第12页/共72页13合并文件合并文件
5、使用变量文件节点读入文件customer.dat确认选中从文件读取字段名分隔符选中制表符,取消逗号分隔符使用合并节点连接变量文件节点和追加节点选中按照关键字段包括匹配和不匹配记录使用制表节点输出表格第13页/共72页14合并方法合并方法按照顺序合并数据:如每一输入的第n 个记录被合并生成第n 个输出记录。只要任一记录缺少匹配的输入记录,则不会生成任何输出记录。按照关键字段合并数据:如果某一关键字段值不止一次的出现,则返回所有可能的组合。只包括匹配记录(内部合并)包括匹配和不匹配记录(完全外部合并)包括匹配和选中的不匹配记录(部分全外部合并)包括第一个数据集中且不与其它数据集匹配的记录(反向合并
6、)合并相同的关键字段:每个输出字段都有不同的字段名第14页/共72页15外部合并选择数据集外部合并选择数据集第15页/共72页16超级节点简化数据流超级节点简化数据流超级节点在流中用星型图标表示,图标的明暗程度表示超级节点的类型和流的方向(流向或者流出)总共有三种类型的超级节点:源超级节点 过程超级节点 终端超级节点第16页/共72页17超级节点超级节点规则两个选中的节点之间必须有路径通过。一个完整的流不能压缩为一个超级节点。要压缩的部分流不能包括分叉路径(终端超级节点在每个分叉路径包含终端节点除外)。操作创建超级节点编辑超级节点保存超级节点第17页/共72页18练习练习custtravel1
7、.dat,custtravel2.dat 记录旅游公司顾客的信息,holtravel.dat记录不同假期,公司提供的旅游信息,合并三个数据文件。使用变量文件节点分别读入这三个数据文件。连接三个制表节点,检查数据文件的读入是否正确。用Append节点,追加两个记录顾客信息的数据文件。编辑节点,并检查节点设置是否正确(确保custtravel1.dat是第一个数据文件),用制表节点,查看追加结果。用Merge节点,合并holtravel.dat和生成的数据文件,选择包括匹配和不匹配记录。用制表节点,查看合并结果。第18页/共72页19第二章第二章抽取样本,选择和缓存数据抽取样本,选择和缓存数据第1
8、9页/共72页20第二章第二章 抽取样本,选择和缓存数据抽取样本,选择和缓存数据内容:使用区分节点删除副本使用抽样和选择节点抽取样本使用分割节点分割数据为训练和测试样本使用缓存数据加速数据处理和冻结样本目的:介绍一系列对数据进行预处理的方法数据:前一章合并生成的数据,存储于文件fulldata.txt第20页/共72页21使用区分节点删除副本使用区分节点删除副本打开分割数据.str使用变量文件节点读入文件fulldata.txt确定选中“从文件读取字段名”使用制表节点输出表格使用区分节点连接变量文件节点在字段ID选择副本使用制表节点输出表格第21页/共72页22使用抽样节点抽取样本使用抽样节点
9、抽取样本使用抽样节点连接变量文件节点设定抽样节点选项包括样本random值为60设定随机种子数54321使用制表节点输出表格第22页/共72页23使用导出、选择节点抽取样本使用导出、选择节点抽取样本使用导出节点连接变量文件节点导出字段flag规则random0(2)使用制表节点输出表格使用分布节点连接导出节点选择字段flag输出分布图使用选择节点连接导出节点条件flag=0 使用制表节点输出表格第23页/共72页24使用分割节点分割样本使用分割节点分割样本使用分割节点连接数据文件节点选择分成两部分分割部分的和少于100%,丢弃剩余的数据设定随机种子123使用分布节点连接分割节点选择字段Part
10、ition输出分布图第24页/共72页25数据缓存数据缓存为了最优化的执行,用户可以对任何没有结束的节点建立一个缓存。当对一个节点建立一个缓存的时候,缓存区会被下一次执行数据流时要通过节点的数据所填满。以后数据就从该缓存区中读取而不是从数据源中读取。缓存的主要作用:避免预处理过程的重复,提高速度冻结样本,例如导出和分割节点中使用随机函数选择样本第25页/共72页26分割节点中使用缓存分割节点中使用缓存启用缓存带有缓冲区的节点能够以一个小的文件图标被显示在右上角。当数据在节点处被缓存时,这个文件图标是绿色的。刷新缓存保存缓存以SPSS 文件的形式来保存一个缓存区的内容读取缓存可以通过SPSS 文
11、件节点在流中读入可以恢复到最初生成缓存的节点第26页/共72页27练习练习使用变量文件节点,读入数据文件custandhol.dat。使用区分节点移除重复记录,区分字段为CUSTID。使用制表节点查看数据文件对上述数据文件,用抽样节点随机抽取70%的记录 在抽样节点,设置随机种子值执行该流,观察每次的结果是否相同使用分割节点把数据文件分割成两部分,70训练集,30测试集。分别使用制表节点和分布节点查看结果在抽样节点,缓存数据再次执行数据流,观察数据流是从数据源节点,还是从抽样节点执行第27页/共72页28第三章第三章处理缺失数据处理缺失数据第28页/共72页29第三章第三章 处理缺失数据处理缺
12、失数据内容:使用质量节点产生过滤和选择节点包含和排除具有缺失数据的字段和记录使用填充节点删除空白使用类型节点自动检查空白处理缺失数据的建议目的:这一章引入一系列方法处理缺失数据数据:数据文件SmallSampleMissing.txt第29页/共72页30使用质量节点提高数据质量使用质量节点提高数据质量使用变量文件节点读入数据SmallSampleMissing.txt 确定选中“读取字段名”使用类型节点连接变量文件节点CHILDREN值99设定空白使用制表节点输出表格使用质量节点选中未定义值,空格,空白和空字符串输出质量报告第30页/共72页31生成选择节点和过滤节点生成选择节点和过滤节点质
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 SPSSclementine 数据处理
限制150内