数据分析技术.ppt
《数据分析技术.ppt》由会员分享,可在线阅读,更多相关《数据分析技术.ppt(131页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据分析技术数据分析技术战略信息战略信息n n企业目标n n在在5 5年内增加年内增加15%15%的客户的客户n n在在3 3年内抢占年内抢占15%15%的市场的市场n n在在2 2年内投放年内投放3 3种新产品种新产品n n提高前提高前5%5%的产品质量的产品质量n n在东北市场提高在东北市场提高15%15%的销售额的销售额n n所需信息n n全面深入地了解公司运营全面深入地了解公司运营n n了解关键因素及其相互作用了解关键因素及其相互作用n n检测这些因素如何随时间变化检测这些因素如何随时间变化n n将公司运营状况和对手以及行业标准做比较将公司运营状况和对手以及行业标准做比较战略信息系统战
2、略信息系统n nSIS:Strategic Information Systemsn n能够支援和改变组织战略行为,使得组织具有竞争力的信息系统战略目标被顾客承认 底成本地位公司的竞争战略公司的竞争战略正确决策正确决策企业的竞争优势企业的竞争优势错、错、错错、错、错错、错、错错、错、错在错误的时间、错误的在错误的时间、错误的在错误的时间、错误的在错误的时间、错误的地点、同错误的对手打地点、同错误的对手打地点、同错误的对手打地点、同错误的对手打了一场错误的战争了一场错误的战争了一场错误的战争了一场错误的战争噬脐何及噬脐何及噬脐何及噬脐何及合九州六十四县铁,合九州六十四县铁,合九州六十四县铁,合九
3、州六十四县铁,不能铸成此大错也不能铸成此大错也不能铸成此大错也不能铸成此大错也兵兵兵兵帅帅兵兵将将士士士士炮炮卒卒卒卒博弈博弈囚徒困境囚徒乙囚徒乙坦白坦白抵赖抵赖囚囚徒徒甲甲坦白坦白(-8(-8,-8)8)(0(0,-10)-10)抵赖抵赖(-10(-10,0)0)(-1(-1,-1)-1)博弈博弈智猪博弈小猪小猪按按等待等待大大猪猪按按(5(5,1)1)(4(4,4)4)等待等待(9(9,-1)-1)(0(0,0)0)博弈博弈在位者在位者默许默许斗争斗争进进入入者者进入进入(40(40,50)50)(-10(-10,0)0)不进入不进入(0(0,300)300)(0(0,300)300)n纳
4、什均衡n一个博弈可能有多个纳什均衡n每个参与者把其他参与人的策略当作是给定的n允许了不可置信的威胁的存在博弈博弈进入者不进入进入在位者斗争默许(0,300)(4040,5050)(-10,0)博弈博弈小组项小组项目评分目评分tomtom努力努力偷懒偷懒billbillbillbill努力努力偷懒偷懒努力努力偷懒偷懒jerryjerry努力努力 4,4,44,4,4 3,5,33,5,3 3,3,53,3,5 0,4,40,4,4偷懒偷懒 5,3,35,3,3 4,4,04,4,0 4,0,44,0,4 1,1,11,1,1博弈博弈带有奖励带有奖励分的小组分的小组项目评分项目评分tomtom努力
5、努力偷懒偷懒billbillbillbill努力努力偷懒偷懒努力努力偷懒偷懒jerryjerry努力努力偷懒偷懒博弈博弈如何确定贡献比如何确定贡献比被评定等级的学生被评定等级的学生tomtomjerryjerrybillbill为他人评定为他人评定等级的学生等级的学生tomtom第一第一第二第二jerryjerry第一第一第二第二billbill第一第一第二第二最小值最小值第一第一第二第二第二第二阿里巴巴:芝麻开门阿里巴巴:芝麻开门n n哪些客户对我们最有利?如何拓展与他们的联系?哪些客户对我们最有利?如何拓展与他们的联系?n n哪哪些些客客户户给给我我们们提提供供利利润润?哪哪些些客客户户使
6、使我我们们遭遭受受损损失失?n n根据他们经常光顾的商店,最好的客户居住在哪里?根据他们经常光顾的商店,最好的客户居住在哪里?n n哪哪些些产产品品和和服服务务能能被被最最有有效效的的进进行行交交叉叉销销售售,销销售售对对象是谁?象是谁?n n哪些市场营销案例是最成功的?为什么?哪些市场营销案例是最成功的?为什么?n n哪些销售渠道对于哪些产品是最有效的?哪些销售渠道对于哪些产品是最有效的?n n如何才能改善我们用户的总体经历?如何才能改善我们用户的总体经历?商务智能商务智能n n商务智能的需求n n有巨量的商业数据有巨量的商业数据n n日常数据:订单、存货、帐单、日常数据:订单、存货、帐单、
7、n n外部数据:客户信息、对手信息、政策外部数据:客户信息、对手信息、政策n n每每2 2到到3 3年商业数据变会翻番年商业数据变会翻番n n有有93%93%的数据没有在决策过程中使用到!的数据没有在决策过程中使用到!n n商务智能的目的n n使人能更快捷、更容易地做出更好的商业决策使人能更快捷、更容易地做出更好的商业决策n n终极目标n n3w-win,win,win3w-win,win,win商务智能商务智能QueryObserveDataAnalysisAnalyzeInformationData miningPredictKnowledgeelevateelevate从数据到知识垂拱而
8、治垂拱而治n nCEO:统计一下购买我们的产品及竞争对手产品的用户信息n n计算机:我们的用户特征我们的用户特征收收入入在在75,000$15,000$75,000$15,000$,拥拥有有住住房房,居住在郊区,已婚,在超市购物居住在郊区,已婚,在超市购物对手的用户特征对手的用户特征收收入入在在50,000$50,000$75,000$75,000$,租租赁赁公公寓寓,居居住住在在大大城城市市,单单身身,在在专专卖卖店购物店购物购买趋势不明显购买趋势不明显的用户特征的用户特征收入小于收入小于50,000$50,000$垂拱而治垂拱而治n nCEO:怎样会使得用户购买我们的产品?n n计算机:刺
9、激销售(如中奖销售、打折优惠)会吸引他们购物n nCEO:促销的成本是多少?促销的最佳时机是什么时候?它会吸引多少新用户?n n计算机:“三拍三拍”而治而治管理活动的层次结构管理活动的层次结构决定战略目标决定战略目标资源有效利用资源有效利用完成具体活动完成具体活动安东尼模型安东尼模型管理活动各层次中信息的特征管理活动各层次中信息的特征信息的特征作业层管理层战略层来源来源主要来自内部主要来自内部主要来自外部主要来自外部范围范围规定明确,范围窄规定明确,范围窄范围宽范围宽概括性概括性具体、详细具体、详细概括的概括的时间性时间性当前的当前的预测性的预测性的流通性流通性流通、更新快流通、更新快陈旧的陈
10、旧的精度精度精度高精度高模糊的模糊的频度频度经常发生的经常发生的不经常发生的不经常发生的期待性期待性可预期的可预期的偶发的偶发的结构性结构性结构化的结构化的松散的松散的不同层次的信息处理需求不同层次的信息处理需求n n事务处理需求n n不同的事务处理子系统不同的事务处理子系统n n采购子系统:采购子系统:订单、订单细则、供应商订单、订单细则、供应商n n销售子系统:销售子系统:顾客、销售顾客、销售n n库存子系统:库存子系统:出库领料单、进料入库单、库存台帐出库领料单、进料入库单、库存台帐n n人事子系统:人事子系统:员工、部门员工、部门n n各种事务处理需求各种事务处理需求n n一笔订购、一
11、笔销售、一次进料、一次出料一笔订购、一笔销售、一次进料、一次出料n n要求n n强调多用户并发环境,数据的一致性、完整性强调多用户并发环境,数据的一致性、完整性不同层次的信息处理需求不同层次的信息处理需求n n分析处理需求n n今今年年销销售售量量下下降降的的因因素素(时时间间、地地区区、商商品品、销销售部门)售部门)n n某某种种商商品品今今年年的的销销售售情情况况与与以以往往相相比比,有有怎怎样样的的变变化化?每每年年的的第第一一季季度度商商品品销销售售在在各各类类商商品品上上的的分布情况怎样?分布情况怎样?n n要求n n多个子系统中的数据(数据集成)多个子系统中的数据(数据集成)n n
12、历史数据历史数据n n汇总、综合的数据汇总、综合的数据DSS早期演化阶段早期演化阶段19601965197019751980主文件报表太多主文件数据库-所有处理的单一数据源联机高性能事务处理单一数据库既用于事务处理,又用于DSSDSS早期演化阶段早期演化阶段n n抽取程序n n搜搜索索整整个个文文件件和和数数据据库库,使使用用某某些些标标准准选选取取合合乎乎限限制的数据,并把数据传到其他文件或数据库中制的数据,并把数据传到其他文件或数据库中n n优点优点n n将将数数据据从从事事务务处处理理应应用用中中转转移移出出来来,在在进进行行数数据据分分析析时时不会与事务处理发生冲突不会与事务处理发生冲
13、突n n当当将将数数据据从从事事务务处处理理应应用用中中抽抽取取出出来来之之后后,数数据据的的控控制制方式发生了转变,最终用户可以拥有抽取出来的数据方式发生了转变,最终用户可以拥有抽取出来的数据选择标准抽取程序DSS早期演化阶段早期演化阶段蜘蛛网从数据库到数据仓库从数据库到数据仓库n n事务处理与分析处理的性能特性不同n n事务处理环境事务处理环境n n数据存取操作频率高数据存取操作频率高n n每次操作处理的时间短每次操作处理的时间短n n占用系统资源少占用系统资源少n n系系统统可可以以允允许许多多个个用用户户按按分分时时方方式式使使用用资资源源,保保持持较较短短的响应时间的响应时间n n分
14、析处理环境分析处理环境n n运行时间长运行时间长n n消耗大量系统资源消耗大量系统资源n n事务与分析应用不宜放在同一中环境中事务与分析应用不宜放在同一中环境中从数据库到数据仓库从数据库到数据仓库n n数据集成问题n n事务处理事务处理n n目的是使业务自动化目的是使业务自动化n n只关注与本部门业务相关的当前数据只关注与本部门业务相关的当前数据n n事事务务处处理理应应用用的的分分散散:企企业业内内部部各各事事务务处处理理应应用用间间相相互互独立独立n nDSSDSS需要集成的数据需要集成的数据n n(内部各部门数据、外部数据、竞争对手数据)(内部各部门数据、外部数据、竞争对手数据)n nD
15、SSDSS需需要要对对分分散散在在各各个个事事务务处处理理应应用用中中的的相相关关数数据据进进行行集成,以向分析人员提供统一的数据视图集成,以向分析人员提供统一的数据视图数据仓库的定义数据仓库的定义数据粒度数据粒度n n粒度n n数据综合程度高低的一个度量数据综合程度高低的一个度量n n粒粒度度越越小小,越越细细节节,综综合合程程度度越越低低,回回答答查查询询种种类类越多,数据量大,性能低越多,数据量大,性能低小 粒度 大数据粒度数据粒度能回答不能回答上周张三给他在上海的女朋友打电话了吗?能回答能回答 性能低上月人们从华盛顿打出的长途电话平均次数?数据分割数据分割n n分割n n将将数数据据分
16、分散散到到各各自自的的物物理理单单元元中中去去,以以便便能能分分别别独独立处理,灵活地访问数据,提高效率立处理,灵活地访问数据,提高效率n n实际需要实际需要分析往往对某种相关性的数据集合进行分析往往对某种相关性的数据集合进行n n某一时段的数据某一时段的数据n n某一地区的数据某一地区的数据n n某特定业务领域的数据某特定业务领域的数据n n某一时段某特定业务领域的数据某一时段某特定业务领域的数据n n日期往往是自然而均匀的分割日期往往是自然而均匀的分割数据分割数据分割健康保险健康保险 人寿保险人寿保险 意外伤亡保险意外伤亡保险19881988 分片分片1 1分片分片2 2分片分片3 319
17、891989 分片分片4 4分片分片5 5分片分片6 619901990 分片分片7 7分片分片8 8分片分片9 9数据仓库的体系结构数据仓库的体系结构源数据库源数据库数据抽取、转换、装载数据抽取、转换、装载ETL工具数据建模工具中央元数据数据集市数据集市数据访问和分析工具数据访问和分析工具终端用户终端用户DW DW 工具工具中央数据仓库中央数据仓库中央数中央数据仓库据仓库中间层中间层数据数据集市集市数据数据集市集市局部元数据局部元数据局部元数据元数据交换终端用户终端用户DW DW 工具工具终端用户终端用户DW DW 工具工具多维数据库关系数据应用包历史数据外部数据数据清理工具关系数据库关系数
18、据库DW管理工具信息集成信息集成n n信息集成的定义n ninformation integrationinformation integrationn n把把存存储储在在两两个个或或多多个个信信息息源源中中的的数数据据提提取取出出来来,建建立立一一个个包包含含所所有有这这些些信信息息源源的的信信息息的的大大数数据据库库(该该数据库可以是虚拟的)数据库可以是虚拟的)n n信息集成的方式n n联邦数据库联邦数据库(federal database)(federal database)n n数据仓库数据仓库(data warehouse)(data warehouse)n n协调器协调器(medi
19、ator)(mediator)信息集成中的问题信息集成中的问题n n汽车公司有1000位代理商,想创建一个集成数据库,各个代理商使用不同的数据库模式代理商代理商1 1:Cars(serialNo,model,color,autotrans,Cars(serialNo,model,color,autotrans,cdPlayer,)cdPlayer,)代理商代理商2 2:Autos(serial,model,color),Autos(serial,model,color),Options(serial,option)Options(serial,option)n n问题n n数据类型不同数据类型
20、不同n n取值不同取值不同n n语义不同语义不同n n数据丢失数据丢失联邦数据库联邦数据库DB1DB1DB2DB2DB3DB3DB4DB4联邦数据库联邦数据库n n代理商1询问代理商2是否有自己所需要的汽车NeededCars(model,color,autoTrans)NeededCars(model,color,autoTrans)数据仓库数据仓库数据源数据源1 1数据源数据源1 1数据仓库数据仓库数据仓库数据仓库 导入代理商导入代理商1 1数据仓库数据仓库导入代理商导入代理商2 2协调器协调器数据源数据源1 1数据源数据源1 1协调器协调器协调器协调器包装器包装器n n包装器从协调器接受
21、各种查询,然后将查询翻译成数据源的术语,并将结果传送给协调器n n如何设计包装器?n n将协调器可能使用的查询进行分类,成为模板将协调器可能使用的查询进行分类,成为模板n n模板是带有代表常数的参数的查询模板是带有代表常数的参数的查询n n协调器提供常数,包装器执行给定好常数的查询协调器提供常数,包装器执行给定好常数的查询n n用用T=ST=S表表示示包包装装器器将将查查询询模模板板T T变变成成对对数数据据源源的的查询查询S S包装器生成器包装器生成器表表包装器包装器生成器生成器包装器模板包装器模板包装器模板包装器模板过滤器过滤器n n为为避避免免太太多多的的查查询询模模板板,只只给给包包装
22、装器器指指定定少少量量模模板板,它它返返回回查查询询所所需需结结果果的的超超集集,然然后后再再由由包包装装器器过过滤滤向向数据源所提供的结果数据源所提供的结果过滤器过滤器过滤器过滤器数据分析流程数据分析流程Spread SheetTable110151012109106103Size vs SpeedAccess Time(seconds)10-910-610-310 010 3CacheMainSecondaryDiscNearline TapeOfflineTapeOnlineTape10410210010-210-4Price vs SpeedAccess Time(seconds)10
23、-910-610-310 010 3CacheMainSecondaryDiscNearline TapeOfflineTapeOnlineTapeSize(B)$/MBExtracting+Visualizing计算计算 Vs 可视化可视化n n关系系统计算数据立方体n n可视化系统显示数据立方体一些分析需求一些分析需求n n用户想使用直方图n n用户想在不同粒度上运用聚集函数n nroll up&drill downroll up&drill downn n用户想使用交叉表sumM T W T F S S AIRHOTELFOODMISCF()G()H()Red Brick的扩展的扩展n
24、nN-tilen n将将所所有有元元组组按按值值大大小小分分为为n n个个连连续续区区间间,每每个个区区间间的元组个数相同,返回每个区间的平均值的元组个数相同,返回每个区间的平均值selectselect percentile,avg(salary)percentile,avg(salary)fromfrom EMPEMPgroupbygroupby N_tileN_tile(salary,10)(salary,10)asas percentile percentilen nRatio_To_Totaln n计算每个分组的和在总和中的比例计算每个分组的和在总和中的比例n nRankn n返回值
25、在所有列值中的序号返回值在所有列值中的序号TOPselect top n percent with ties select_listselect top n percent with ties select_listselect select top 5 title_id,price,typetop 5 title_id,price,typefrom from titlestitlesselect select toptop 5 title_id,price,type5 title_id,price,typefromfrom titlestitlesorder by price descord
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 技术
限制150内