大数据发展现况与趋势概述.pptx
大数据发展现况与趋势日 期:2016年6月22日单 位:贵阳大数据交易所报告人:专 业:信息管理硕士主 修:数据挖掘、决策支持经 历:从事富士康集团大数据业务15年内容项次项次主题主题内容重点内容重点报告时间报告时间1预备知识认识数据与目的5分钟2智能生活(1)视频5分钟3数据与生活案例学习30分钟4认识大数据大数据的前世今生大数据的定义中国大数据30分钟5从贵阳大数据交易所看贵阳大数据顶层设计大数据交易所贵阳大数据布局大数据交易所视频30分钟6大数据技术简介数据挖掘方法论30分钟7创意思考方法分享5分钟8智能生活(2)视频5分钟9互动交流10分钟预备知识(1/2)知识就是力量:人脑获取的的信息进行系统化的提炼、研究和分析,进而形成知识。信息就是能量:通过人脑次级思维活动,实现对原始数据的筛选、加工、创造,进而产生有意义的数据。数据就是变量:未经组织的数字、词语、声音、图像的纪录,可以来自测量仪器的实时记录,也可以来自人的知识。数据信息知识人类思维逻辑演进人类思维范式演进(摘自块数据2.0一书)知识、信息与数据的双向演进预备知识(2/2)数据的终极目的决策支持预测优化增加效益防范风险(目的)(方法)(目标)智能生活(1)-视频5分钟数据与生活l保险业l地产行业l零售行业l物流行业l政府治理思路:透过(大)数据在生活中的应用,进而了解大数据的型态、样式、影响与效益客户属性养车APP移动APP家庭成员商旅人群航空延误险旅游天气险手机被盗险行李遗失险专属理财保险寿险养老险教育险高端客群(保险公司)创新保险产品提升精算水平增加利润率提高投资收益稀有客群宠物险美甲险珠宝险保险行业大数据应用场景旅游业信息航空业信息医疗信息其他外部信息保险大数据源发掘设计提供发掘设计提供发掘设计提供获得分析分析位置信息1.常住人口2.年龄3.职业4.收入5.消费6.APP活跃程度7.其他土地价值土地投资成本地产开发风险案例:(身分)一家主要开发三线城市地产著名的房地产商。(事前)一次进入到一个城市时,当地政府非常欢迎,并拿出了一个拥有30万户籍人口的土地让房地产公司进行开发。(事中)房地产商开发完之后,发现房子卖出去很少,同30万户籍人口的需求完全不在一个数量级上,房子积压了不少,造成了较大损失。(原因)房地产商很困惑,究竟是什么原因导致了房子滞销,经过一段时间的调研,地产公司发现:1、30万户籍人口中有一半以上在其他城市工作2、并且未来不会回来购买住房,其开发地块的常住人口住房购买需求较低,相当于10万户籍人口的需求。(事后)地产商按照30万人口需求开发的住宅小区,很难在当地短期内卖出去。本次房地产投资损失较大,导致房地产商从当地房产市场退出。地产行业大数据应用场景居住人口数进入人口数活动规律发现降低设计提升商铺位置服务内容产品类型动线设计客流量消费额服务体验生活爱好年龄分布消费热点客户基本信息客户购物纪录购买喜好热门商品流行趋势时间周期商品组合改善动线货架布置推荐客户潜在需求商品精细化生产提升效率优化资源零售行业比较有名气的大数据案例就是沃尔玛的啤酒和尿布的故事,以及Target通过向年轻女孩寄送尿布广告而告知其父亲,女孩怀孕的故事。天猫和京东,已经通过客户的购买习惯,将客户日常需要的商品例如尿不湿,卫生纸,衣服等商品依据客户购买习惯事先进行准备。当客户刚刚下单,商品就会在24小时内或者30分钟内送到客户门口,提高了客户体验,让客户连后悔等时间都没有。零售行业大数据应用场景优化产品设计库存管理生产计划配置资源提升30%业绩供应链物流行业规模5万亿最后一公里物流3万亿元利润率30%下降20%中国的物流产业规模大概有5万亿左右,其中公里物流市场大概有3万亿左右。物流行业的整体净利润从过去的30%以上降低到了20%左右,并且下降的趋势明显。全国物流网路各个节点的运货需求和运力降低货车的返程空载率,降低超载率,减少重复路线运输,降低小规模运输比例建立基于地理位置和产业链的物流港口实现货物和运力的实时配比,提高物流行业的运输效率及时了解各个路线货物运送需求提升10%(约5000亿)收入大数据手段物流行业大数据应用场景返程空载重复运输小规模运输传统管理改善大数据提升政府治理能力意义重大国务院发布了促进大数据发展行动纲要中提到,将建立“用数据说话、用数据决策、用数据管理、用数据创新”的管理机制。1、揭示出与传统不同或难以展现的关联,增强政府决策的科学性2、提高政府监管市场、建立公平竞争环境的能力3、增强公共管理和服务能力,达到个性化和精准化服务的要求4、提升污染监控和环境保护成效,推进生态文明建设5、提高政府监管市场、建立公平竞争环境的能力大数据提升政府治理能力意义重大单位上海交通综合信息平台方式集成道路传感系统、出租车GPS系统、居民手机信号迁移、实时视频采集等多系统信息成效用以分析交通状况,增强交通管控措施的准确性和时效性,并提高了交通基础设施建设的科学决策水平。政府治理大数据应用场景(1/5)意义:揭示出与传统不同或难以展现的关联,增强政府决策的科学性单位北京,企北京,企业与与监管部管部门合作合作上海的公共信用信息服上海的公共信用信息服务平台平台方式利用互联网和金融行业数据归集包括法人和自然人监管、执法、审批、资质等1200多个信息事项、3亿多条数据成效打击非法集资、违法违规交易供部门监管和信息主体查询政府治理大数据应用场景(2/5)意义:提高政府监管市场、建立公平竞争环境的能力单位上海申康医上海申康医联工程工程上海民政局上海民政局方式已完整收集38家三级甲等医院数据,目前又扩大收集范围,包括来自上海、广州、武汉等城市和20多个地级市的近1亿就诊人群,形成国际上最大的电子健康档案信息库和PB级的医学影像档案库通过居民经济状况核对系统成效完成17.4万余户次申请家庭的经济状况核对,检出1.7万不合规户,节约公共财政19亿元。政府治理大数据应用场景(3/5)意义:提高政府监管市场、建立公平竞争环境的能力单位北京公众与环境研究中心方式采用汇总政府公布和志愿者收集数据等方式,制作了5大类13个子类的环境污染海量数据库成效直观展示各地各流域的环境质量和污染排放数据,还列出近15万家企业的环境监管记录,在监控污染状况、监督企业整改等方面发挥了重要作用。政府治理大数据应用场景(4/5)意义:提升污染监控和环境保护成效,推进生态文明建设单位广州市黄埔区广州市黄埔区重重庆庆方式面向社区整合大数据应用,实现“数据到楼、一图搞掂、一按全知、实时追踪、系统整合、条块融合、现场直播、问效于民”基于大数据的电子车牌技术为公安机关采集办案信息700多万条成效排查纠纷隐患7.2万宗,就地化解率达98%,将很多社会矛盾化解于基层。实时支持交通管理预防暴恐事件的能力政府治理大数据应用场景(5/5)意义:提高政府监管市场、建立公平竞争环境的能力经由上述案例认识,是否可以列举咱们自身经历(或感受)到的大数据应用?大数据的前世今生1890年1943年1989年1997年2007年2008年2010年2011年2012年2014年由赫尔曼*霍勒瑞斯发明的可以由机器处理的穿孔卡片,突破突破传统人口普人口普查的困的困难,该设备让美美国用一年的国用一年的时间就完成了原本用就完成了原本用8年的人口普年的人口普查活活动,在全球范围引发数据处理新纪元。英国“二战”期间开发能大规模数据处理的机器,并使用了第一台可编程的电子计算机进行运算,以每秒5 000字符的速度读卡,破译德军部队前方信息密码,帮助盟军成功登陆诺曼第。英国计算机科学家蒂姆*博纳斯*李开创了一个叫“万维网”的超文本系统,在全球范围内利用互联网实现信息共享。美国宇航局研究员迈克尔和大卫首次使用“大数据”这一语数来描述20世纪90年代面临的数据挑战。数据集之大,通常超出了主存储器、本地磁盘的存储能力,甚至远超磁盘的承载能力,故而称之为“大数据问题”。“大数据”一词开始在技术圈内出现。连线杂志发表文章阐述了数据泛滥带来的机遇和挑战,称大数据是“Petabtye(拍字节)时代”的开端。计算机社区联盟作为最早提出大数据概念的机构,发表大数据计算:在商务、科学和社会领域创建革命性突破白皮书,提出提出“大数据真正作用的是新用途和新见解,而非数据本身大数据真正作用的是新用途和新见解,而非数据本身”。肯尼斯.库克尔在经济学人上发表大数据专题报告:数据,无所不在的数据。他在报告中提到:“世界上有着无法想象的巨量数字信息,并以极快的速度增长。”库克尔因此成为最早洞见大数据时代趋势的数据科学家之一。IBM的“沃森”超级计算机每秒可扫描并分析4TB(4太字节,约2亿页文字量)的数据量,并在美国著名智力竞赛节目危险边缘上击败两名人类选手而夺冠,纽约时报将这一刻称为“大数据计算的胜利”。瑞士达沃斯召开的世界经济论坛上,大数据是主题之一,会上发布的报告大数据,大影响宣称,数据已经成为一种新的资产类别,就像货币或黄金一样。世界经济论坛以“大数据的回报与风险”为主题发布全球信息技术报告(第13版),美国白宫发布2014年全球“大数据”白皮书研究报告大数据:抓住机遇、保存价值鉴古知今:大数据的前世今生大数据定义大数据的定义最早是源自于企业而非学术机构至目前为止,对大数据概念的讨论也尚未停止。学术界、产业界及政府机构都从自身领域、立场出发进行不同的界定。至今大数据的定义可由四个角度进行认识:1、技术分析角度2、大数据应用价值角度3、大数据自身特征角度4、大数据对社会发展影响角度。大数据定义(1/4):技术分析角度【内容】关注的是对海量、复杂数据进行分析处理,从而获得信息和知识的技术手段【提出者】麦肯锡就认为,大数据是大小超出常规数据库工具的获取、储存、管理和分析能力的数据集,也指无法采用传统流程、工具处理或分析的信息,迫使用户采用非传统处理方法的数据集,数量级不一定要超过特定的数据存储容量值。维基百科认为,大数据是指无法再合理时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。数据集成软件商纳斯达克则认为,大数据包括海量数据和复杂数据类型,其规模超过传统数据库系统进行管理和处理的能力【内容】强调的是大数据的应用,关注的是从数据中获取有价值的信息和知识,最终目的是建立商业方面的竞争优势甚至是创新商业模式。【提出者】高德纳咨询公司认为,大数据是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。维克托迈尔舍恩伯格认为,大数据时代的来临使得人类第一次有机会和条件在非常多的领域和非常深入的层次获得和使用全面数据、完整数据和系统数据,深入探索现实世界的规律,获取过去不可能获取的知识,得到过去无法企及的商机。哈佛大学访问学者徐晋在大数据经济学中指出,大数据是指存在价值关联的海量数据。大数据的本质是社会经济的离散化解构与全息化重构,表现为行业海量数据的关系从量变到质变的转换(深度挖掘)。赵国栋、易欢欢等在大数据时代的历史机遇一书中指出,大数据是在多样的或者大量的数据中迅速获取信息的能力。大数据定义(2/4):大数据应用价值角度【内容】是从大数据本身特质和特点对大数据进行界定。又可分为定量与定性角度说明。【提出者】1、从量的角度:百度百科认为,大数据或称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到颉取、管理、处理并整理成为有助于企业经营决策的资讯。大数据科学家约翰*劳瑟认为,大数据就是任何超过了一台计算机处理能力的庞大数据量。2、从性质的角度:高德纳咨询公司分析师道格兰尼首次提出大数据的3V特征,即高速增长的数据体量(Volume),高速进出的数据运动(Velocity),高度异质的数据种类(Variety)。在此基础上,麦肯锡公司提出了大数据具有4V的特征,即:数据容量大(Volume)、数据类型繁多(Variety)、商业价值高(Value)、处理速度快(Velocity)。大数据定义(3/4):大数据自身特征角度【内容】强调大数据对人类社会生产生活方式、思维范式等产生的重大影响,认为大数据开启了人类发展的新阶段,并且认为这种范式的影响是持久而深远的。【提出者】维克托。迈尔-恩格教授提出,”大数据”所代表的是当今社会所独有的一种新型的能力以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品及服务,或深刻的洞见。中国工程院院士李国杰认为,理解大数据需要上升到文化和认识论的高度。数据文化的本质是尊重客观的实事求是,重视数据就是强调用事实说话,按理性思维的科学精神。大数据定义(4/4):大数据对社会发展影响角度中国的大数据战略2015年8月,促进大数据发展行动纲要的颁布,成为推动中国大数据发展的重要顶层设计和战略部署。党的十八届五中全会提出实施“国家大数据战略”,标志着大数据战略正式上升为国家战略。2016年3月,中华人民共和国国民经济和社会发展第十三个五年规划纲要,明确提出要把大数据作为国家的基础性战略资源。促进大数据发展行动纲要对大数据进行了全新界定,即“大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态”。这是国家层面对大数据最具权威的官方解读。这一新的定义,蕴含着大数据时代的三个基本特征,即新模式、新技术、新业态。科学认识这些特征可以帮助我们去探寻大数据带来的变化以及这些变化是如何发生的,这正是发现大数据的本质的过程。中国大数据的定义新模式:核心是新的思维范式。大数据不仅是一场技术革命,更是一场思维的革命。大数据思维范式的关键转变在于从人脑思维到电脑思维再到云脑思维的转变,这种思维具有以下特点:一是总体性,伴随着数据在采集、存储、分析等相关技术上的突破,对于数据的获取实现了从样本数据到全体数据的转变。二是容错性,精确性是小数据时代的产物,当数据量无限大时,绝对的精准不再是数据追求的主要目标。三是相关性,也就是人们只需知道“是什么”,而不用知道“为什么”。四是智能性,只能是大数据时代的显着特征,思维方式从自然思维向只能思维转变,不断提升机器设备或系统设置的社会计算能力和智能化水平,从而获得具有洞察力和新价值的数据,甚至类似于人类的智能。中国大数据的定义新技术:核心是新的信息技术。大数据本身是什么并不重要,重要的是大数据背后蕴含的价值所带来的影响。大数据具有“容量大、类型多、存取速度快、应用价值高”和“数据巨大、来源分散、格式多样”的特征,大数据的价值在于应用,必须依靠全新的处理方式,即新的数据采集技术、数据存储技术和拘束关联分析技术,从根本上解决“数据从哪里来、数据放在哪里、数据如何使用”这三大问题,实现通过数据发现新知识、创造新价值、提升新能力的目标。中国大数据的定义(1/3)新业态:核心是新的服务业态。大数据带来社会生产要素的开放共享、集约整合、协同开发和高效使用,改变了传统的生产方式和经济运行机制,持续激发商业模式创新,不断催生新业态。这种新业态以新的服务业态为核心,通过大数据驱动传统服务模式或商业模式的再创新。大数据在重构未来经济格局的同时,也将对传统的社会关系带来重构。中国大数据的定义(2/3)从贵阳大数据交易所看贵阳大数据顶层设计宏观微观政府企业国资控股的交易平台,接受政府监督与监管,因此具有公信力的,经市场供需进行数据资产现货价值发现,获得鉴价凭证(703项目)后,可编入资产负债表,进而影响企业股价和融资能力。观察市场使用本身数据情况,发现新蓝海。大数据交易所为开放数据重要渠道之一。交易所以企业市场化运作,利用政府无偿数据孵化与建立大数据交易生态圈大数据交易所为政府开放数据与市场应用的最后一哩路,政府可透过大数据交易所获得市场对开放数据的需求,进而做为数据开放的参考与依据透过大数据交易所有偿购回与政府治理有关数据产品(发挥拉动市场的力量)与提升政府治理能力内部经营使用指导决策优化管理不得违反国家安全、社会安全、商业隐私、个人安全等相关法律。贵阳大数据产业大数据商联盟:行业自律机制,确保会员资质,引领行业产生数据交易的法令法规、标准。陈刚市委书记6号:利用大数据进行政府治理7号:打造大数据产业链8号:利用大数据进行民生服务9号:引进高端产业产生大数据博士北京中关村项目参与北京朝阳区区长顶层设计战略布局任务与目的交易模式交易底线大数据交易所在贵阳大数据产业战略布局中的位置交易所(702)贵阳大数据发展1、策划国家级的大数据交易平台(系统)2、参与国家数据与数据交易标准的制定2.1国家大数据交易标准2.2大数据行业应用2.3大数据安全标准2.4大数据技术标准3、策划互联网金融+移动金融+众筹金融+大数据金融+大数据资产评估的整合4、大数据发展应用促进条例5、政府开放数据推动(省级:云上贵州、贵阳市政务数据交换平台+开放平台+交易平台(交易所负责)6、交管孵化器对外开放7、贵州获批建设全国首个国家级大数据综合实验区重点,进行7项试验8、数据铁笼9、党建红云8、举办国际级的数博会.9、举办国际级的大数据交易商联盟层级政策名称重点补充国家中共十八届五中全会的“十三五”规划建议实施国家大数据战略,推进数据资源开放共享。国家国务院促进大数据发展行动纲要开展区域试点,推进贵州等大数据综合试验区建设,促进区域性大数据基础设施的整合和数据资源的汇聚应用。贵州是此文件中唯一出现的省分名称国家国家发改委、工信部、中央网信办批覆同意贵州获批建设全国首个国家级大数据综合实验区1.开展数据资源共享开放试验。2.开展数据中心整合利用试验。3.开展大数据创新应用试验。4.开展大数据产业聚集试验。5.开展大数据资源流通试验。6.开展大数据国际合作试验。7.开展大数据制度创新试验。贵州省中共贵州省委第十一届六次全会“十三五”期间贵州要突出抓好大数据、大扶贫两大战略行动。贵州省贵州省大数据发展应用促进条例第18条描述培育数据交易市场,规范交易行为与不得损害国家、社会、个人合法利益第19条鼓励和引导数据交易当事人在依法设立的数据交易机构进行数据交易国家与地方政府政策重点Farecast&ITA Software2006年,微软以1.1亿美元的价格购买了埃齐奥尼的大数据公司Farecast(主打技术是依靠机票销售数据预测机票价格)。然而时隔两年后,谷歌以7亿美元的价格购买了为Farecast提供数据的ITA Software公司。TheWeather Company2015年10月28日,IBM公司宣布20亿美金收购,通过整合IBM行业领先的大数据和分析能力,以及The Weather的科学专业性和基于云计算的天气数据发布系统,来给企业带来实时的天气分析信息,帮助他们更好地进行决策。美国气象局大数据价值凸显美国1970年公开了气象数据。美国国内围绕这一项政府数据的资源,产生了将近300家新创企业,并延伸出数据清洗、分析、挖掘、数据应用等业态,直到现在,每年围绕这一业态产生的经济价值高达300亿美元。大数据成为资产云时代交易资产价值云应用创造大数据价值云计算形成大数据处理能力结构化数据半结构化数据非结构化数据结构化数据云存储增加数据广度和深度贵阳大数据交易所介绍视频10分钟大数据技术简介【数据采集】ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后载入到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。【数据存取】关系数据库、NOSQL、SQL等。【基础架构】云存储、分散式文件存储等。【数据处理】自然语言处理(NLP,Natural Language Processing)是研究人与电脑交互的语言问题的一门学科。处理自然语言的关键是要让电脑“理解”自然语言,所以自然语言处理又叫做自然语言理解(NLU,Natural Language Understanding),也称为计算语言学(Computational Linguistics。一方面它是语言资讯处理的一个分支,另一方面它是人工智慧(AI,Artificial Intelligence)的核心课题之一。【统计分析】假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因数分析、聚类分析、主成分分析、因数分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、bootstrap技术等等。【数据挖掘】分类(Classification)、估计(Estimation)、预测(Prediction)、相关性分组或关联规则(Affinity grouping or association rules)、聚类(Clustering)、描述和可视化、Description and Visualization)、复杂数据类型挖掘(Text,Web,图形图像,视频,音频等)【模型预测】预测模型、机器学习、建模模拟。【结果呈现】云计算、标签云、关系图等。大数据技术数据采矿是用来将数据中隐藏的资讯挖掘出来,所以使用了许多统计分析与Modeling 的方法,到数据中寻找有用的特征(Patterns)以及关连性(Relationships)。数据采矿(Data Mining)的介绍这些模式有两种用处:第一,了解数据的特征与关系可以提供你做决策所需要的资讯。譬如Association Model可以帮助超级市场或百货店规画如何摆设货品。第二,数据的特征可以帮助你做预测。例如你可以从一份邮寄名单预测出哪些客户最可能对你的推销做回应,所以你可以只对特定的对象做邮购推销,而不必浪费许多印刷费邮寄费而只得到很少的回应。一般而言,Data Mining功能可包含下列五项功能:分类(classification)推估(estimation)预测(prediction)关联分组(affinity grouping)同质分组(clustering)数据采矿的功能 数据采矿的”分类”功能功能功能说说明明按照分析对象的属性分门别类加以定义,建立类组(class)。例如将信用申请者的风险属性,区分为高度风险申请者,中度风险申请者及低度风险申请者。技巧使用的技巧有决策树决策树(decision tree),记忆基础推记忆基础推理理(memory-based reasoning)等。数据采矿的”推理”功能功能功能说说明明根据既有连续性数值之相关属性数据,以获致某一属性未知之值。例如按照信用申请者之教育程度、行为别来推估其信用卡消费量。技巧使用的技巧包括统计方法上之相关分析统计方法上之相关分析、回归分回归分析析及类神经网路类神经网路方法。数据采矿的”预测”功能功能功能说说明明根据对象属性之过去观察值来推估该属性未来之值。例如例如由顾客过去之刷卡消费量预测其未来之刷卡消费量。技巧使用的技巧包括回归分析、时间数列分析及类神经网路方法。功能功能说说明明从所有物件决定那些相关物件应该放在一起。例如超市中相关之盥洗用品(牙刷、牙膏、牙线),放在同一间货架上。技巧在客户行销系统上,此种功能系用来确认交叉销售(cross selling)的机会以设计出吸引人的产品群组。数据采矿的”关联分组”功能数据采矿的”同质分组”功能功能功能说说明明将异质母体中区隔为较具同质性之群组(clusters)。例如同质分组相当于行销术语中的区隔化(segmentation),但是,假定事先未对于区隔加以定义,而数据中自然产生区隔。技巧使用的技巧包括k-means法及agglomeration法。实践数据采矿功能的技术:算法群集算法Clustering决策树Decision Trees时间序列Time Series时序群集Sequence Clustering关联规则Association贝氏决策定理Nave Bayes类神经网路Neural Net线性回归Linear Regression罗吉斯回归Logistic Regression决策树(Decision Trees)利用一系列规则划分,建立树状图,可用于分类和预测。常用的演算法有CART、CHAID、ID3、C4.5、C5.0等。它的目标为找出数据中以前未知的相似群体,在许许多多的分析中,刚开始都运用到群集侦测技术,以作为研究的开端。这个技术涵盖范围相当广泛,包含基因演算法、类神经网路、统计学中的群集分析都有这个功能。群集算法(Clustering)时间序列(Time Series)也叫时间数列、历史复数或动态数列。它是将某种统计指标的数值,按时间先后顺序排到所形成的数列。根据时间序列所反映出来的发展过程、方向和趋势,进行类推或延伸,藉以预测下一段时间或以后若干年内可能达到的水平。关联规则(Association)又称关联规则,是数据挖掘的一个重要课题,用于从大量数据中挖掘出有价值的数据项之间的相关关系。关联规则一个经典的实例是购物篮分析(Market Basket Analysis)。超市对顾客的购买记录数据库进行关联规则挖掘,可以发现顾客的购买习惯,例如,购买产品X的同时也购买产品Y,于是,超市就可以调整货架的布局,比如将X产品和Y产品放在一起,增进销量。正如大多数数据挖掘技术一样,关联规则的任务在于减少潜在的大量杂乱无章的数据,使之成为少量的易于观察理解的静态数据。关联式规则多不考虑项目的次序,而仅考虑其组合。时序群集(Sequence Clustering)Sequence Discovery与Association关系很密切,所不同的是 Sequence Clustering中相关的 Item是以时间区分开来(例如:如果做了 X手术,则 Y病菌在手术后感染的机率是 45%。又例如:如果 A股票在某一天上涨12%,而且当天股市加权指数下降,则 B股票在两天之内上涨的机率是 68%)。罗吉斯回归分析(Logistic Analysis)当区别分析中群体不符合常态分配假设时,罗吉斯回归分析是一个很好的替代方法。罗吉斯回归分析并非预测事件(event)是否发生,而是预测该事件的机率。它将引数与因变数的关系假定是S行的形状,当引数很小时,机率值接近为零;当引数值慢慢增加时,机率值沿着曲线增加,增加到一定程度时,曲线协率开始减小,故机率值介于0与1之间。神经网路(Neural Net)模拟人的神经元功能,经过输入层,隐藏层,输出层等,对数据进行调整,计算,最后得到结果,用于分类和回归。类神经网路是以重复学习的方法,将一串例子交与学习,使其归纳出一足以区分的样式。若面对新的例证,神经网路即可根据其过去学习的成果归纳后,推导出新的结果,乃属于机器学习的一种。数据采撷的相关问题也可采类神经学习的方式,其学习效果十分正确并可做预测功能。所谓就是指因变数和自变数之间的关系是直线型的。回归分析预测法中最简单和最常用的是线性回归预测法。是对客观事物数量依存关系的分析是数理统计中的一个常用的方法是处理多个变数之间相互关系的一种数学方法线性回归模型是机率论中的一个结论,它跟随机变数的条件机率以及边缘机率分布有关。通常,事件A在事件B(发生)的条件下的机率,与事件B在事件A的条件下的机率是不一样的;然而,这两者是有确定的关系,贝氏定理就是这种关系的陈述。贝氏定理(Bayes theorem)项次问题类型适用技术(方法)举例1 预测离散属性1.1决策树演算法(Decision Trees)1.2贝氏机率分类演算法(Naive Bayes)1.3群集演算法(Clustering)1.4类神经网路演算法(Neural Network)1.a将潜在买家清单中的客户标帜为较佳或较差的潜在客户。1.b计算伺服器在未来6个月内失败的机率。1.c分类病人结果并探索相关因素。2 预测连续属性2.1决策树演算法(Decision Trees)2.2时间序列演算法(Time Series)2.3线性回归演算法(Linear Regression)2.a预测下一个年度的销售。2.b根据过去历史和季节性趋势来预测网站访客。2.c根据人口统计产生风险分数。3 预测顺序3.1时序群集演算法(Sequence Clustering)3.a执行公司网站的点选流分析。3.b分析导致伺服器失败的因素。3.c撷取及分析看诊期间的活动顺序,制定出以一般活动为主的最佳作法。4在交易中寻找通用项目的群组4.1关联分析演算法(Association )4.2决策树演算法(Decision Trees)4.a使用购物篮分析来决定产品位置。4.b向客户建议其他可购买的产品。4.c分析参加某事件之访客的调查数据,以找出相互关联的活动或摊位,并规划未来的活动。5寻找相似项目的群组5.1群集演算法(Clustering)5.2时序群集演算法(Sequence Clustering)5.a根据人口统计和行为等属性,建立病患风险评估群组。5.b依浏览及购买模式来分析使用者。5.c识别具有类似使用特性的伺服器。问题类型与方法选定SPSS和NCR在1996年为克莱斯勒做数据采矿时所订定,区分六大步骤:1.商业理解(Business Understanding)2.数据理解(Data Understanding)3.数据预备(Data Preparation)4.塑模(Modeling)5.评估(Evaluation)6.部署(或布署)(Deployment)数据挖掘标准流程(CRISP-DM)(CRoss-IndustryStandardProcess forDataMining)一个数据挖掘项目的生命周期包含六个阶段。这六个阶段的顺序是不固定的,我们经常需要前后调整这些阶段。最初的阶段集中在理解项目目标和从业务的角度理解需求,同时将这个知识转化为数据挖掘问题的定义和完成目标的初步计划。侧重点:l数据采矿的重心在于如何从数据中挖掘出知识以获取商业利润,因此整个数据采矿的核心必顸环绕在商业问题上,而不似学术实验室仅专注于演算法的推导与程式撰写。l资讯单位与使用者单位间的沟通l配合法规以及外在环境应变而改变既有的建模程序l成功的数据采矿顾问必顸同时具有三大专业,分别是算法与统计、数据库与资讯平台、产业专业知识,三者缺一不可业务理解(Business Understanding)侧重点:运用基础统计以提升数据分析人员对数据的熟悉度,并同时验证数据的品质分析数据的迷思:车流量与脉搏错误的取样会导致错误的结论必顸透过跟案例间比较才能够真正辨识出变数的意义数据理解阶段从初始的数据收集开始,通过一些活动的处理,目的是熟悉数据,识别数据的质量问题,首次发现数据的内部属性,或是探测引起兴趣的子集去形成隐含信息的假设。数据理解(Data Understanding)数据准备阶段包括从未处理数据中构造最终数据集的所有活动。这些数据将是模型工具的输入值。这个阶段的任务有个能执行多次,没有任何规定的顺序。任务包括表、记录和属性的选择,以及为模型工具转换和清洗数据。侧重点:l垃圾进;垃圾出(Garbage in,garbage out)l数据预处理l连续变数类别变数互换l遗漏值l极端值与标准化l衍生变数与筛选有效变数数据准备(Data Preparation)在这个阶段,可以选择和应用不同的模型技术,模型参数被调整到最佳的数值。一般,有些技术可以解决一类相同的数据挖掘问题。有些技术在数据形成上有特殊要求,因此需要经常跳回到数据准备阶段。侧重点:l选择合适的数据采矿技术与设定最佳的参数以建立模型建模(Modeling)到项目的这个阶段,你已经从数据分析的角度建立了一个高质量显示的模型。在开始最后部署模型之前,重要的事情是彻底地评估模型,检查构造模型的步骤,确保 模型可以完成业务目标。这个阶段的关键目的是确定是否有重要业务问题没有被充分的考虑。在这个阶段结束后,一个数据挖掘结果使用的决定必须达成。侧重点:l使用训练数据集(Training dataset)建立预测模型.l使用鉴效数据集(Validation dataset)来避免模型对于训练数据集产生记忆效应l使用测试数据集(testing dataset)来选择模型以及测量模型在预测未知数据的能力评估(Evaluation)通常,模型的创建不是项目的结束。模型的作用是从数据中找到知识,根据需求,这个阶段可以产生简单的报 告,或是实现一个比较复杂的、可重复的数据挖掘过程。在很多案例中,这个阶段是由客户而不是数据分析人员承担部署的工作。部署(Deployment)大数据已成为国家、企业乃至个人的重要资源而使用大数据的能力则成为国家、企业与个人的核心竞争力当数据、技术与硬件都到位后的最后一哩路:就是创意创意思考方法分享创意思考就要变知变:了解趋势变化应变:掌握问题解决创变:创新创意思考世界唯一不变的,就是一切都在变创意思考那里找u从过去经验找感u从现在问题找机会u从未来想象新创意u身边需求看到机会u报纸杂志趋势创意u跨界旅行刺激灵感u朋友对谈激发创意u大师专家分享实务u异业学习启发创新天时地利人和水平思考信息或问题创新创新(产品创新、行销创新、管理创新产品创新、行销创新、管理创新产品创新、行销创新、管理创新)垂直思考强调逻辑与推论重视选择强调不同角度观察重视多元综合思考1.联想法2.列举法3.类比法4.脑力激荡法5.六顶思考帽1.5个Why2.检核表法3.鱼骨图法4.决策树法5.金字塔法图象思考1.KJ法2.CPS法3.TRIZ法1.九宫格法2.心智图法3.图解技法创意思考的方法水平、垂直、综合创意是新而有用的想法新奇独特不同于一般人所会产生的想法或物品。合适可用不论是想法或物品一定要有它的功能,换言之,就是有用。重要贡献想法或物品要有发展的前途,才能对社会产生具体贡献。精致复杂品质越高,想法或物品越重要,创意也越高。新奇独特合适可用精致复杂重要贡献行动行动会带来更多的行动!会带来更多的行动!创造创造会带来更多的创造!会带来更多的创造!汇报完毕敬请指导智能生活(2)-视频5分钟