数据挖掘算法介绍--综述.ppt
《数据挖掘算法介绍--综述.ppt》由会员分享,可在线阅读,更多相关《数据挖掘算法介绍--综述.ppt(35页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据挖掘算法介绍-综述 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望改变未来世界的十大新兴技术改变未来世界的十大新兴技术nTechnology Review(麻省理工学院(麻省理工学院2002年年1月出刊)月出刊)机器与人脑的接口机器与人脑的接口塑胶晶体管塑胶晶体管数据挖掘(数据挖掘(Data Mining)数字权利管理数字权利管理生物测定学(生物测定学(Biometrics)语言识别处理语言识别处理微光学技术(微光学技术(Microphotonics)解开程序
2、代码(解开程序代码(Untangling Code)机器人设计机器人设计微应用流体学(微应用流体学(Microfluidics)2022/12/32什么是数据挖掘?什么是数据挖掘?DataInformationKnowledgeWisdomn存在太多数据挖掘的定义,但基本上有这样一种描述存在太多数据挖掘的定义,但基本上有这样一种描述结构结构To find/discover/extract /dredge/harvest、Interesting/novel/useful/implicit/actable/meaningful、Information/knowledge/patterns/tren
3、ds/rules/anomalies、In massive data/large data set/large database/data warehouse、Data+contextInformation+rulesKnowledge+experience2022/12/33为什么会出现数据挖掘?为什么会出现数据挖掘?n数据爆炸性增长是数据挖掘技术应运而生的根本原因。数据爆炸性增长是数据挖掘技术应运而生的根本原因。只见树木,不见森林(只见树木,不见森林(Drowning in data but starving for information)计算复杂度计算复杂度数据管理问题数据管理问题数据
4、类型的多样性数据类型的多样性处理大容量数据是数据挖掘技术区别于其他数据分析方法的唯一标志吗?2022/12/34其他数据分析方法:统计学其他数据分析方法:统计学n从处理数据的角度看、从处理数据的角度看、数据规模不同数据规模不同数据来源不同:观测数据(数据来源不同:观测数据(Secondary Analysis)VS 试验数据(试验数据(Primary Analysis)数据类型不同(结构化数据、半结构化数据、非结构化数据)数据类型不同(结构化数据、半结构化数据、非结构化数据)n从分析思想的角度看从分析思想的角度看更关注实证性分析(更关注实证性分析(Empirical Analysis)而非探索
5、性分析()而非探索性分析(Exploratory Analysis)更关注模型(更关注模型(Model)而非算法()而非算法(Algorithm)n但二者具有相当密切的联系但二者具有相当密切的联系从数据分析的角度,统计学现在是且仍将是数据挖掘最重要的技术支撑和思想源泉从数据分析的角度,统计学现在是且仍将是数据挖掘最重要的技术支撑和思想源泉更加深入的渗透和交叉(如探索性数据分析,更加深入的渗透和交叉(如探索性数据分析,EDA)数据挖掘是数据驱动的探索性分析!2022/12/35其他数据分析方法:商业智能其他数据分析方法:商业智能nE.F.Codd的数据分析模型的数据分析模型绝对模型(绝对模型(C
6、ategorical Model):依据预定义路径寻找原因,如查):依据预定义路径寻找原因,如查询询解释模型(解释模型(Exegetical Model):依据多层次路径寻找原因,如多维):依据多层次路径寻找原因,如多维分析分析思考模型(思考模型(Contemplative Model):参数化路径,如场景分析):参数化路径,如场景分析公式模型(公式模型(Formulaic Model):模型化路径,如数据挖掘):模型化路径,如数据挖掘ReportingAd Hoc QueriesPredictive ModelingWhat happened?Why did it happen?What w
7、ill happen?ROI应用复杂性应用复杂性Stage 3Stage 2Stage 1Human DiscoveryMachine-assisted Discovery现象 模型 误差数据挖掘寻找的是模型!2022/12/36数据挖掘数据挖掘数据挖掘是从数据挖掘是从数据挖掘是从数据挖掘是从大量数据大量数据大量数据大量数据中中中中提取出有效的、新颖的、有提取出有效的、新颖的、有提取出有效的、新颖的、有提取出有效的、新颖的、有潜在作用的、可信的、并能潜在作用的、可信的、并能潜在作用的、可信的、并能潜在作用的、可信的、并能最终被人理解的最终被人理解的最终被人理解的最终被人理解的模式模式模式模式(
8、pattern)pattern)的非平凡的处理的非平凡的处理的非平凡的处理的非平凡的处理过程。过程。过程。过程。KDD DM2022/12/37KDDKDD:knowledge discovery in database数据数据建模建模验证验证应用应用2022/12/38DMDM:datamingKDD的一个阶段KDD与DM等同2022/12/39DM is like setting up a restaurant kitchen.Starting a restaurantkitchenData MiningFood/InfoCooks/TeamKitchen/DWH2022/12/310数据
9、挖掘与其他学科的关系数据挖掘与其他学科的关系Data MiningDatabase TechnologyStatisticsOtherDisciplinesInformationScienceMachineLearning(AI)Visualization2022/12/311数据挖掘与数据挖掘与OLAPlOLAP(on-line analytical processing):l只能限制于少量的维度和数据类型只能限制于少量的维度和数据类型l用户控制的流程用户控制的流程l假设假设验证验证结论结论lDM:l没有明确假设的前提下去挖掘信息、发现知识没有明确假设的前提下去挖掘信息、发现知识具具 有未知
10、、有效、可实用三个特征有未知、有效、可实用三个特征 l能自动的发现隐藏在数据中的规律能自动的发现隐藏在数据中的规律l可以发现比可以发现比OLAP更复杂而细致的信息更复杂而细致的信息l未知未知归纳归纳结论结论l联系:联系:lOLAPDMlOLAM2022/12/312数据挖掘与统计学数据挖掘与统计学l数据挖掘:数据挖掘:l数据挖掘利用了统计数据挖掘利用了统计、人工智能人工智能、数据库等、数据库等技术,技术,把这些高深复杂的技术封装起来,使人们不用自己把这些高深复杂的技术封装起来,使人们不用自己掌握这些技术也能完成同样的功能,并且更专注于掌握这些技术也能完成同样的功能,并且更专注于自己所要解决的问
11、题自己所要解决的问题 ;l不仅仅是统计分析不仅仅是统计分析;l统计分析:统计分析:l统计分析技术都基于完善的数学理论和高超的技巧,统计分析技术都基于完善的数学理论和高超的技巧,预测的准确度还是令人满意的,但对使用者的要求预测的准确度还是令人满意的,但对使用者的要求很高很高 l联系联系l统计分析方法学的延伸和扩展统计分析方法学的延伸和扩展 l很多的挖掘算法来源于统计学很多的挖掘算法来源于统计学2022/12/313前景前景l预言:预言:l著名的咨询公司著名的咨询公司 Gartner Group在(在(2000年)一次高级年)一次高级技术调查将数据挖掘和人工智能列为技术调查将数据挖掘和人工智能列为
12、“未来三到五年内未来三到五年内将对工业产生深远影响的五大关键技术将对工业产生深远影响的五大关键技术”之首,并且还之首,并且还将并行处理体系和数据挖掘列为未来五年内投资焦点的将并行处理体系和数据挖掘列为未来五年内投资焦点的十大新兴技术前两位十大新兴技术前两位l国外现状:国外现状:l成熟、成熟、l产品:产品:SAS、CLEMENTINE、UNICA、各大数据库各大数据库l国内现状:国内现状:l起步起步l产品:大部分是实验室产品产品:大部分是实验室产品2022/12/314数据挖掘分类数据挖掘分类l挖掘对象挖掘对象基于数据库的挖掘基于数据库的挖掘基于基于web的挖掘的挖掘基于文本的挖掘基于文本的挖掘
13、其他:音频、视频等多媒体数据库其他:音频、视频等多媒体数据库2022/12/315数据挖掘分类数据挖掘分类l应用应用响应模型响应模型交叉销售交叉销售价值评估价值评估客户分群客户分群2022/12/316数据挖掘分类数据挖掘分类l挖掘模式挖掘模式l预测型预测型(Predictive)Predictive)l描述型描述型(Descriptive)Descriptive)l实际作用可分为以下几种模式:实际作用可分为以下几种模式:分类:对没有分类的数据进行分类;分类:对没有分类的数据进行分类;预测:用历史来预测未来;预测:用历史来预测未来;关联分析:关联规则;关联分析:关联规则;聚类:物以类聚;聚类:
14、物以类聚;序列模式:序列模式:在多个数据序列中发现共同的行为模式在多个数据序列中发现共同的行为模式;描述和可视化:数据挖掘的结果的表示形式描述和可视化:数据挖掘的结果的表示形式;偏差分析:偏差分析:从数据分析中发现异常情况。从数据分析中发现异常情况。2022/12/317数据挖掘分类数据挖掘分类l我的理解挖掘的算法分为三个层次:我的理解挖掘的算法分为三个层次:l模式:比如分类、聚类模式:比如分类、聚类l模型:决策树、神经网络模型:决策树、神经网络l算法:算法:ID3、CHAID、BPl举例:举例:l分类决策树分类决策树ID3、CHAID等;等;l聚类聚类分析聚类聚类分析k-means、EM等。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 算法 介绍 综述
限制150内