(本科)第11章数据挖掘工具教学ppt课件.ppt
《(本科)第11章数据挖掘工具教学ppt课件.ppt》由会员分享,可在线阅读,更多相关《(本科)第11章数据挖掘工具教学ppt课件.ppt(101页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、(本科)第11章 数据挖掘工具教学ppt课件第第1111章章 数据挖掘工具数据挖掘工具东北财经大学电子商务学院 马刚 教授商务智能商务智能第11章 数据挖掘工具11.1 SQL Server数据挖掘方案实施11.2 OLE DB for DM规范11.3 Microsoft数据挖掘模型的使用11.4 SQL Server数据挖掘编程 在SQL Server 2005中进行数据挖掘的步骤包括:设置数据源、创建和编辑挖掘模型、训练模型、查看挖掘结果、评价模型和预测六个步骤,如图11-1所示。 11.1 SQL Server11.1 SQL Server数据挖掘方案实施数据挖掘方案实施设置数据源创建
2、和编辑挖掘模型训练模型查看挖掘结果评价模型预测模型修改商务智能第11章 数据挖掘工具11.1 SQL Server数据挖掘方案实施11.2 OLE DB for DM规范11.3 Microsoft数据挖掘模型的使用11.4 SQL Server数据挖掘编程(1)设置数据源设置数据源 利用SQL Server 2005进行数据挖掘操作时,首先需要设置数据源,设置数据源主要包括创建数据源和使用数据源视图两个步骤。 (2)创建和编辑挖掘模型创建和编辑挖掘模型 当用户已经对需要分析的数据进行组织、选择和理解后,就可以开始数据挖掘的建模工作了。在Analysis Services中有两个主要的数据挖掘
3、对象:挖掘结构和挖掘模型。在SQL Server 2005中可以使用数据挖掘向导和DMX语句创建挖掘结构和挖掘模型。(3)模型训练模型训练 当用户完成数据挖掘的建模工作后就可以开始模型的训练过程了。在SQL Server 2005上可以通过相应的“处理挖掘结构”菜单或DMX语句进行数据挖掘模型的训练。 商务智能第11章 数据挖掘工具11.1 SQL Server数据挖掘方案实施11.2 OLE DB for DM规范11.3 Microsoft数据挖掘模型的使用11.4 SQL Server数据挖掘编程(4)查看挖掘结果查看挖掘结果 当用户创建并训练了模型之后,就需要查看、查询挖掘结果以便能够
4、理解和应用模型所提供的信息。Analysis Services为每个算法提供了相应的模型查看器,可以以图表和表格的形式进行挖掘结果的查看。(5)评价模型评价模型 挖掘模型是否符合用户的要求需要对挖掘模型的准确性进行评估,如果效果不理想,则需要对模型的相关参数进行调整或选择新的数据挖掘算法重新训练模型,如此循环,直到模型的准确性达到用户满意为止。(6)预测预测 在得到满意的模型后,就可以运用此模型对新数据进行预测,最终将数据转化成可以帮助企业或组织进行决策的信息。在Analysis Services中可以使用挖掘模型预测或DMX语句进行数据挖掘模型的预测。商务智能第11章 数据挖掘工具11.1
5、SQL Server数据挖掘方案实施11.2 OLE DB for DM规范11.3 Microsoft数据挖掘模型的使用11.4 SQL Server数据挖掘编程 OLE DB for DM规范最初是由Microsoft公司在2000年提出,并且得到了许多数据挖掘厂商(包括Angoss、KXEN和Megaputer等)的支持。 OLE DB for DM规范没有定义任何新的COM或OLE DB接口,而是定义了用于模型创建、模型训练和模型预测的强大的数据挖掘语言,也定义了一组模式行集,这些模式行集用于存储挖掘模型和挖掘算法的元数据。11.2 OLE DB for DM11.2 OLE DB f
6、or DM规范规范商务智能第11章 数据挖掘工具11.1 SQL Server数据挖掘方案实施11.2 OLE DB for DM规范11.3 Microsoft数据挖掘模型的使用11.4 SQL Server数据挖掘编程1. 事例事例 数据挖掘的主要任务是分析事例事例是信息的基本实体。它包含一组属性,例如Gender和Age。一组属性可以有一组可能的值,这组可能的值称为状态。例如,Gender属性有两种状态:Male和Female。2.事例键事例键 事例键是一个唯一确定每个事例的属性。事例键通常是关系表的主键。11.2.1 OLE DB for DM11.2.1 OLE DB for DM规
7、范中的基本概念规范中的基本概念商务智能第11章 数据挖掘工具11.1 SQL Server数据挖掘方案实施11.2 OLE DB for DM规范11.3 Microsoft数据挖掘模型的使用11.4 SQL Server数据挖掘编程3.嵌套键嵌套键 虽然事例键在关系术语中可以视为主键,但是嵌套键和外键是很不一样的。事例键仅仅是标识符,并且不包含任何模式,然而嵌套键是事例嵌套部分最重要的属性。在嵌套部分中的其他属性用于描述嵌套键。 例如,如果一个模型被设计用来学习客户购物行为的模式,其中的嵌套键是Product,Quantity等描述客户的购物情况的信息,嵌套键不是一个标识符,而是包含关于模式
8、的有用信息。例如:我们能使用嵌套键Product作为输入,来预测事例级属性Gender的值。11.2.1 OLE DB for DM11.2.1 OLE DB for DM规范中的基本概念规范中的基本概念商务智能第11章 数据挖掘工具11.1 SQL Server数据挖掘方案实施11.2 OLE DB for DM规范11.3 Microsoft数据挖掘模型的使用11.4 SQL Server数据挖掘编程4.事例表和嵌套表事例表和嵌套表 事例表是一个包含事例信息的表,这些信息与事例的平坦部分相关。嵌套表是一个包含与事例嵌套部分相关信息的表。嵌套表通常是一种事务表,比如购买历史、Web导航日志等
9、。通过使用事例键,嵌套表可以与事例表连接。5.标量列和表列标量列和表列 挖掘模型中存在两种类型的列结构:标量列和表列。大部分的列是标量列。一个记录中的每一个标量列的值是唯一的。例如:Gender和Age是标量列。表列是一个特殊的列,一个表列就是在一个列中嵌入一个表。11.2.1 OLE DB for DM11.2.1 OLE DB for DM规范中的基本概念规范中的基本概念商务智能第11章 数据挖掘工具11.1 SQL Server数据挖掘方案实施11.2 OLE DB for DM规范11.3 Microsoft数据挖掘模型的使用11.4 SQL Server数据挖掘编程6.数据挖掘模型数
10、据挖掘模型 数据挖掘模型包括键列、输入列和可预测列。每一种模型都与一个数据挖掘算法相关联,这个模型由这个数据挖掘算法训练。通过指定数据挖掘算法相关的算法参数值,训练一个挖掘模型就是在训练数据集中发现模式。7.模型训练模型训练 模型创建的概念是创建一个空的数据挖掘模型,类似于我们创建一个新的表。11.2.1 OLE DB for DM11.2.1 OLE DB for DM规范中的基本概念规范中的基本概念商务智能第11章 数据挖掘工具11.1 SQL Server数据挖掘方案实施11.2 OLE DB for DM规范11.3 Microsoft数据挖掘模型的使用11.4 SQL Server数
11、据挖掘编程8. 模型训练模型训练 模型训练也称为模型处理。它通常是调用数据挖掘算法来挖掘训练数据集里面的知识。在模型训练之后,模式被存储在挖掘模型之中。9. 模型预测模型预测 模型预测是指将训练挖掘模型所得到的模式应用于新的数据集,并且对每一个新事例的可预测列进行预测,以获取这些可预测列可预测的值。11.2.1 OLE DB for DM11.2.1 OLE DB for DM规范中的基本概念规范中的基本概念商务智能第11章 数据挖掘工具11.1 SQL Server数据挖掘方案实施11.2 OLE DB for DM规范11.3 Microsoft数据挖掘模型的使用11.4 SQL Serv
12、er数据挖掘编程 DMX(Data Mining Extensions)即数据挖掘扩展插件,适用于SQL Server 2005的数据挖掘领域,也叫数据挖掘语言。在介绍这种语言之前,我们先来回顾一下数据挖掘的三个基本步骤.11.2.2 DMX11.2.2 DMX(Data Mining ExtensionsData Mining Extensions)创建挖掘模型训练数据D M引擎挖掘模型挖掘模型 要进行预测的数据D M引擎预测得到的数据商务智能第11章 数据挖掘工具11.1 SQL Server数据挖掘方案实施11.2 OLE DB for DM规范11.3 Microsoft数据挖掘模型的
13、使用11.4 SQL Server数据挖掘编程第一步是创建一个挖掘模型 挖掘模型的定义包括输入列、可预测列的确定以及相关算法的选择。挖掘模型是一个容器,类似于关系数据表,它用于存储由数据挖掘算法所挖掘的模式。第二步是模型训练,也叫做模型处理 在这一步中,用户需将历史数据提供给数据挖掘引擎。 第三步是预测 为了预测,我们需要一个经过训练的挖掘模型和一个新的数据集。在预测的过程中,数据挖掘引擎将训练过程中发现的规则应用到新的数据集,同时将预测结果赋给每个输入事例。 11.2.2 DMX11.2.2 DMX(Data Mining ExtensionsData Mining Extensions)商
14、务智能第11章 数据挖掘工具11.1 SQL Server数据挖掘方案实施11.2 OLE DB for DM规范11.3 Microsoft数据挖掘模型的使用11.4 SQL Server数据挖掘编程 由于篇幅所限,在本节中,我们只介绍DMX语言用于数据挖掘模型的创建、模型训练以及模型预测的核心部分,关于DMX语言中相关的语法约定、函数使用、运算符参考等一些具体内容请读者参考SQL Server 2005的联机帮助。 1. 模型创建 因为数据挖掘模型是一个类似于关系表的容器,所以模型创建语句类似于关系表的创建,并且使用Create命令。下面是创建挖掘模型的示例: 11.2.2 DMX11.2
15、.2 DMX(Data Mining ExtensionsData Mining Extensions)商务智能第11章 数据挖掘工具11.1 SQL Server数据挖掘方案实施11.2 OLE DB for DM规范11.3 Microsoft数据挖掘模型的使用11.4 SQL Server数据挖掘编程 11.2.2 DMX11.2.2 DMX(Data Mining ExtensionsData Mining Extensions)下面是创建挖掘模型的示例:Create mining model MemberCard_Prediction(CustomerID long key,Gend
16、er text discrete,Age long continuous,Profession text discrete,Income long continuous,HouseOwner text discrete,MemberCard text discrete predict)Using Microsoft_Decision_Tree商务智能第11章 数据挖掘工具11.1 SQL Server数据挖掘方案实施11.2 OLE DB for DM规范11.3 Microsoft数据挖掘模型的使用11.4 SQL Server数据挖掘编程 2. 模型训练 模型训练也成为模型处理。在训练阶段
17、中,数据挖掘算法处理输入事例并且分析属性值之间的关系。模型训练完后,数据挖掘模型的内容以模式的形式保存。数据挖掘模型训练语句的语法与关系表的Insert语句的语法一样:11.2.2 DMX11.2.2 DMX(Data Mining ExtensionsData Mining Extensions)Insert into 商务智能第11章 数据挖掘工具11.1 SQL Server数据挖掘方案实施11.2 OLE DB for DM规范11.3 Microsoft数据挖掘模型的使用11.4 SQL Server数据挖掘编程 11.2.2 DMX11.2.2 DMX(Data Mining Ex
18、tensionsData Mining Extensions) 下面是MemberCard_Prediction模型的训练语句。数据源被存储在机器名为myserver的SQL Server数据库中。Insert into MemberCard_Prediction(CustomerID, Gender, Age, Profession, Income, HouseOwner, MemberCard)OpenSet(sqloledb, myserver; mylogin; mypwd,select CustomerID, Gender, Age, Profession, Income, Hous
19、eOwner, MemberCardFrom customers)商务智能第11章 数据挖掘工具11.1 SQL Server数据挖掘方案实施11.2 OLE DB for DM规范11.3 Microsoft数据挖掘模型的使用11.4 SQL Server数据挖掘编程 3. 模型预测 预测是指利用从历史数据中挖掘出来的模式来发现未知事例的信息。在DMX中,预测连接查询的语法与SQL连接查询的语法一样,共有3个部分:Select表达式、On条件和Where子句。Select表达式是一组用逗号分隔的表达式,每一表达式是来自输入表中的列,或者是挖掘模型中的可预测列和可预测函数。11.2.2 DMX
20、11.2.2 DMX(Data Mining ExtensionsData Mining Extensions)Select From On MemberCard_Prediction.age=NewCustomer.ageAnd MemberCard_Prediction.gender=NewCustomer.gender商务智能第11章 数据挖掘工具11.1 SQL Server数据挖掘方案实施11.2 OLE DB for DM规范11.3 Microsoft数据挖掘模型的使用11.4 SQL Server数据挖掘编程 11.2.2 DMX11.2.2 DMX(Data Mining E
21、xtensionsData Mining Extensions)下面是一个预测查询示例,用于预测客户的会员卡类型:Select T.CustomerID, T.LastName, M.MemberCardFrom MemberCard_Prediction Predition JoinOpenRowset(Microoft.Jet.OLEDB.4.0 , data source=c:customer.mdb , select * from customers) as TOn MemberCard_Prediction.Gender = T.GenderAnd MemberCard_Predic
22、tion.Age = T.AgeAnd MemberCard_Prediction.Profession = T.ProfessionAnd MemberCard_Prediction.Income = T.IncomeAnd MemberCard_Prediction.HouseOwner = T.HouseOwnerWhere NewCustomer.age 30商务智能第11章 数据挖掘工具11.1 SQL Server数据挖掘方案实施11.2 OLE DB for DM规范11.3 Microsoft数据挖掘模型的使用11.4 SQL Server数据挖掘编程 除了DMX语言之外,OL
23、E DB for DM规范还定义了一组模式行集。总的来说,模式行集是用来存放元数据的全局表。 在OLE DB for DM规范中,定义了7个模式行集:Mining_Services、Mining_Service_Parameters、Mining_Models、Mining_Columns、 Mining_Model_Content、Mining_Functions、Mining_Model_PMML。11.2.3 11.2.3 模式行集模式行集商务智能第11章 数据挖掘工具11.1 SQL Server数据挖掘方案实施11.2 OLE DB for DM规范11.3 Microsoft数据挖
24、掘模型的使用11.4 SQL Server数据挖掘编程1. Mining_Services模式行集模式行集 Mining_Services模式行集是对存储算法的描述,这些算法是在服务器中注册的。这些算法可能来自同一个数据挖掘提供程序,也可能来自不同的数据挖掘提供程序。 不同的算法能够处理不同类型的数据挖掘任务。他们支持的数据类型可能有区别。这些算法的列表、用法、局限性以及它们的功能全部出现在Mining_Services模式行集中。11.2.3 11.2.3 模式行集模式行集商务智能第11章 数据挖掘工具11.1 SQL Server数据挖掘方案实施11.2 OLE DB for DM规范11
25、.3 Microsoft数据挖掘模型的使用11.4 SQL Server数据挖掘编程11.2.3 11.2.3 模式行集模式行集表11-1 Mining_Services模式行集列 名列类型描 述SERVICE_NAMEDBTYPE_WSTR算法的名称。该名称特定于提供程序。通常和Create Mining Model命令一起使用来制定特定的算法SERVICE_TYPE_IDDBTYPE_U14用于描述挖掘服务类型的标志位,包含常用的挖掘服务,例如:分类、聚类,关联等PREDICTED_CONTENTDBTYPE_WSTR能够被预测的属性类型。SUPORTED_INPUT_CONTENT_TY
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 本科第11章 数据挖掘工具教学ppt课件 本科 11 数据 挖掘 工具 教学 ppt 课件
限制150内