(本科)第11章数据挖掘工具教学ppt课件.ppt
(本科)第11章 数据挖掘工具教学ppt课件第第1111章章 数据挖掘工具数据挖掘工具东北财经大学电子商务学院 马刚 教授商务智能商务智能第11章 数据挖掘工具11.1 SQL Server数据挖掘方案实施11.2 OLE DB for DM规范11.3 Microsoft数据挖掘模型的使用11.4 SQL Server数据挖掘编程 在SQL Server 2005中进行数据挖掘的步骤包括:设置数据源、创建和编辑挖掘模型、训练模型、查看挖掘结果、评价模型和预测六个步骤,如图11-1所示。 11.1 SQL Server11.1 SQL Server数据挖掘方案实施数据挖掘方案实施设置数据源创建和编辑挖掘模型训练模型查看挖掘结果评价模型预测模型修改商务智能第11章 数据挖掘工具11.1 SQL Server数据挖掘方案实施11.2 OLE DB for DM规范11.3 Microsoft数据挖掘模型的使用11.4 SQL Server数据挖掘编程(1)设置数据源设置数据源 利用SQL Server 2005进行数据挖掘操作时,首先需要设置数据源,设置数据源主要包括创建数据源和使用数据源视图两个步骤。 (2)创建和编辑挖掘模型创建和编辑挖掘模型 当用户已经对需要分析的数据进行组织、选择和理解后,就可以开始数据挖掘的建模工作了。在Analysis Services中有两个主要的数据挖掘对象:挖掘结构和挖掘模型。在SQL Server 2005中可以使用数据挖掘向导和DMX语句创建挖掘结构和挖掘模型。(3)模型训练模型训练 当用户完成数据挖掘的建模工作后就可以开始模型的训练过程了。在SQL Server 2005上可以通过相应的“处理挖掘结构”菜单或DMX语句进行数据挖掘模型的训练。 商务智能第11章 数据挖掘工具11.1 SQL Server数据挖掘方案实施11.2 OLE DB for DM规范11.3 Microsoft数据挖掘模型的使用11.4 SQL Server数据挖掘编程(4)查看挖掘结果查看挖掘结果 当用户创建并训练了模型之后,就需要查看、查询挖掘结果以便能够理解和应用模型所提供的信息。Analysis Services为每个算法提供了相应的模型查看器,可以以图表和表格的形式进行挖掘结果的查看。(5)评价模型评价模型 挖掘模型是否符合用户的要求需要对挖掘模型的准确性进行评估,如果效果不理想,则需要对模型的相关参数进行调整或选择新的数据挖掘算法重新训练模型,如此循环,直到模型的准确性达到用户满意为止。(6)预测预测 在得到满意的模型后,就可以运用此模型对新数据进行预测,最终将数据转化成可以帮助企业或组织进行决策的信息。在Analysis Services中可以使用挖掘模型预测或DMX语句进行数据挖掘模型的预测。商务智能第11章 数据挖掘工具11.1 SQL Server数据挖掘方案实施11.2 OLE DB for DM规范11.3 Microsoft数据挖掘模型的使用11.4 SQL Server数据挖掘编程 OLE DB for DM规范最初是由Microsoft公司在2000年提出,并且得到了许多数据挖掘厂商(包括Angoss、KXEN和Megaputer等)的支持。 OLE DB for DM规范没有定义任何新的COM或OLE DB接口,而是定义了用于模型创建、模型训练和模型预测的强大的数据挖掘语言,也定义了一组模式行集,这些模式行集用于存储挖掘模型和挖掘算法的元数据。11.2 OLE DB for DM11.2 OLE DB for DM规范规范商务智能第11章 数据挖掘工具11.1 SQL Server数据挖掘方案实施11.2 OLE DB for DM规范11.3 Microsoft数据挖掘模型的使用11.4 SQL Server数据挖掘编程1. 事例事例 数据挖掘的主要任务是分析事例事例是信息的基本实体。它包含一组属性,例如Gender和Age。一组属性可以有一组可能的值,这组可能的值称为状态。例如,Gender属性有两种状态:Male和Female。2.事例键事例键 事例键是一个唯一确定每个事例的属性。事例键通常是关系表的主键。11.2.1 OLE DB for DM11.2.1 OLE DB for DM规范中的基本概念规范中的基本概念商务智能第11章 数据挖掘工具11.1 SQL Server数据挖掘方案实施11.2 OLE DB for DM规范11.3 Microsoft数据挖掘模型的使用11.4 SQL Server数据挖掘编程3.嵌套键嵌套键 虽然事例键在关系术语中可以视为主键,但是嵌套键和外键是很不一样的。事例键仅仅是标识符,并且不包含任何模式,然而嵌套键是事例嵌套部分最重要的属性。在嵌套部分中的其他属性用于描述嵌套键。 例如,如果一个模型被设计用来学习客户购物行为的模式,其中的嵌套键是Product,Quantity等描述客户的购物情况的信息,嵌套键不是一个标识符,而是包含关于模式的有用信息。例如:我们能使用嵌套键Product作为输入,来预测事例级属性Gender的值。11.2.1 OLE DB for DM11.2.1 OLE DB for DM规范中的基本概念规范中的基本概念商务智能第11章 数据挖掘工具11.1 SQL Server数据挖掘方案实施11.2 OLE DB for DM规范11.3 Microsoft数据挖掘模型的使用11.4 SQL Server数据挖掘编程4.事例表和嵌套表事例表和嵌套表 事例表是一个包含事例信息的表,这些信息与事例的平坦部分相关。嵌套表是一个包含与事例嵌套部分相关信息的表。嵌套表通常是一种事务表,比如购买历史、Web导航日志等。通过使用事例键,嵌套表可以与事例表连接。5.标量列和表列标量列和表列 挖掘模型中存在两种类型的列结构:标量列和表列。大部分的列是标量列。一个记录中的每一个标量列的值是唯一的。例如:Gender和Age是标量列。表列是一个特殊的列,一个表列就是在一个列中嵌入一个表。11.2.1 OLE DB for DM11.2.1 OLE DB for DM规范中的基本概念规范中的基本概念商务智能第11章 数据挖掘工具11.1 SQL Server数据挖掘方案实施11.2 OLE DB for DM规范11.3 Microsoft数据挖掘模型的使用11.4 SQL Server数据挖掘编程6.数据挖掘模型数据挖掘模型 数据挖掘模型包括键列、输入列和可预测列。每一种模型都与一个数据挖掘算法相关联,这个模型由这个数据挖掘算法训练。通过指定数据挖掘算法相关的算法参数值,训练一个挖掘模型就是在训练数据集中发现模式。7.模型训练模型训练 模型创建的概念是创建一个空的数据挖掘模型,类似于我们创建一个新的表。11.2.1 OLE DB for DM11.2.1 OLE DB for DM规范中的基本概念规范中的基本概念商务智能第11章 数据挖掘工具11.1 SQL Server数据挖掘方案实施11.2 OLE DB for DM规范11.3 Microsoft数据挖掘模型的使用11.4 SQL Server数据挖掘编程8. 模型训练模型训练 模型训练也称为模型处理。它通常是调用数据挖掘算法来挖掘训练数据集里面的知识。在模型训练之后,模式被存储在挖掘模型之中。9. 模型预测模型预测 模型预测是指将训练挖掘模型所得到的模式应用于新的数据集,并且对每一个新事例的可预测列进行预测,以获取这些可预测列可预测的值。11.2.1 OLE DB for DM11.2.1 OLE DB for DM规范中的基本概念规范中的基本概念商务智能第11章 数据挖掘工具11.1 SQL Server数据挖掘方案实施11.2 OLE DB for DM规范11.3 Microsoft数据挖掘模型的使用11.4 SQL Server数据挖掘编程 DMX(Data Mining Extensions)即数据挖掘扩展插件,适用于SQL Server 2005的数据挖掘领域,也叫数据挖掘语言。在介绍这种语言之前,我们先来回顾一下数据挖掘的三个基本步骤.11.2.2 DMX11.2.2 DMX(Data Mining ExtensionsData Mining Extensions)创建挖掘模型训练数据D M引擎挖掘模型挖掘模型 要进行预测的数据D M引擎预测得到的数据商务智能第11章 数据挖掘工具11.1 SQL Server数据挖掘方案实施11.2 OLE DB for DM规范11.3 Microsoft数据挖掘模型的使用11.4 SQL Server数据挖掘编程第一步是创建一个挖掘模型 挖掘模型的定义包括输入列、可预测列的确定以及相关算法的选择。挖掘模型是一个容器,类似于关系数据表,它用于存储由数据挖掘算法所挖掘的模式。第二步是模型训练,也叫做模型处理 在这一步中,用户需将历史数据提供给数据挖掘引擎。 第三步是预测 为了预测,我们需要一个经过训练的挖掘模型和一个新的数据集。在预测的过程中,数据挖掘引擎将训练过程中发现的规则应用到新的数据集,同时将预测结果赋给每个输入事例。 11.2.2 DMX11.2.2 DMX(Data Mining ExtensionsData Mining Extensions)商务智能第11章 数据挖掘工具11.1 SQL Server数据挖掘方案实施11.2 OLE DB for DM规范11.3 Microsoft数据挖掘模型的使用11.4 SQL Server数据挖掘编程 由于篇幅所限,在本节中,我们只介绍DMX语言用于数据挖掘模型的创建、模型训练以及模型预测的核心部分,关于DMX语言中相关的语法约定、函数使用、运算符参考等一些具体内容请读者参考SQL Server 2005的联机帮助。 1. 模型创建 因为数据挖掘模型是一个类似于关系表的容器,所以模型创建语句类似于关系表的创建,并且使用Create命令。下面是创建挖掘模型的示例: 11.2.2 DMX11.2.2 DMX(Data Mining ExtensionsData Mining Extensions)商务智能第11章 数据挖掘工具11.1 SQL Server数据挖掘方案实施11.2 OLE DB for DM规范11.3 Microsoft数据挖掘模型的使用11.4 SQL Server数据挖掘编程 11.2.2 DMX11.2.2 DMX(Data Mining ExtensionsData Mining Extensions)下面是创建挖掘模型的示例:Create mining model MemberCard_Prediction(CustomerID long key,Gender text discrete,Age long continuous,Profession text discrete,Income long continuous,HouseOwner text discrete,MemberCard text discrete predict)Using Microsoft_Decision_Tree商务智能第11章 数据挖掘工具11.1 SQL Server数据挖掘方案实施11.2 OLE DB for DM规范11.3 Microsoft数据挖掘模型的使用11.4 SQL Server数据挖掘编程 2. 模型训练 模型训练也成为模型处理。在训练阶段中,数据挖掘算法处理输入事例并且分析属性值之间的关系。模型训练完后,数据挖掘模型的内容以模式的形式保存。数据挖掘模型训练语句的语法与关系表的Insert语句的语法一样:11.2.2 DMX11.2.2 DMX(Data Mining ExtensionsData Mining Extensions)Insert into 商务智能第11章 数据挖掘工具11.1 SQL Server数据挖掘方案实施11.2 OLE DB for DM规范11.3 Microsoft数据挖掘模型的使用11.4 SQL Server数据挖掘编程 11.2.2 DMX11.2.2 DMX(Data Mining ExtensionsData Mining Extensions) 下面是MemberCard_Prediction模型的训练语句。数据源被存储在机器名为myserver的SQL Server数据库中。Insert into MemberCard_Prediction(CustomerID, Gender, Age, Profession, Income, HouseOwner, MemberCard)OpenSet(sqloledb, myserver; mylogin; mypwd,select CustomerID, Gender, Age, Profession, Income, HouseOwner, MemberCardFrom customers)商务智能第11章 数据挖掘工具11.1 SQL Server数据挖掘方案实施11.2 OLE DB for DM规范11.3 Microsoft数据挖掘模型的使用11.4 SQL Server数据挖掘编程 3. 模型预测 预测是指利用从历史数据中挖掘出来的模式来发现未知事例的信息。在DMX中,预测连接查询的语法与SQL连接查询的语法一样,共有3个部分:Select表达式、On条件和Where子句。Select表达式是一组用逗号分隔的表达式,每一表达式是来自输入表中的列,或者是挖掘模型中的可预测列和可预测函数。11.2.2 DMX11.2.2 DMX(Data Mining ExtensionsData Mining Extensions)Select From On MemberCard_Prediction.age=NewCustomer.ageAnd MemberCard_Prediction.gender=NewCustomer.gender商务智能第11章 数据挖掘工具11.1 SQL Server数据挖掘方案实施11.2 OLE DB for DM规范11.3 Microsoft数据挖掘模型的使用11.4 SQL Server数据挖掘编程 11.2.2 DMX11.2.2 DMX(Data Mining ExtensionsData Mining Extensions)下面是一个预测查询示例,用于预测客户的会员卡类型:Select T.CustomerID, T.LastName, M.MemberCardFrom MemberCard_Prediction Predition JoinOpenRowset(Microoft.Jet.OLEDB.4.0 , data source=c:customer.mdb , select * from customers) as TOn MemberCard_Prediction.Gender = T.GenderAnd MemberCard_Prediction.Age = T.AgeAnd MemberCard_Prediction.Profession = T.ProfessionAnd MemberCard_Prediction.Income = T.IncomeAnd MemberCard_Prediction.HouseOwner = T.HouseOwnerWhere NewCustomer.age 30商务智能第11章 数据挖掘工具11.1 SQL Server数据挖掘方案实施11.2 OLE DB for DM规范11.3 Microsoft数据挖掘模型的使用11.4 SQL Server数据挖掘编程 除了DMX语言之外,OLE DB for DM规范还定义了一组模式行集。总的来说,模式行集是用来存放元数据的全局表。 在OLE DB for DM规范中,定义了7个模式行集:Mining_Services、Mining_Service_Parameters、Mining_Models、Mining_Columns、 Mining_Model_Content、Mining_Functions、Mining_Model_PMML。11.2.3 11.2.3 模式行集模式行集商务智能第11章 数据挖掘工具11.1 SQL Server数据挖掘方案实施11.2 OLE DB for DM规范11.3 Microsoft数据挖掘模型的使用11.4 SQL Server数据挖掘编程1. Mining_Services模式行集模式行集 Mining_Services模式行集是对存储算法的描述,这些算法是在服务器中注册的。这些算法可能来自同一个数据挖掘提供程序,也可能来自不同的数据挖掘提供程序。 不同的算法能够处理不同类型的数据挖掘任务。他们支持的数据类型可能有区别。这些算法的列表、用法、局限性以及它们的功能全部出现在Mining_Services模式行集中。11.2.3 11.2.3 模式行集模式行集商务智能第11章 数据挖掘工具11.1 SQL Server数据挖掘方案实施11.2 OLE DB for DM规范11.3 Microsoft数据挖掘模型的使用11.4 SQL Server数据挖掘编程11.2.3 11.2.3 模式行集模式行集表11-1 Mining_Services模式行集列 名列类型描 述SERVICE_NAMEDBTYPE_WSTR算法的名称。该名称特定于提供程序。通常和Create Mining Model命令一起使用来制定特定的算法SERVICE_TYPE_IDDBTYPE_U14用于描述挖掘服务类型的标志位,包含常用的挖掘服务,例如:分类、聚类,关联等PREDICTED_CONTENTDBTYPE_WSTR能够被预测的属性类型。SUPORTED_INPUT_CONTENT_TYPESDBTYPE_WSTR下面列出了一个或多个用逗号分隔的类型:KEY、DISCRETE、CONTINUOUS、DISCRETIZED等SUPPORTED_PREDICTION_CONTENT_TYPESDBTYPE_WSTR同上TRAINING_COMPLEXITYDBTYPE_U14期望的训练时间(高、中、低)PREDICTION _COMPLEXITYDBTYPE_U14期望预测的时间(高、中、低)商务智能第11章 数据挖掘工具11.1 SQL Server数据挖掘方案实施11.2 OLE DB for DM规范11.3 Microsoft数据挖掘模型的使用11.4 SQL Server数据挖掘编程2. ServicesParameters模式行集模式行集 Service_Parameters模式行集是一种简单的模式行集,该模式行集为每一个已注册的数据挖掘算法提供一些参数以及这些参数的默认值。这些参数通常在模型创建语句中使用。表11-2列出了Service_Parameters模式行集中一些重要的列。11.2.3 11.2.3 模式行集模式行集列 名列类型描 述SERVICE_NAMEDBTYPE_WSTR算法的名称。该名称特定于提供程序PARAMETER_NAMEDBTYPE_WSTR参数名称PARAMETER_TYPEDBTYPE_WSTR参数的数据类型IS_REQUIREDDBTYPE_WSTR如果该值为true,则必须包含这个参数DESCRIPTIONDBTYPE_WSTR描述参数格式和作用的文本商务智能第11章 数据挖掘工具11.1 SQL Server数据挖掘方案实施11.2 OLE DB for DM规范11.3 Microsoft数据挖掘模型的使用11.4 SQL Server数据挖掘编程3. Mining_Models模式行集模式行集 Mining_Models模式行集存储数据挖掘模型。这个行集存储挖掘模型的名称、挖掘模型采用的算法、模型创建语句等信息。表11-3列出类Mining_Models模式行集中一些重要的列。11.2.3 11.2.3 模式行集模式行集列 名列类型描 述MODEL_NAMEDBTYPE_WSTR模型的名称,这个列不能为NullSERVICE_TYPE_IDDBTYPE_U14描述挖掘服务的标志位SERVICE_NAMEDBTYPE_WSTR特定于提供程序的算法名称,描述用来产生模型的算法CREATION_STATEMENTDBTYPE_WSTR可选项。用于创建原始的数据挖掘模型的语句IS_POPULATEDDBTYPE_BOOL指出模型是否经过训练商务智能第11章 数据挖掘工具11.1 SQL Server数据挖掘方案实施11.2 OLE DB for DM规范11.3 Microsoft数据挖掘模型的使用11.4 SQL Server数据挖掘编程4. Mining_Columns模式行集模式行集 Mining_Columns模式行集存储挖掘模型每一列的信息。列的信息包括列的名称、数据类型、分布标志等,表11-4列出了Mining_Columns模式行集中一些重要的列11.2.3 11.2.3 模式行集模式行集列 名列类型描 述COLUMN_NAMEDBTYPE_WSTR列的名称:这个值可能不唯一。如果列名不能确定,则返回NullDISTRIBUTION_FLAGDBTYPE_WSTR列值的分布类型,比如:normal、log_nomal、uniform、position等CONTENT_TYPEDBTYPE_WSTR内容类型,可能的值有:KEY、DISCRETE、CONTINUOUS、DISCRETIZED等RELATED_TYPEDBTYPE_WSTR当前列的目标列名称,该当前列要么与目标列相关,要么是目标列的一个特殊属性商务智能第11章 数据挖掘工具11.1 SQL Server数据挖掘方案实施11.2 OLE DB for DM规范11.3 Microsoft数据挖掘模型的使用11.4 SQL Server数据挖掘编程5. Mining_Model_Content模式行集模式行集Mining_Model_Content模式行集是最重要的模式行集。它存储挖掘模型的内容,也就是通过数据挖掘算法对训练数据集进行挖掘而得到的模式。这些模式以表的形式重新构造,以便存储在这个行集中。表11-5给出了Mining_Model_Content模式行集中一些重要的列。11.2.3 11.2.3 模式行集模式行集商务智能第11章 数据挖掘工具11.1 SQL Server数据挖掘方案实施11.2 OLE DB for DM规范11.3 Microsoft数据挖掘模型的使用11.4 SQL Server数据挖掘编程11.2.3 11.2.3 模式行集模式行集表11-5 Mining_Model_Content模式行集列 名列类型描 述MODEL_NAMEDBTYPE_WSTR模型名称ATTRIBUTE_NAMEDBTYPE_WSTR与这个节点相对应的属性名称。对于一个模型节点来说,则是一系列可预测的属性。对于一个分布叶节点来说,则是该分布对应的一个单一属性NODE_NAMEDBTYPE_WSTR节点的名称NODE_TYPEDBTYPE_WSTR节点的类型。例如:聚类节点、树叶节点、模型根节点等。PARENT_UNIQUE_NAMEDBTYPE_WSTR节点的父节点名称,这个值是唯一的。如果为Null,则表示该节点是根节点。对于产生唯一名称的提供程序,这个名称的每一个部分都进行了界定NODE_DESCRIPTIONDBTYPE_WSTR节点的自然描述语言NODE_RULEDBTYPE_WSTR节点包含的规则,以XML形式描述商务智能第11章 数据挖掘工具11.1 SQL Server数据挖掘方案实施11.2 OLE DB for DM规范11.3 Microsoft数据挖掘模型的使用11.4 SQL Server数据挖掘编程6. Mining_Functions模式行集模式行集有些预测函数是所有挖掘算法都支持的,而有些预测函数是针对某个特定算法的。例如,聚类算法支持Cluster()函数。在Microsoft Data Mining Provider中,有两个算法支持Cluster()函数:Microoft聚类算法和Microoft序列聚类算法。Mining_Functions模式行集常用于描述一系列预定义函数,其中重要的列如表11-6所示。11.2.3 11.2.3 模式行集模式行集列 名列类型描 述SERVICE_NAMEDBTYPE_WSTR算法或服务的名词FUNCTION_NAMEDBTYPE_WSTR函数的名词RETURNS_TABLEDBTYPE_BOOL返回的值可能是表值也可能是标量值。如果这个属性设置为true,则返回一个表DESCRIPTIONDBTYPE_WSTR函数的描述商务智能第11章 数据挖掘工具11.1 SQL Server数据挖掘方案实施11.2 OLE DB for DM规范11.3 Microsoft数据挖掘模型的使用11.4 SQL Server数据挖掘编程7. Model_PMML模式行集模式行集Model_PMML模式行集用来存储每一个模型内容的XML描述。XML字符串的格式遵循PMML标准。这个模式行集中最重要的列是Model_PMML,它是关于模型内容的PMML文档。表11-7列出了Model_PMML模式行集中一些重要的列。11.2.3 11.2.3 模式行集模式行集列 名列类型描 述MODEL_NAMEDBTYPE_WSTR模型的名称。这一列不能为NullMODEL_TYPEDBTYPE_WSTR模型类型。特定于提供程序的一个字符串MODEL_GUIDDBTYPE_GUID模型的GUID,模型的唯一标识符。在这个列中,如果没有使用GUID指定表的提供程序,则应该返回NullMODEL_PMMLDBTYPE_WSTR模型内容的XML描述,使用PMML格式SIZEDBTYPE_WSTRXML字符串的长度商务智能第11章 数据挖掘工具11.1 SQL Server数据挖掘方案实施11.2 OLE DB for DM规范11.3 Microsoft数据挖掘模型的使用11.4 SQL Server数据挖掘编程 数据挖掘是一个过程,它从大量的数据中抽取出有价值的信息或知识以便为决策提供依据。数据挖掘的工具有很多,本书以MS SQL Server 2005为例对数据挖掘的过程进行介绍,MS SQL Server 2005中的Analysis Services中提供了大量数据挖掘模型:决策树、关联规则、聚类分析、神经网络、逻辑回归等,由于篇幅有限,本节将以Microsoft决策树挖掘模型为例介绍数据挖掘的整个过程,并介绍了不同模型在参数设置上的不同,读者可结合本节和MS SQL Server 2005的联机丛书进行学习。11.3 Microsoft11.3 Microsoft数据挖掘模型的使用数据挖掘模型的使用商务智能第11章 数据挖掘工具 Microsoft决策树是Microsoft研究院开发的混合型的决策树算法,主要用来完成分类工作。Microsoft决策树的英文名称是Microsoft Decision Trees,而不是Microsoft Decision Tree,这是因为在Microsoft决策树算法中,可以通过不同的算法参数设置得到不同节点拆分条件与不同形状的决策树。 下面将在SQL Server 2005中引入的一个新的示例数据库AdventureWorksDW的基础上,学习如何使用Microsoft决策树算法。11.3.1 Microsoft11.3.1 Microsoft决策树挖掘模型的使用决策树挖掘模型的使用( (以以Microsoft Decision TreesMicrosoft Decision Trees为例为例) )11.1 SQL Server数据挖掘方案实施11.2 OLE DB for DM规范11.3 Microsoft数据挖掘模型的使用11.4 SQL Server数据挖掘编程商务智能第11章 数据挖掘工具1.理解算法参数 Complexity_Penalty参数参数。主要用来控制决策树的生长,Complexity_Penalty是一个定义在0,1区间上的浮点数。如果Complexity_Penalty被设置为接近0,则表示在模型训练中对于树的生长不做任何的限制,最终的结果将会得到一棵很大的树;如果这个值的设置接近1,那么决策树的每次生长都会受到限制,最终会得到一棵很小的树。 Minimum_Support参数。参数。指定每个分类中的最小事例数。默认值为1。11.3.1 Microsoft11.3.1 Microsoft决策树挖掘模型的使用决策树挖掘模型的使用( (以以Microsoft Decision TreesMicrosoft Decision Trees为例为例) )11.1 SQL Server数据挖掘方案实施11.2 OLE DB for DM规范11.3 Microsoft数据挖掘模型的使用11.4 SQL Server数据挖掘编程商务智能第11章 数据挖掘工具1.理解算法参数 S Score_Method参数。参数。它用来指定当树生长时计算树分裂指数的参数。如果采用信息熵来控制树的增长则Score_Method设为1.Microsoft决策树提供了几种拆分方法:Bayesian with K2 方法,Score_Method设为3、Bayesian Dirichlet Equivalent (BDE)方法,Score_Method设为4。 Split_Method是一个整型参数。是一个整型参数。该参数用来控制树的形状。 Maximum_Input_Attribute参数。参数。这是一个特征选择的阀值参数。当输入属性的数量多于这个参数设置的值时,该算法将会隐式调用特征选择技术来选择最重要的输入属性。11.3.1 Microsoft11.3.1 Microsoft决策树挖掘模型的使用决策树挖掘模型的使用( (以以Microsoft Decision TreesMicrosoft Decision Trees为例为例) )11.1 SQL Server数据挖掘方案实施11.2 OLE DB for DM规范11.3 Microsoft数据挖掘模型的使用11.4 SQL Server数据挖掘编程商务智能第11章 数据挖掘工具1.理解算法参数 Maximum_Onput_Attribute参数。参数。这也是一个特征选择的阀值参数,当可预测的属性数量多于这个参数设置的值时,该算法将会隐式调用特征选择技术来选择最重要的可预测属性,针对所选的每一个可预测属性来创建一棵树。 Force_Regressor参数。参数。它是用来控制回归树的参数。使用这个参数,可以强制使用回归并使用指定的某一属性作为回归的量。此参数只用于预测连续属性的决策树。11.3.1 Microsoft11.3.1 Microsoft决策树挖掘模型的使用决策树挖掘模型的使用( (以以Microsoft Decision TreesMicrosoft Decision Trees为例为例) )11.1 SQL Server数据挖掘方案实施11.2 OLE DB for DM规范11.3 Microsoft数据挖掘模型的使用11.4 SQL Server数据挖掘编程商务智能第11章 数据挖掘工具2.挖掘操作流程 下面的例子我们将选择SQL Server 2005中的示例数据库AdventureWorksDW,读者可以在安装SQL Server 2005的过程中选择安装该数据库,也可以到微软的网站上下载该数据库然后进行安装,具体的安装过程请读者参见SQL Server 2005的联机丛书。 下面将以AdventureWorksDW中的vTargetMail视图为数据源,根据客户的相关属性来预测客户是否是Bike Buyer。由于该数据库没有提供一些新客户的数据使我们能够根据得到的挖掘模型进行预测,我们将人为的把vTargetMail中的后2000条数据取出,放入新表NewCustomer中,并把BikeBuyer列的值清除(相关的步骤请读者参阅相关资料后自行操作),以便使用通过训练得到挖掘模型进行预测。11.3.1 Microsoft11.3.1 Microsoft决策树挖掘模型的使用决策树挖掘模型的使用( (以以Microsoft Decision TreesMicrosoft Decision Trees为例为例) )11.1 SQL Server数据挖掘方案实施11.2 OLE DB for DM规范11.3 Microsoft数据挖掘模型的使用11.4 SQL Server数据挖掘编程商务智能第11章 数据挖掘工具2.挖掘操作流程 做好了准备工作以后,即可开始数据挖掘工作,本部分将介绍使用Microsoft决策树算法进行数据挖掘的流程,整个流程分为数据源的设置、数据源视图的设置和创建数据挖掘结构三个步骤。(1)数据源的设置 设置数据源,有专门的向导对话框可以使用。根据对话框不同页面的提示,可以轻松的完成数据源的设置。具体的操作过程如下:步骤步骤1 1 启动SQL Server BIDS,执行【文件】/【新建】/【项目】命令,创建一个名为TargetMail的Analysis Services项目。然后在【解决方案资源管理器】窗口中,在TargetMail项目下的“数据源”文件夹上右击,打开右键菜单,执行【新建数据源】命令,打开【数据源向导对话框】。11.3.1 Microsoft11.3.1 Microsoft决策树挖掘模型的使用决策树挖掘模型的使用( (以以Microsoft Decision TreesMicrosoft Decision Trees为例为例) )11.1 SQL Server数据挖掘方案实施11.2 OLE DB for DM规范11.3 Microsoft数据挖掘模型的使用11.4 SQL Server数据挖掘编程商务智能第11章 数据挖掘工具2.挖掘操作流程 步骤步骤2 2 单击【下一步】按钮,切换到【选择如何定义连接】页面,如下图所示,选中“基于现有连接或新建连接创建数据源”,由于没有现有连接,因此,单击【新建】按钮,打开【连接管理器】对话框,如图所示。11.3.1 Microsoft11.3.1 Microsoft决策树挖掘模型的使用决策树挖掘模型的使用( (以以Microsoft Decision TreesMicrosoft Decision Trees为例为例) )11.1 SQL Server数据挖掘方案实施11.2 OLE DB for DM规范11.3 Microsoft数据挖掘模型的使用11.4 SQL Server数据挖掘编程商务智能第11章 数据挖掘工具2.挖掘操作流程11.3.1 Microsoft11.3.1 Microsoft决策树挖掘模型的使用决策树挖掘模型的使用( (以以Microsoft Decision TreesMicrosoft Decision Trees为例为例) )11.1 SQL Server数据挖掘方案实施11.2 OLE DB for DM规范11.3 Microsoft数据挖掘模型的使用11.4 SQL Server数据挖掘编程商务智能第11章 数据挖掘工具2.挖掘操作流程 步骤步骤3 3 如下图所示,单击左边的【连接】按钮,切换到【连接】页面;在“提供程序”下拉列表中选择合适的提供程序,本案例选择默认的提供程序“本机OLE DBSQL Native Client”;在“服务器”名下拉列表中选择localhost,也可以在下拉列表中选择在网络中存在的SQL