第2章知识发现过程与应用结构精选文档.ppt
《第2章知识发现过程与应用结构精选文档.ppt》由会员分享,可在线阅读,更多相关《第2章知识发现过程与应用结构精选文档.ppt(93页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第2章知识发现过程与应用结构1本讲稿第一页,共九十三页2.1知识发现的基本过程知识发现的基本过程2本讲稿第二页,共九十三页知识发现是一个系统化的工作知识发现是一个系统化的工作 从源数据中发现有用知识是一个系统从源数据中发现有用知识是一个系统化的工作。化的工作。首先必须对可以利用的源数据进行分析,首先必须对可以利用的源数据进行分析,确定合适的挖掘目标。然后才能着手系统的确定合适的挖掘目标。然后才能着手系统的设计和开发。设计和开发。3本讲稿第三页,共九十三页 完成从大型源数据中发现有价值知识完成从大型源数据中发现有价值知识的过程可以简单地概括为:的过程可以简单地概括为:从数据源中抽取感兴趣从数据源
2、中抽取感兴趣的数据,并把它组织成的数据,并把它组织成适合挖掘的数据组织形适合挖掘的数据组织形式;式;调用相应的算调用相应的算法生成所需的法生成所需的知识;知识;对生成的知识模式进行评估,对生成的知识模式进行评估,并把有价值的知识集成到企并把有价值的知识集成到企业的智能系统中。业的智能系统中。4本讲稿第四页,共九十三页 一般地说,一般地说,KDD是一个多步骤的处理过是一个多步骤的处理过程,一般分为问题定义、数据抽取、数据预程,一般分为问题定义、数据抽取、数据预处理、数据挖掘以及模式评估等基本阶段。处理、数据挖掘以及模式评估等基本阶段。5本讲稿第五页,共九十三页1.问题定义阶段的功能问题定义阶段的
3、功能 KDD是为了在大量数据中发现有用是为了在大量数据中发现有用的令人感兴趣的信息,因此发现何种知的令人感兴趣的信息,因此发现何种知识就成为整个过程中第一个也是最重要识就成为整个过程中第一个也是最重要的一个阶段。的一个阶段。6本讲稿第六页,共九十三页 在问题定义过程中,数据挖掘人员必在问题定义过程中,数据挖掘人员必须和领域专家以及最终用户紧密协作。须和领域专家以及最终用户紧密协作。一方面了解相关领域的有关情况,熟一方面了解相关领域的有关情况,熟悉背景知识,弄清用户要求,确定挖掘的悉背景知识,弄清用户要求,确定挖掘的目标等要求;目标等要求;另一方面通过对各种学习算法的对另一方面通过对各种学习算法
4、的对比进而确定可用的学习算法。后续的学比进而确定可用的学习算法。后续的学习算法选择和数据集准备都是在此基础习算法选择和数据集准备都是在此基础上进行的。上进行的。7本讲稿第七页,共九十三页2.数据抽取阶段的功能数据抽取阶段的功能 数据抽取的目的是选取相应的源数据库,数据抽取的目的是选取相应的源数据库,并根据要求从数据库中提取相关的数据。源并根据要求从数据库中提取相关的数据。源数据库的选取以及从中抽取数据的原则和具数据库的选取以及从中抽取数据的原则和具体规则必须依据系统的任务来确定。体规则必须依据系统的任务来确定。8本讲稿第八页,共九十三页弄清源数据的弄清源数据的信息和结构信息和结构准确界定所选取
5、准确界定所选取的数据源和抽取的数据源和抽取原则原则数据集成:将数据集成:将多数据库运行多数据库运行环境中的数据环境中的数据进行合并进行合并设计存储新数据设计存储新数据的结构、准确定的结构、准确定义它与源数据的义它与源数据的转换和转载机制转换和转载机制9本讲稿第九页,共九十三页3.数据预处理阶段的功能数据预处理阶段的功能 对数据进行预处理,一般需要对源数据对数据进行预处理,一般需要对源数据进行再加工,检查数据的完整性及数据的一进行再加工,检查数据的完整性及数据的一致性,对其中的噪音数据进行平滑,对丢失致性,对其中的噪音数据进行平滑,对丢失的数据进行填补,消除的数据进行填补,消除“脏脏”数据,消除
6、重数据,消除重复记录,完成数据类型转换等。复记录,完成数据类型转换等。有一种有一种“3:7”的说法,就是指数据抽的说法,就是指数据抽取和预处理工作一般可能占到整个取和预处理工作一般可能占到整个KDD过过程的程的70%左右。左右。10本讲稿第十页,共九十三页4.数据挖掘阶段的功能数据挖掘阶段的功能选择数据挖掘算法有两个考虑因素:选择数据挖掘算法有两个考虑因素:一是不同的数据有不同的特点,因此需要用一是不同的数据有不同的特点,因此需要用与之相关的算法来挖掘;与之相关的算法来挖掘;二是用户或实际运行系统的要求(见下页)二是用户或实际运行系统的要求(见下页)运用选定的数据挖掘算法,从数据运用选定的数据
7、挖掘算法,从数据中提取出用户所需要的知识,这些知识中提取出用户所需要的知识,这些知识可以用一种特定的方式表示。可以用一种特定的方式表示。11本讲稿第十一页,共九十三页 有的用户可能希望获取描述型的有的用户可能希望获取描述型的(Descriptive)、容易理解的知识(采用规则)、容易理解的知识(采用规则表示的挖掘方法显然要好于神经网络之类的表示的挖掘方法显然要好于神经网络之类的方法),而有的用户只是希望获取预测准确方法),而有的用户只是希望获取预测准确度尽可能高的预测型(度尽可能高的预测型(Predictive)知识,)知识,并不在意获取的知识是否易于理解。并不在意获取的知识是否易于理解。12
8、本讲稿第十二页,共九十三页5.知识评估阶段的功能知识评估阶段的功能 数据挖掘阶段发现出来的模式,经过评数据挖掘阶段发现出来的模式,经过评估,可能存在冗余或无关的模式,这时需要估,可能存在冗余或无关的模式,这时需要将其剔除;将其剔除;也有可能模式不满足用户要求,这时则也有可能模式不满足用户要求,这时则需要整个发现过程回退到前续阶段,如重新需要整个发现过程回退到前续阶段,如重新选取数据、采用新的数据变换方法、设定新选取数据、采用新的数据变换方法、设定新的参数值,甚至换一种算法等等。的参数值,甚至换一种算法等等。13本讲稿第十三页,共九十三页 KDD由于最终是面向人类用户的,因此可能由于最终是面向人
9、类用户的,因此可能要对发现的模式进行可视化,或者把结果转换为用要对发现的模式进行可视化,或者把结果转换为用户易懂的另一种表示。户易懂的另一种表示。所以知识评估阶段是所以知识评估阶段是KDD一个重要的必不可一个重要的必不可少的阶段,它不仅担负着将少的阶段,它不仅担负着将KDD系统发现的知识系统发现的知识以用户能了解的方式呈现,而且根据需要进行知识以用户能了解的方式呈现,而且根据需要进行知识评价,如果和用户的挖掘目标不一致就需要返回前评价,如果和用户的挖掘目标不一致就需要返回前面相应的步骤进行螺旋式处理以最终获得可用的知面相应的步骤进行螺旋式处理以最终获得可用的知识。识。14本讲稿第十四页,共九十
10、三页知识发现需要多方合作知识发现需要多方合作 业务业务 分析人员分析人员 数据数据分析人员分析人员 数据数据管理人员管理人员要求精通业务,能够解释要求精通业务,能够解释业务对象,并根据各业务业务对象,并根据各业务对象确定出用于数据定义对象确定出用于数据定义和挖掘算法的业务需求。和挖掘算法的业务需求。精通数据分析技术,并对统计学有精通数据分析技术,并对统计学有较熟练的掌握,有能力把业务需求较熟练的掌握,有能力把业务需求转化为知识发现的各步操作,并为转化为知识发现的各步操作,并为每步操作选择合适的模型或工具。每步操作选择合适的模型或工具。精通数据管理技术,并负责从数精通数据管理技术,并负责从数据库
11、或数据仓库中收集数据。据库或数据仓库中收集数据。15本讲稿第十五页,共九十三页 数据预处理是进行数据分析和挖掘的基数据预处理是进行数据分析和挖掘的基础。如果所集成的数据不正确,数据挖掘算础。如果所集成的数据不正确,数据挖掘算法输出的结果也必然不正确,这样形成的决法输出的结果也必然不正确,这样形成的决策支持是不可靠的。策支持是不可靠的。所以,要提高挖掘结果的准确率,所以,要提高挖掘结果的准确率,数据预处理是不可忽视的一步。数据预处理是不可忽视的一步。为什么要预处理数据为什么要预处理数据16本讲稿第十六页,共九十三页 当今现实世界的数据库极易受噪声、丢当今现实世界的数据库极易受噪声、丢失数据和不一
12、致数据的侵扰,因为数据库太失数据和不一致数据的侵扰,因为数据库太大,并且多半来自多个异构数据源。低质量大,并且多半来自多个异构数据源。低质量的数据将导致低质量的挖掘结果。的数据将导致低质量的挖掘结果。如何预处理数据提高数据质量,从而提如何预处理数据提高数据质量,从而提高挖掘结果的质量?如何预处理数据,使得高挖掘结果的质量?如何预处理数据,使得挖掘过程更加有效和容易?挖掘过程更加有效和容易?17本讲稿第十七页,共九十三页数据预处理的方法数据预处理的方法 有大量数据预处理技术,主要方法有大量数据预处理技术,主要方法如下:如下:数据清洗数据清洗 数据集成数据集成 数据变换数据变换 数据归约数据归约
13、需要强调的是以上需要强调的是以上所提的各种数据预处理所提的各种数据预处理方法,不是相互独立的,方法,不是相互独立的,而是相互关联的。而是相互关联的。18本讲稿第十八页,共九十三页2.1.1 数据清洗数据清洗 现实世界的数据常常是不完整的、有噪现实世界的数据常常是不完整的、有噪声的和不一致的。声的和不一致的。数据清洗例程通过填补缺失值、消除异数据清洗例程通过填补缺失值、消除异常数据、平滑噪声数据,以及纠正不一致的常数据、平滑噪声数据,以及纠正不一致的数据。数据。19本讲稿第十九页,共九十三页1.填补缺失值填补缺失值 假设在分析一个商场销售数据时,发假设在分析一个商场销售数据时,发现有多个记录中的
14、属性值为空,如:顾客现有多个记录中的属性值为空,如:顾客的收入属性,这就是缺失值。的收入属性,这就是缺失值。怎样才能为该属性填上丢失的值?我们怎样才能为该属性填上丢失的值?我们看看下面的方法:看看下面的方法:20本讲稿第二十页,共九十三页方法方法分析分析忽略该条记录忽略该条记录:若一:若一条记录中有属性值被条记录中有属性值被遗漏了,则将此条记遗漏了,则将此条记录排除在数据挖掘过录排除在数据挖掘过程之外。程之外。当然这种方法并不很当然这种方法并不很有效,尤其是在每个有效,尤其是在每个属性缺失值的记录比属性缺失值的记录比例相差较大时。例相差较大时。手工填补缺失值手工填补缺失值一般讲这种方法比较一般
15、讲这种方法比较耗时,而且对于存在耗时,而且对于存在许多缺失情况的大规许多缺失情况的大规模数据集而言,显然模数据集而言,显然可行性较差。可行性较差。21本讲稿第二十一页,共九十三页方法方法分析分析 使用一个全局常量使用一个全局常量填充缺失值填充缺失值:将缺失:将缺失的属性值用一个常数的属性值用一个常数替换。如:用替换。如:用Unknown来填补。来填补。当一个属性缺失值当一个属性缺失值较多,若采用这种方较多,若采用这种方法,就可能误导挖掘法,就可能误导挖掘进程。因此这种方法进程。因此这种方法虽然简单,但并不推虽然简单,但并不推荐使用。荐使用。利用均值填补缺失利用均值填补缺失值值如:若一个顾客的平
16、如:若一个顾客的平均收入为均收入为12000元,则元,则用此值填补属性中所用此值填补属性中所有被遗漏的。有被遗漏的。22本讲稿第二十二页,共九十三页方法方法分析分析利用同类别均值填补利用同类别均值填补缺失值缺失值。这种方法尤。这种方法尤其在进行分类挖掘时其在进行分类挖掘时使用。使用。如:若要对商场顾如:若要对商场顾客按信用风险进行分客按信用风险进行分类挖掘时,就可以用类挖掘时,就可以用在同一信用风险类别在同一信用风险类别下(如良好)的下(如良好)的income 属性的平均值,属性的平均值,来填补所有在同一信来填补所有在同一信用风险类别下用风险类别下income属性的缺失值。属性的缺失值。23本
17、讲稿第二十三页,共九十三页方法方法分析分析 利用最可能的值填利用最可能的值填补遗漏值。可以利用补遗漏值。可以利用回归分析、贝叶斯计回归分析、贝叶斯计算公式或决策树推断算公式或决策树推断出该条记录特定属性出该条记录特定属性的最大可能的取值。的最大可能的取值。与其他方法相比,与其他方法相比,该方法最大程度地利该方法最大程度地利用了当前数据所包含用了当前数据所包含的信息来帮助预测所的信息来帮助预测所缺失的数据。缺失的数据。24本讲稿第二十四页,共九十三页注意:在某些情况下,注意:在某些情况下,缺失值并不意味着数据缺失值并不意味着数据有错误。有错误。理想地,每个属性理想地,每个属性都应当有一个或多都应
18、当有一个或多个关于空值条件的个关于空值条件的规则。规则。因此,尽管在得到数据后,尽我们所因此,尽管在得到数据后,尽我们所能来清洗数据,但数据库和数据输入能来清洗数据,但数据库和数据输入的好的设计将有助于在第一现场最小的好的设计将有助于在第一现场最小化缺失值或错误的数量。化缺失值或错误的数量。25本讲稿第二十五页,共九十三页2.平滑噪声数据平滑噪声数据 噪声是指被测量的变量的随机误差噪声是指被测量的变量的随机误差或方差。或方差。给定一个数值型属性,如:价格,给定一个数值型属性,如:价格,我们怎样才能我们怎样才能“平滑平滑”数据,去掉噪声数据,去掉噪声?我们看看下面的数据平滑技术:?我们看看下面的
19、数据平滑技术:26本讲稿第二十六页,共九十三页分箱分箱(binning)方法方法 分箱方法通过考察数据的分箱方法通过考察数据的“近邻近邻”(即周即周围的值围的值)来光滑有序数据的值。有序值分布来光滑有序数据的值。有序值分布到一些到一些“箱箱”中。由于该方法考察近邻的值,中。由于该方法考察近邻的值,因此进行局部光滑。因此进行局部光滑。27本讲稿第二十七页,共九十三页箱箱箱“等高度等高度”是是指每个箱都包指每个箱都包含三个数值。含三个数值。第一个箱中第一个箱中4、8、15均用该箱均用该箱的均值的均值9替。替。箱中的最大值和最箱中的最大值和最小值为箱边界,箱小值为箱边界,箱中的每个值被最近中的每个值
20、被最近的边界值替换。的边界值替换。28本讲稿第二十八页,共九十三页聚类方法聚类方法 通过聚类分析可帮助发现异常数据,道通过聚类分析可帮助发现异常数据,道理很简单,相似或相邻近的数据聚合在一起理很简单,相似或相邻近的数据聚合在一起形成了各个聚类集合,而那些位于这些聚类形成了各个聚类集合,而那些位于这些聚类集合之外的数据对象,自然而然就被认为是集合之外的数据对象,自然而然就被认为是异常数据。异常数据。29本讲稿第二十九页,共九十三页30本讲稿第三十页,共九十三页回归方法回归方法 可以利用拟合函数对数据进行平滑。可以利用拟合函数对数据进行平滑。如:借助线性回归方法,包括多变量回归如:借助线性回归方法
21、,包括多变量回归方法,就可以获得的多个变量之间的一个方法,就可以获得的多个变量之间的一个拟合关系,从而达到利用一个(或一组)拟合关系,从而达到利用一个(或一组)变量值来帮助预测另一个变量取值的目的。变量值来帮助预测另一个变量取值的目的。31本讲稿第三十一页,共九十三页3.不一致数据处理不一致数据处理 现实世界的数据库常出现数据记录内容的不现实世界的数据库常出现数据记录内容的不一致,其中一些数据不一致可以利用它们与外部一致,其中一些数据不一致可以利用它们与外部的关联手工加以解决。例如:输入发生的数据录的关联手工加以解决。例如:输入发生的数据录入错误一般可以与原稿进行对比来加以纠正。入错误一般可以
22、与原稿进行对比来加以纠正。此外还有一些例程可以帮助纠正使用编码时所此外还有一些例程可以帮助纠正使用编码时所发生的不一致问题。知识工程工具也可以帮助发现发生的不一致问题。知识工程工具也可以帮助发现违反数据约束条件的情况。违反数据约束条件的情况。32本讲稿第三十二页,共九十三页 数据挖掘任务常常涉及数据集成操数据挖掘任务常常涉及数据集成操作,即将来自多个数据源的数据,如:作,即将来自多个数据源的数据,如:数据库、数据立方、普通文件等,结合数据库、数据立方、普通文件等,结合在一起并形成一个统一数据集合,以便在一起并形成一个统一数据集合,以便为数据挖掘工作的顺利完成提供完整的为数据挖掘工作的顺利完成提
23、供完整的数据基础。数据基础。在数据集成过程中,需要考虑解决以下在数据集成过程中,需要考虑解决以下几个问题:几个问题:2.1.2 数据集成数据集成33本讲稿第三十三页,共九十三页1.模式集成问题模式集成问题 模式集成问题,即如何使来自多个数据源的现模式集成问题,即如何使来自多个数据源的现实世界的实体相互匹配,这其中就涉及到实体识别实世界的实体相互匹配,这其中就涉及到实体识别问题。例如:如何确定一个数据库中的问题。例如:如何确定一个数据库中的“custom_id”与另一个数据库中的与另一个数据库中的“cust_number”是是否表示同一实体。否表示同一实体。数据库与数据仓库通常包含元数据,所谓数
24、据库与数据仓库通常包含元数据,所谓元数据就是关于数据的数据,这些元数据可以元数据就是关于数据的数据,这些元数据可以帮助避免在模式集成时发生错误。帮助避免在模式集成时发生错误。34本讲稿第三十四页,共九十三页2.冗余问题冗余问题 若一个属性可以从其它属性中推演出来,若一个属性可以从其它属性中推演出来,那这个属性就是冗余属性。那这个属性就是冗余属性。如:一个顾客数据表中的平均月收入属性,如:一个顾客数据表中的平均月收入属性,就是冗余属性。显然它可以根据月收入属性计就是冗余属性。显然它可以根据月收入属性计算出来。算出来。此外属性命名的不一致也会导致集此外属性命名的不一致也会导致集成后的数据集出现冗余
25、情况。成后的数据集出现冗余情况。除了检查属性是否冗余之外,还需要除了检查属性是否冗余之外,还需要检查记录行的冗余。检查记录行的冗余。35本讲稿第三十五页,共九十三页3.数据值冲突检测与消除问题数据值冲突检测与消除问题 对于现实世界的同一实体,来自不同对于现实世界的同一实体,来自不同数据源的属性值或许不同。产生这样问题原数据源的属性值或许不同。产生这样问题原因可能是表示的差异、比例尺度不同、或编因可能是表示的差异、比例尺度不同、或编码的差异等。码的差异等。例如:重量属性在一个系统中采用公制,而例如:重量属性在一个系统中采用公制,而在另一个系统中却采用英制。同样价格属性不同在另一个系统中却采用英制
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 知识 发现 过程 应用 结构 精选 文档
限制150内