数据挖掘结果的可视化问题-精品文档资料整理.pdf
《数据挖掘结果的可视化问题-精品文档资料整理.pdf》由会员分享,可在线阅读,更多相关《数据挖掘结果的可视化问题-精品文档资料整理.pdf(4页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、文章编号:1008 - 1402(2004)04 - 0561 - 04数据挖掘结果的可视化问题王国庆(莆田学院 电子信息工程系,福建 莆田351100)摘 要: 分析数据挖掘与信息可视化之间的关系,介绍如何对关联分析和分类、 聚类分析的结果进行可视化研究,探讨实现数据挖掘结果可视化的技术手段.关键词: 数据挖掘;关联;聚类;可视化中图分类号:TP274+.2 文献标识码:A1 数据挖掘近年来,随着数据库技术和计算机网络的广泛应用,人们所拥有的数据量急剧扩大,数据迅速增加与分析方法滞后之间的矛盾越来越突出.实际上,在激增的数据背后,隐藏着许多重要的信息.数据挖掘正是通过检查和分析数据仓库中存储
2、的大量数据来提取知识和信息,发现有意义的关联模式和趋势,为管理决策建立预测模型.数据挖掘,又称为数据库中的知识发现(Knowledge Discovery in Database ,K DD) ,它包含了一系列旨在从大型数据库或数据仓库中提取有潜在应用价值的信息或模式的技术,是人工智能、 神经网络、 数据库、 预测理论、 机器学习和统计学等技术的综合产物1.作为一门处理数据的新兴技术,数据挖掘有许多的新特征.首先,数据挖掘面对的是海量的数据,这也是数据挖掘产生的原因.其次,数据可能是不完全的、 有噪声的、 随机的,有复杂的数据结构,维数大.最后,数据挖掘是许多学科的交叉,运用了统计学,计算机,
3、数学等学科的技术.数据挖掘中常见和应用最广泛的算法和模型有:1)传统统计方法:抽样技术:我们面对的是大量的数据,对所有的数据进行分析是不可能的也是没有必要的,就要在理论的指导下进行合理的抽样.多元统计分析:因子分析,聚类分析等.统计预测方法,如回归分析,时间序列分析等.2)可视化技术:用图表等方式把数据特征直观地表述出来,如直方图等,这其中运用的许多描述统计的方法.可视化技术面对的一个难题是高维数据的可视化.3)决策树:利用一系列规则划分,建立树状图,可用于分类和预测.常用的算法有CART,CHAID ,ID3 ,C4.5 ,C5.0等.4)神经网络:模拟人的神经元功能,经过输入层,隐藏层,输
4、出层等,对数据进行调整,计算,最后得到结果,用于分类和回归.5)遗传算法:基于自然进化理论,模拟基因联合、 突变、 选择等过程的一种优化技术.6)关联规则挖掘算法:关联规则是描述数据之间存在关系的规则,形式为 “A1A2AnB1B2Bn”.一般分为两个步骤:求出大数据项集.用大数据项集产生关联规则.除了上述的常用方法外,还有粗集方法,模糊集合方法,Bayesian Belief Netords ,最邻近算法(k - nearestneighbors method(kNN)等2. 收稿日期:2004 - 05 - 14作者简介:王国庆(1970 - ) ,女,安徽省马鞍山市人,莆田学院讲师. 第
5、22卷 第4期 佳 木 斯 大 学 学 报(自 然 科 学 版)Vol.22 No.42004 年1 0月 Journal of Jiamusi University (Natural Science Edition)Oct.20042 信息可视化可视化技术一直是计算机领域的研究热点.信息可视化(Information Visualization)的概念来自于科学计算可视化(Visualization in Scientific Computing) .一般来说,科学计算可视化指的是空间数据场可视化,信息可视化指的是非空间数据的可视化.信息可视化运用计算机图形学和图像处理技术,将数据转换为图形
6、或图像在屏幕上显示出来,并进行交互处理的理论、 方法和技术.它试图通过包括计算机图形学、 图像处理、计算机辅助设计、 计算机视觉及人机交互技术在内的多种技术的综合,通过人类视觉系统的作用及其能力,把数据模型中的数据呈现在我们面前,以便分析趋势和确定模式3.信息可视化具有交互性、 多维性、 可视性等特点,用户可以以交互的方式管理和开发数据,数据可以按其每一维的值,进行分类、 排序和组合,用图象、 曲线、 二维图形、 三维体和动画来显示,并可对其模式和相互关系进行可视化分析.信息可视化可以大大加快数据的处理速度,使时刻都在产生的海量数据得到有效利用,可以在人与数据、 人与人之间实现图像通信,从而使
7、人们能够观察到数据中隐含的现象,为发现和理解科学规律提供有力工具;信息可视化还可以实现对计算和编程过程的引导和控制.3 可视化数据挖掘可视化数据挖掘是应用可视化技术在大量数据中发现知识的过程,数据挖掘的可视化利用了人类在可视化形式下对模型和结构的获取能力,使抽象的信息以简明的形式呈现出来,加深用户对数据含义的理解,更好地了解数据之间的相互关系和发展趋势.可视化数据挖掘的基本思想是将数据库中的每一个数据项作为图形元素输出,大量的数据集构成数据图像,同时将数据的各个属性值以多维数据的形式来表示,可以从不同的维度观察数据,从而对数据进行更深入的观察和分析.可视化数据挖掘主要应用在四个方面:数据准备阶
8、段的可视化、 模型生成阶段的可视化、 结果呈现阶段的可视化、 数据流程的可视化.4本文以关联分析和聚类挖掘为例,从应用的角度论述了挖掘结果可视化应用的一个实例,主要的工作是:将数据挖掘的结果转换为能够在屏幕上显示的坐标点,根据生成的各个点之间的距离和簇的形状,判断本次挖掘过程的执行效果.4 关联分析(association analysis)可视化两个或两个以上数据之间存在某种规律性,就称为关联.数据关联是数据库中存在的一类重要的、 可被发现的知识.关联分析的目的是找出数据中隐藏的关联网.关联分析常被用来分析顾客的购买模式和产品生产模式等.关联分析可以描述为:设I = i1,i2,im是m个不
9、同项目的集合,D是针对I上的事件的集合,D中每一个事件包含若干项目I,且I I ,则关联规则表示为XY,其中X,YI ,并且XY=,X成为规则的前提,Y是结果.针对每一规则,应同时计算最小支持度和最小置信度.对于D I ,X是包含于D的事件子集,则子集X在集合D上的最小支持度为:support(X) = S(X)/ S(D) ,其中S(X)表示包含项目X的事件个数,S(D)表示事件D的个数. XY的最小置信度为:confidence(X Y) = S(XY)/ S(X) ,其中S(XY)表示同时包含X和Y的事件个数.如果计算得出的最小支持度和最小置信度同时大于用户规定的阀值,认为规则有意义.最
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 结果 可视化 问题 精品 文档 资料 整理
限制150内