数据挖掘中可视化技术综述-精品文档资料整理.pdf
文章编号:100622475(2004)1020032202收稿日期:2003212208作者简介:胡永刚(19752) ,男,江西高安人,江西省科技馆助理工程师,研究方向:信息管理。数据挖掘中可视化技术综述胡永刚(江西科技馆,江西 南昌 330018)摘要:阐述了可视化技术在数据挖掘中的应用及发展前景。关键词:数据挖掘;可视化技术中图分类号:TP311.131 文献标识码:AOverview of Visualization Technology in Data MiningHU Y ong2gang(Jiangxi Science and Technology Museum ,Nanchang330018 ,China)Abstract :This paper expounds the application and development prospects of the visualization technology in data mining.Key words :data mining;visualization technology0 引 言数据挖掘是信息技术自然演化的结果。近30年来,计算机硬件令人吃惊的进步导致了功能强大的计算机、 数据收集设备和存储介质的大量供应。这些技术大大推动了数据库和信息产业的发展。现在,数据可以存放在不同类型的数据库中。最近出现的一种数据库结构是数据仓库。这是一种多个异种数据源在单个站点以统一模式组织的存储,以支持管理决策。数据仓库技术包括数据清理、 数据集成和联机分析处理(OLAP)。OLAP是一种分析技术,具有汇总、合并和聚集功能,以及从不同的角度观察信息的能力。尽管OLAP工具支持多维分析和决策,对于深层次的分析,如数据分类、 聚类和数据随时间变化的特征,仍然需要其他分析工具。数据的丰富带来了对强有力的数据分析工具的需求,大量的数据被描述为 “数据丰富,但信息贫乏” 。快速增长的海量数据收集存放在大型和大量数据库中,没有强有力的工具,理解它们已经远远超出了人的能力。结果,收集在大型数据库中的数据变成了“数据坟墓” 难得再访问的数据档案。这样,重要的决定常常不是基于数据库中信息丰富的数据,而是基于决策者的直觉,因为决策者缺乏从海量数据中提取有价值知识的工具。此外,当前的专家系统依赖于用户或领域专家人工地将知识输入知识库,而这一过程常常有偏差和错误,并且耗时、 费用高。因此,数据挖掘的提出,通过数据挖掘工具进行数据分析,发现重要的数据模式,为数据和信息之间的鸿沟架起桥梁,将数据坟墓转换成知识 “金块”,引起了信息产业界的极大关注。1 数据挖掘与可视化技术1.1 数据挖掘中可视化技术的提出由于数据库的日益庞大和计算机硬件处理能力的飞速发展,需要存储和表现于最终用户之前的信息也不断增长。然而,无论数据库有多大,或是计算机有多快,最终,信息必须流经一个最紧的瓶颈-人脑吸收和处理新信息的能力所能达到的速度。数据的庞大是压倒一切的,人类的视觉系统和大脑不足以满足人类以数据本身的形式来工作的要求,因此,迫切需要提供可视化的工具。利用可视化技术和新型计算机的处理能力使人脑吸收和处理新信息变得简单,从而解决这个问题。并且,使用可视化技术在很多时候还可以发现用其他方式都无法发现的规律、 模式。例如,假设把一个数据仓库想象为一座待挖掘的数据山,那么,把它可视化为一座真正的山将更加有助于得到想得到的知识。在数据挖掘算法所生成的大量模式中,最终只有计算机与现代化2004年第10期JISUANJIY UXIANDAIHUA总第110期十分少量的信息能够以文字的形式解释和评估。因而使用可视化技术作为服务于计算机与用户之间的沟通纽带,为用户提供关于数据和知识的直观信息。这虽然不是数据挖掘系统中必不可少的,却是极其重要的一步。并且,传统的挖掘过程不可见、 不直观,用户无法干预挖掘过程,对用户来说好像一个黑箱子,使得用户对系统得出的结论持怀疑态度。使用适当的可视化技术,帮助用户更紧密地与整个挖掘过程相结合,解决挖掘系统中存在的一些问题。1. 2 数据挖掘中可视化技术的作用传统的数据挖掘过程如图1所示,是以机器为中心的;而新的吸纳了可视化技术的数据挖掘过程是以人为中心的,如图2所示。以人为中心的数据挖掘过程,将数据挖掘与可视化技术完美结合,提高了整个数据挖掘过程的灵活性、 有效性、 与用户的交互性。可视化技术在数据挖掘中可以起到以下作用:(1)通过提供对数据和知识的可视化,可以利用人类的模式识别能力评估和提高挖掘出的结果模式的有效性。(2)利用可视化技术建立用户与数据挖掘系统交互的良好沟通通道,使用户能够使用自己丰富的行业知识来规整、 约束挖掘过程,改善挖掘结果。(3)提供对挖掘结果的可视化显示,使用户对结果模式能够有深刻直观的理解,从而打破传统挖掘算法的黑盒子模式,使用户对挖掘系统的信赖程度大大提高。1. 3 数据挖掘中可视化技术的应用从数据挖掘的整个过程来看,可视化技术应用于数据挖掘主要有以下几个方面:(1)如图3 (a)所示。作为观察 “数据山” 的第一步,应用于数据预处理阶段。以图形方式提供一个数据的可视印象,给用户一个大体直观感觉,帮助用户确定从何处着手进行挖掘。(2)如图3 (b)所示。作为直接执行数据挖掘的一种方式,应用于数据挖掘实施阶段,允许最终用户借助人脑的探索分析功能寻找发现模式。当人脑可以对显示的图形实时作出判断时,这种方式较使用计算机的自动数据挖掘技术要有效得多。(3)如图3 (c)所示。作为显示挖掘结果和预测模型的一种方式,应用于数据挖掘的最后阶段,使最终用户能够更好地理解挖掘出的结果模式。2 数据挖掘中可视化技术的现状和发展趋势 目前,可视化技术运用于数据挖掘,一般是作为表达工具,如生成最初的视图,解析复杂结构的数据和显示分析结果,而分析方法本身并不包括可视化。可视化与分析数据挖掘技术之间的松散关系代表了当今可视化数据挖掘系统的主要状况。现有的相互插入策略,只是简单将分析过程和图形可视化交错在一起,这突出了两者的欠缺和限制。例如,由于传统分析过程不能对多媒体数据进行分析,我们只有放弃在可视化数据挖掘环境中研究电影及音乐,而这本来是可视化技术的优势所在。一个更强的可视数据挖掘策略依赖于将可视化与分析过程紧密结合起来形成一个统一强大的可视数据挖掘工具。目前,使人类可视地参与到分析过程中以实现决策支持依然是一个主要的挑战:以基于可视化的人类决策代替一个分析过程中的某一数学步骤;当决策不再能够自动生成时,以可视化支持由人类来处理决策。参考文献:1 陈文伟,黄金才.数据仓库与数据挖掘M.北京:人民邮电出版社,2004.2 李晓梅,黄朝晖,蔡勋,周璐,刘波,林华君.并行与分布式可视化技术及应用M.北京:国防工业出版社,2001.332004年第10期胡永刚:数据挖掘中可视化技术综述