数据挖掘系统的设计与实现本科学位论文.doc
《数据挖掘系统的设计与实现本科学位论文.doc》由会员分享,可在线阅读,更多相关《数据挖掘系统的设计与实现本科学位论文.doc(47页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据挖掘系统的设计与实现Data Mining System 学生姓名 指导教师 摘 要在电信系统中,经常需要根据用户的登入登出进行计时收费,这样我们就需要根据登录日志来将用户的登入记录和登出记录按照对应关系匹配起来,形成一条完整的登录记录,登录记录中包含以下信息:用户登录名,登入时刻,登出时刻,登录时长,登录终端机器IP等。在匹配过程中,理论上一条登入记录跟一条登出记录匹配,但有可能在我们采集数据时用户还没有登出,所以日志文件中可能出现没有登出记录与之匹配的登入记录,这些登入记录我们将其保存在一个指定的文件中,在下次采集时再读取。在整个电信系统中,这些记录无疑是非常巨大的,不是依靠人力手工能
2、够完成的,这时,我们就需要有一个具体的系统来帮我们自动完成这些功能,这也就是本次课题的选择数据挖掘系统(Data Mining System)。在该系统中,将匹配好的用户登录记录通过网络发送到采集系统服务器,服务器端接收匹配好的用户登录记录数据,然后将接受到的用户登录记录数据保存到数据库的用户登录记录明细表中,而最终可以实现将用户登录记录明细表中的数据整合成日报表,月报表和年报表。关键词: 数据挖掘;客户端;服务器端AbstractIn telecommunications system, often carried out time charges based on users login
3、or logout, so we need to match the users login and logout records by correspondence relationship according to the log and form a complete log records, log record contains the following information: user login name, login time, logout time, log length, log terminal machine IP and so on. In the proces
4、s of matching, in theory, a login record matches with a logout record, but when we collect the data the user may not logout ,so there maybe no logout record match with the login record in the log file. We save the login records in a designated file, and read them at the next collection. In the whole
5、 telecommunications system, these records will undoubtedly be very tremendous, to rely on human hand can not be done, then we need a specific system to help us finish these functions automatic, it is the choice of this subject - - Data Mining System. In this system, send the matched user log record
6、to the collection system server through internet, the server receives the matched user log record data, and then save the received user log record data to the database user log records list and ultimately enables the data in the user log records list integrated into daily report, monthly report and
7、annual report.Keywords: data mining; client; server目 录摘 要IAbstractII第一章 文献综述11.1数据挖掘发展简述11.1.1数据丰富与知识匮乏11.1.2从数据到知识21.1.3数据挖掘产生41.2数据挖掘基本知识51.2.1数据挖掘深入81.3数据挖掘功能91.3.1概念描述:定性与对比101.3.2关联分析101.3.3分类与预测101.3.4聚类分析111.3.5异类分析111.3.6演化分析111.4数据挖掘结果的评估111.5数据挖掘系统131.5.1数据挖掘系统分类131.5.2数据挖掘系统的应用141.6数据挖掘研究
8、重点171.7数据挖掘课题的选择20第二章 设计部分212.1环境的选择与搭建212.2系统需要实现的功能222.3系统用例232.3.1用例图232.3.2用例描述242.4数据库表设计332.5总体类图342.6异常考虑352.7 用例实现37第三章 结果与讨论39第四章 结论与建议424.1结论424.2建议42参考文献43致 谢4443武汉工程大学本科毕业设计第一章 文献综述数据挖掘作为一个新兴的多学科交叉应用领域,正在各行各业的决策支持活动扮演着越来越重要的角色。1.1数据挖掘发展简述1.1.1数据丰富与知识匮乏计算机与信息技术经历了半个世纪的发展,给人类社会带来了巨大的变化与影响。
9、在支配人类社会三大要素(能源、材料和信息)中,信息愈来愈显示出其重要性和支配力,它将人类社会由工业化时代推向信息化时代。随着人类活动范围的扩展,生活节奏的加快,以及技术的进步,人们能以更快速更容易更廉价的方式获取和存储数据,这就使得数据及其信息量以指数方式增长。早在20世纪八十年代,据粗略估算,全球信息量每隔20个月就增加一倍。而进入九十年代,全世界所拥有的数据库及其所存储的数据规模增长更快。一个中等规模企业每天要产生100 MB 以上来自各生产经营等多方面的商业数据。美国政府部门的一个典型大数据库每天要接收约5TB数据量,在15 秒到1分钟时间里,要维持的数据量达到300 TB,存档数据达1
10、5-100 PB。在科研方面,以美国宇航局的数据库为例,每天从卫星下载的数据量就达3-4 TB之多;而为了研究的需要,这些数据要保存七年之久。九十年代互联网(Internet)的出现与发展,以及随之而来的企业内部网(Internet)和企业外部网(Extranet)以及虚拟私有网(VPN:Virtual Private network)的产生和应用,使整个世界互联形成一个小小的地球村,人们可以跨越时空地在网上交换信息和协同工作。这样,展现在人们面前的已不是局限于本部门,本单位和本行业的庞大数据库,而是浩瀚无垠的信息海洋。据统计,1993年全球数据存贮容量约为二千TB,到2000年增加到三百万T
11、B,面对这极度膨胀的数据信息量,人们受到“信息爆炸”、“混沌信息空间”(Information Chaotic Space)和“数据过剩”(Data glut)的巨大压力。然而,人类的各项活动都是基于人类的智慧和知识,即对外部世界的观察和了解,做出正确的判断和决策以及采取正确的行动,而数据仅仅是人们用各种工具和手段观察外部世界所得到的原始材料,它本身没有任何意义。从数据到知识到智慧,需要经过分析加工处理精炼的过程。如图1. 1所示,数据是原材料,它只是描述发生了什么事情,并不能构成决策或行动的可靠基础。通过对数据进行分析找出其中关系,赋予数据以某种意义和关联,这就形成所谓信息。信息虽给出了数据
12、中一些有一定意义的东西,但它往往和人们需要完成的任务没有直接的联系,也还不能作为判断、决策和行动的依据。对信息进行再加工,即进行更深入的归纳分析,方能获得更有用的信息,即知识。而所谓知识,可定义为“信息块中的一组逻辑联系,其关系是通过上下文或过程的贴近度发现的”。从信息中理解其模式,即形成知识。在大量知识积累基础上,总结出原理和法则,就形成所谓智慧(Wisdom)。事实上,一部人类文明发展史,就是在各种活动中,知识的创造、交流,再创造不断积累的螺旋式上升的历史。图1. 1 人类活动所涉及数据与知识之间的关系描述计算机与信息技术的发展,加速了人类知识创造与交流的这种进程,据德国世界报的资料分析,
13、如果说19世纪时科学定律(包括新的化学分子式,新的物理关系和新的医学认识)的认识数量一百年增长一倍,到20世纪60年代中期以后,每五年就增加一倍。这其中知识起着关键的作用。当数据量极度增长时,如果没有有效的方法,由计算机及信息技术来帮助从中提取有用的信息和知识,人类显然就会感到像大海捞针一样束手无策。据估计,目前一个大型企业数据库中数据,约只有百分之七得到很好应用。因此目前人类陷入了一个尴尬的境地,即“丰富的数据”(data rich)而“贫乏的知识”(knowledge poor)。1.1.2从数据到知识早在上个世纪八十年代,人们在“物竞天择,适者生存”的大原则下,就认识到“谁最先从外部世界
14、获得有用信息并加以利用,谁就可能成为赢家”。而今置身市场经济且面向全球性剧烈竞争的环境下,任何商家的优势不单纯地取决于如产品、服务、地区等方面因素,而在于创新。用知识作为创新的原动力,就能使商家长期持续地保持竞争优势。因此要能及时迅速地从日积月累庞大的数据库中,以及互联网上获取与经营决策相关的知识,自然而然就成为满足易变的客户需求以及因市场快速变化而引起激烈竞争局面的唯一武器。因此,如何对数据与信息快速有效地进行分析加工提炼以获取所需知识,就成为计算机及信息技术领域的重要研究课题。事实上计算机及信息技术发展的历史,也是数据和信息加工手段不断更新和改善的历史。早年受技术条件限制,一般用人工方法进
15、行统计分析和用批处理程序进行汇总和提出报告。在当时市场情况下,月度和季度报告已能满足决策所需信息要求。随着数据量的增长,多数据源所带来的各种数据格式不相容性,为了便于获得决策所需信息,就有必要将整个机构内的数据以统一形式集成存储在一起,这就是形成了数据仓库(data warehousing)。数据仓库不同于管理日常工作数据的数据库,它是为了便于分析针对特定主题(subject-oriented)的集成化的、时变的(time-variant)即提供存贮5-10年或更长时间的数据,这些数据一旦存入就不再发生变化。数据仓库的出现,为更深入对数据进行分析提供了条件,针对市场变化的加速3人们提出了能进行
16、实时分析和产生相应报表的在线分析工具OLAP(On Line Analytical Processing)。OLAP能允许用户以交互方式浏览数据仓库内容,并对其中数据进行多维分析,且能及时地从变化和不太完整的数据中提取出与企业经营活动密切相关的信息。例如:OLAP 能对不同时期、不同地域的商业数据中变化趋势进行对比分析。OLAP是数据分析手段的一大进步,以往的分析工具所得到的报告结果只能回答“什么”,而OLAP的分析结果能回答“为什么”。但OLAP分析过程是建立在用户对深藏在数据中的某种知识有预感和假设的前提下,由用户指导的信息分析与知识发现过程。但由于数据仓库(通常数据贮藏量以TB 计)内容
17、来源于多个数据源,因此其中埋藏着丰富的不为用户所知的有用信息和知识,而要使企业能及时准确地做出科学的经营决策,以适应变化迅速的市场环境,就需要有基于计算机与信息技术的智能化自动工具,来帮助挖掘隐藏在数据中的各类知识。这类工具不应再基于用户假设,而应能自身生成多种假设;再用数据仓库(或大型数据库)中的数据进行检验或验证;然后返回用户最有价值的检验结果。此外这类工具还应能适应现实世界中数据的多种特性(即量大、含噪声、不完整、动态、稀疏性、异质、非线性等)。要达到上述要求,只借助于一般数学分析方法是无能达到的。多年来,数理统计技术方法以及人工智能和知识工程等领域的研究成果,诸如推理、机器学习、知识获
18、取、模糊理论、神经网络、进化计算、模式识别、粗糙集理论等等诸多研究分支,给开发满足这类要求的数据深度分析工具提供了坚实而丰富的理论和技术基础。上个世纪九十年代中期以来,许多软件开发商,基于数理统计、人工智能、机器学习、神经网络、进化计算和模式识别等多种技术和市场需求,开发了许多数据挖掘与知识发现软件工具,从而形成了近年来软件开发市场的热点。目前数据挖掘工具已开始向智能化整体数据分析解决方案发展,这是从数据到知识演化过程中的一个重要里程碑。如图1. 2所示。图1. 2数据到知识的演化过程示意描述1.1.3数据挖掘产生随着计算机硬件和软件的飞速发展,尤其是数据库技术与应用的日益普及,人们面临着快速
19、扩张的数据海洋,如何有效利用这一丰富数据海洋的宝藏为人类服务,业已成为广大信息技术工作者的所重点关注的焦点之一。与日趋成熟的数据管理技术与软件工具相比,人们所依赖的数据分析工具功能,却无法有效地为决策者提供其决策支持所需要的相关知识,从而形成了一种独特的现象“丰富的数据,贫乏的知识”。为有效解决这一问题,自二十世纪80年代开始,数据挖掘技术逐步发展起来,数据挖掘技术的迅速发展,得益于目前全世界所拥有的巨大数据资源以及对将这些数据资源转换为信息和知识资源的巨大需求,对信息和知识的需求来自各行各业,从商业管理、生产控制、市场分析到工程设计、科学探索等。数据挖掘可以视为是数据管理与分析技术的自然进化
20、产物,如Error! Reference source not found.所示。自上个世纪六十年代开始,数据库及信息技术就逐步从基本的文件处理系统发展为更复杂功能更强大的数据库系统;七十年代的数据库系统的研究与发展,最终导致了关系数据库系统、数据建模工具、索引与数据组织技术的迅速发展,这时用户获得了更方便灵活的数据存取语言和界面;此外在线事务处理(OLTP:on-line transaction processing)手段的出现也极大地推动了关系数据库技术的应用普及,尤其是在大数据量存储、检索和管理的实际应用领域。自上世纪八十年代中期开始,关系数据库技术被普遍采用,新一轮研究与开发新型与强大
21、的数据库系统悄然兴起,并提出了许多先进的数据模型:扩展关系模型、面向对象模型、演绎模型等;以及应用数据库系统:空间数据库、时序数据库、多媒体数据库等;日前异构数据库系统和基于互联网的全球信息系统也已开始出现并在信息工业中开始扮演重要角色。图1. 3数据挖掘进化过程示意描述被收集并存储在众多数据库中且正在快速增长的庞大数据,已远远超过人类的处理和分析理解能力(在不借助功能强大的工具情况下),这样存储在数据库中的数据就成为“数据坟墓”,即这些数据极少被访问,结果许多重要的决策不是基于这些基础数据而是依赖决策者的直觉而制定的,其中的原因很简单,这些决策的制定者没有合适的工具帮助其从数据中抽取出所需的
22、信息知识。而数据挖掘工具可以帮助从大量数据中发现所存在的特定模式规律,从而可以为商业活动、科学探索和医学研究等诸多领域提供所必需的信息知识。数据与信息知识之间的巨大差距迫切需要系统地开发数据挖掘工具,来帮助实现将“数据坟墓”中的数据转化为知识财富。1.2数据挖掘基本知识数据挖掘(Data Mining,简称DM),简单地讲就是从大量数据中挖掘或抽取出知识,数据挖掘概念的定义描述有若干版本,以下给出一个被普遍采用的定义描述:数据挖掘,又称为数据库中知识发现(Knowledge Discovery from Database,简称KDD),它是一个从大量数据中抽取挖掘出未知的、有价值的模式或规律等
23、知识的复杂过程。数据挖掘的全过程定义描述如图1. 4 所示。图1. 4知识挖掘全过程示意描述如图1. 4所示,整个知识挖掘(KDD)过程是由若干挖掘步骤组成,而数据挖掘仅是其中的一个主要步骤。整个知识挖掘的主要步骤有: 数据清洗(data clearning),其作用就是清除数据噪声和与挖掘主题明显无关的数据; 数据集成(data integration),其作用就是将来自多数据源中的相关数据组合到一起; 数据转换(data transformation),其作用就是将数据转换为易于进行数据挖掘的数据存储形式; 数据挖掘(data mining),它是知识挖掘的一个基本步骤,其作用就是利用智能
24、方法挖掘数据模式或规律知识; 模式评估(pattern evaluation),其作用就是根据一定评估标准(interesting measures)从挖掘结果筛选出有意义的模式知识; 知识表示(knowledge presentation),其作用就是利用可视化和知识表达技术,向用户展示所挖掘出的相关知识。尽管数据挖掘仅仅是整个知识挖掘过程中的一个重要步骤,但由于目前工业界、媒体、数据库研究领域中,“数据挖掘”一词已被广泛使用并被普遍接受,因此也可以广义地使用“数据挖掘”一词来表示整个知识挖掘过程,即数据挖掘就是一个从数据库、数据仓库或其它信息资源库的大量数据中发掘出有趣的知识。图1. 5数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 系统 设计 实现 本科 学位 论文
限制150内