数据挖掘课程设计报告正文.docx
《数据挖掘课程设计报告正文.docx》由会员分享,可在线阅读,更多相关《数据挖掘课程设计报告正文.docx(16页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、名目第 1 章 数据挖掘根本理论21.1 数据挖掘的产生21.2 数据挖掘的概念31.3 数据挖掘的步骤3第 2 章 系统分析42.1 系统用户分析42.2 系统功能分析42.3 系统算法分析5第 3 章 数据治理63.1 数据治理的方法6第 4 章 数据采集64.1 数据采集的方法6第 5 章 数据预处理65.1 数据预处理的方法6第 6 章 数据挖掘76.1 算法描述与流程图76.1.1 算法描述76.1.2 算法流程图8第 7 章 结果显示与解释评估97.1 结果显示界面的具体实现97.1.1 系统主界面的具体实现97.1.2 超市销售记录界面的具体实现107.1.3 数据采集界面的具体
2、实现117.1.4 挖掘条件界面的具体实现127.1.5 数据挖掘界面的具体实现137.1.6 帮助界面的具体实现147.1.7 系统主界面运行后显示的结果14学习体会15参考文献1610第 1 章 数据挖掘根本理论1.1 数据挖掘的产生随着计算机硬件和软件的飞速进展,尤其是数据库技术与应用的日益普及, 人们面临着快速扩张的数据海洋,如何有效利用这一丰富数据海洋的宝藏为人类效劳业已成为宽阔信息技术工作者的所重点关注的焦点之一。与日趋成熟的数据治理术与软件工具相比,人们所依靠的数据分析工具功能,却无法有效地为决策者提其决策支持所需要的相关学问,从而形成了一种独特的现象“丰富的数据, 贫乏学问”。
3、为有效解决这一问题,自二十世纪年月开头,数据挖掘技术逐步进展来,数据挖掘技术的快速进展,得益于目前全世界所拥有的巨大数据资源以及对这些数据资源转换为信息和学问资源的巨大需求,对信息和学问的需求来自各行业,从商业治理、生产掌握、市场分析到工程设计、科学探究等。数据挖掘可以为是数据治理与分析技术的自然进化产物,如图 1.1 所示。数据收集与数据库创立60年月或更早根底文件处理数据库治理系统70年月网络和关系数据库系统数据建模工具索引和数据组织技术查询语言和查询处理用户界面和优化方法在线事务处理先进数据库系统80年月中期至今先进数据模型扩展关系、面对对象、对象关系面对应用空间、时间、多媒体、学问库数
4、据仓库和数据挖掘80年月后期至今先进数据模型扩展关系、面对对象、对象关系面对应用空间、时间、多媒体、学问库一代信息系统2023 年之后自八十年到中期开头,关系数据库技术被普遍承受,一轮争论与开发型强大的数据库喜用悄然兴起,并提出了很多先进的数据模型:扩展关系模型、面对对象模型、演绎模型等;以及应用数据库系统:空间数据库、时序数据库、多媒体数据库等;日前异构数据库系统和基于互联网的全球信息系统也已开头消灭并在信息工业中开头扮演重要角色。图 1-1 数据挖掘进化过程示意描述1.2 数据挖掘的概念数据挖掘Data Mining,简称 DM,简洁地讲就是从大量数据中挖掘或抽取出学问,数据挖掘概念的定义
5、描述有假设干版本,一下给出一个被普遍承受的定义描述:数据挖掘,又称为数据库中学问觉察Knowledge Discovery from Database, 简称 KDD,它是一个从大量数据中抽取挖掘出未知的、有价值的模式或规律等学问的简单过程。1.3 数据挖掘的步骤整个学问挖掘KDD过程是有假设干挖掘步骤组成的,而数据挖掘近视其中的一个主要步骤。整个学问挖掘的主要步骤有:数据清洗data clearning,其作用就是去除数据噪声和与挖掘主题明显无关的数据;数据集成data integration,其作用就是将来自多数据源中的相关数据组合到一起;数据转换data transformation,其
6、作用就是将数据转换为易于进展数据挖掘的数据存储形式;数据挖掘data mining,它是学问挖掘的一个根本步骤,其作用就是利用智能方法挖掘数据模式或规律学问;模式评估pattern evaluation,其作用就是依据肯定评估标准interesting measures从挖掘结果筛选出有意义的模式学问;学问表示knowledge presentation,其作用就是利用可视化和学问表达技术,向用户展现所挖掘出的相关学问。尽管数据挖掘仅仅是整个学问挖掘过程中的一个重要步骤,但由于目前工业界、媒体、数据库争论领域中,“数据挖掘”一词已被广泛使用并被普遍承受,因此本书也广义地使用“数据挖掘”一词来表
7、示整个学问挖掘过程,即数据挖掘就是一个从数据库、数据仓库或其它信息资源库的大量数据中开掘出好玩的学问。第 2 章 系统分析2.1 系统用户分析利用数据挖掘技术可以帮助获得决策所需的多种学问。在很多状况下,用户并不知道数据存在哪些有价值的信息学问,因此对于一个数据挖掘系统而言,它应当能够同时搜寻觉察多种模式的学问,以满足用户的期望和实际需要。此外数据挖掘系统还应能够挖掘出多种层次抽象水平的模式学问。数据挖掘系统还应容许用户指导挖掘搜寻有价值的模式学问。比方:作为一个商场主管,确定想要知道商场顾客的购物习惯;尤其是期望了解在一次购物过程中,那些商品会在一起被顾客所购置。为帮助答复这一问题,就需要进
8、展市场购物分析, 即对顾客在商场购物交易记录数据进展分析。所分析的结果将帮助商场主管制定有针对性的市场营销和广告宣传打算,以及编撰适宜的商品名目。比方:市场购物分析结果将帮助商家对商场内商品应如何合理摆放进展规划设计。其中一种策略就是将常常一起购置的商品摆放在相邻近的位置,以便利顾客同时购置这两件商品;如:假设顾客购置电脑的同时常也会购置一些金融治理类软件,那么将电脑软件摆放在电脑硬件四周明显将有助于促进这两种商品的销售;而另一种策略则是将电脑软件与电脑硬件分别摆放在商场的两端,这就会促使顾客在购置两种商品时,走更多的路从而到达诱导他们购置更多商品的目的。比方:顾客在打算购置一台昂贵电脑之后,
9、在去购置相应金融治理软件的路上可能会看到安全系统软件,这时他就有可能购置这一类软件。市场购物分析可以帮助商场主管确定那些物品可以进展捆绑减价销售,如一个购置电脑的顾客很有可能购置一个捆绑减价销售的打印机。2.2 系统功能分析我们组所开发的超市销售记录数据挖掘系统是承受关联规章挖掘的方法来挖掘出商家期望得到的销售信息。关联规章挖掘就是从大量的数据中挖掘出有价值描述数据项之间相互联系的有关学问。我们开发的超市销售记录数据挖掘系统主要应用就是市场购物分析。依据被放到一个购物袋的购物内容记录数据而觉察的不同被购置商品之间所存在的关联学问无疑将会帮助商家分析顾客的购置习惯。如图- 所示。觉察常在一起被购
10、置的商品关联学问将帮助商家制定有针对性的市场营销策略。比方:顾客在购置牛奶时,是否也可能同时购置面包或会购置哪个牌子的面包,明显能够答复这些问题的有关信息确定会有效地帮助商家进展有针对性的促销,以及进展适宜的货架商品摆放。如可以将牛奶和面包放在相近的地方或许会促进这两个商品的销售。将商场全部销售商品设为一个集合,每个商品item均为一个取布尔值真/假的变量以描述相应商品是否被一个顾客购置。因此每个顾客购物袋 就可以用一个布尔向量来表示。分析相应布尔向量就可获得那些商品是在一起被购置关联的购物模式。如顾客购置电脑的同时也会购置金融治理软件的购物模式就可以用以下的关联规章来描述:computer=
11、financial_management_softwaresupport=2%,confidence=60%关联规章的支持度support和信任度confidence是两个度量有关规则趣味性的方法。它们分别描述了一个被挖掘出的关联规章的有用性和确定性。规章的支持度为 2%,就表示所分析的交易记录数据中有交易记录同时包含电脑和金融治理软件即在一起被购置。规章的 60%信任度则表示有 60%的顾客在购置电脑的同时还会购置金融治理软件。通常假设一个关联规章满足最小支持度阈值minimum support threshold和最小信任度阈值minimum confidence threshole,那么
12、就认为该关联规章是有意义的;而用户或专家可以设置最小支持度阈值和最小信任度阈值。2.3 系统算法分析设 I=i1,i2,im为数据项集合;设为与任务相关的数据集合,也就是一个交易数据库;其中的每个交易T 是一个数据项子集,即T 包含于 I;每个交易均包含一个识别编号 TID。设A 为一个数据项集合,当且仅当A 包含于 T 时就称交易 T 包含 A。一个关联规章就是具有“A=B”形式的蕴含式;其中有 A 包含于I,B 包含于 I 且 AB =UNLL。规章A=B 在交易数据集 D 中成立,且具有s 支持度和 c 信任度。这也就意味着交易数据集 D 中有 s 比例的交易 T 包含 AB 数据项;且
13、交易数据集 D 中有 c 比例的交易 T 满足“假设包含 A 就包含 B 条件”。具体描述就是:support(A=B)=P(AB) confidenceA=B=PB|A满足最小支持度阈值和最小信任度阈值的关联规章就称为强规章strong。通常为便利起见,都将最小支持度阈值简写为min_sup;最小信任度阈值简写为min_conf。这两个阈值均在 0%到 100%之间,而不是 0 到 1 之间。一个数据项的集合就称为项集itemset;一个包含 k 个数据项的项集就称为 k-项集。因此集合computer,financial_management_software,就是一个2-项集。一个项集的
14、消灭频度就是整个交易数据集 D 中包含该项集的交易记录数;这也称为是该项集的支持度support count。而假设一个项集的消灭频度大于最小支持度阈值乘以交易记录集 D 中记录数,那么就称该项集满足最小支持度阈值;而满足最小支持度阈值所对应的交易记录数就称为最小支持频度minmum support count。满足最小支持阈值的项集就称为频繁项集frequent itemset。全部频繁 k-项集的集合就记为 Lk挖掘关联规章主要包含以下二个步骤:步骤一:觉察全部的频繁项集,依据定义,这些项集的频度至少应等于预先设置的最小支持频度;步骤二:依据所获得的频繁项集,产生相应的强关联规章。依据定义
15、这些规章必需满足最小信任度阈值。此外还可利用好玩性度量标准来帮助挖掘有价值的关联规章学问。由于步骤二中的相应操作极为简洁,因此挖掘关联规章的整共性能就是由步骤一中的操作处理所打算。第 3 章 数据治理3.1 数据治理的方法软件的开发是离不开数据库的,本次超市销售记录数据挖掘系统共使用到了14 张数据表来存储数据帮助软件完成相关的功能。如:销售记录,数据采集, 数据预处理,挖掘条件,一元频繁项集,二元频繁项集等等。对数据的治理主要有对数据表的增、删、改和对各个数据表数据构造的设计以及对内容的增、删、改操作,固然具体到每一个数据表时治理方法略有区分。第 4 章 数据采集4.1 数据采集的方法本软件
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 课程设计 报告 正文
限制150内