2022年数据仓库与数据挖掘 .pdf
《2022年数据仓库与数据挖掘 .pdf》由会员分享,可在线阅读,更多相关《2022年数据仓库与数据挖掘 .pdf(3页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、一、数据仓库的特征:(1)面向主题性主题:是一个抽象的概念,是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。在逻辑上,它对应于企业中某一宏观分析领域所涉及的分析对象。面向主题的数据组织方式可在较高层次上对分析对象的数据给出完整、一致的描述,能完整、统一的刻画各个分析对象所涉及的企业的各项数据以及数据之间的联系,从而适应企业各个部门的业务活动特点和企业数据的动态特征,从根本上实现数据与应用的分离。(2)集成性数据仓库中的数据是从原有分散的源数据库中提取出来的,其每一个主题所对应的源数据在原有的数据库中有许多冗余和不一致,且与不同的应用逻辑相关。为了创建一个有效的主题域,必须将
2、这些来自不同数据源的数据集成起来,使之遵循统一的编码规则。因此,数据仓库在提取数据时必须经过数据集成,消除源数据中的矛盾,并进行数据综合和计算。经过数据集成后,数据仓库所提供的信息比数据库提供的信息更概括、更本质。(3)时变性时变性:许多商业分析要求对发展趋势做出预测,对发展趋势的分析需要访问历史数据。因此数据仓库必须不断捕捉OLTP 数据库中变化的数据,生成数据库的快照,经集成后增加到数据仓库中去;另外数据仓库还需要随时间的变化删去过期的、对分析没有帮助的数据,并且还需要按规定的时间段增加综合数据。(4)非易失性数据仓库中的数据反映的是一段时间内历史数据的内容,是不同时点的数据库快照的集合,
3、以及基于撰写快照进行统计、综合和重组的导出数据,而不是联机处理的数据。主要供企业高层决策分析之用,所涉及的数据操作主要是查询,一般情况下并不进行修改操作,即数据仓库中的数据是不可实时更新的,仅当超过规定的存储期限,才将其从数据仓库中删除,提取新的数据经集成后输入数据仓库(5)集合性数据仓库的集合性意味着数据仓库以某种数据集合的形式存储起来。二、KDD 过程中的数据准备中的三个子步骤:(1)数据集成将多文件或多数据库运行环境中的数据进行合并处理,解决语义模糊性、处理数据中的遗漏和清洗脏数据等。(2)数据选择数据选取的目的是确定目标数据,根据用户的需要从原始数据库中选取相关数据或样本。在此过程中,
4、将利用一些数据库操作对数据库进行相关处理。(3)数据预处理对步骤 2 中选出的数据进行再处理,检查数据的完整性及一致性,消除噪声及与数据挖掘无关的冗余数据,根据时间序列和已知的变化情况,利用统计等方法填充丢失的数据。三、KDD 过程中的“结果的解释和评估”步骤说明:对在数据挖掘步骤中发现的模式(知识)进行解释。通过机器评估剔除冗余或无关名师资料总结-精品资料欢迎下载-名师精心整理-第 1 页,共 3 页 -模式,若模式不满足,再返回到前面某些处理步骤中反复提取。将发现的知识以用户能了解的方式呈现给用户。其中也包括对知识一致性的检查,以确信本次发现的知识不会与以前发现的知识相抵触四、数据挖掘的任
5、务之一“关联分析”相关内容?关联规则反映一个事物与其它事物之间的相互依存性和关联性,如果两个事物或者多个事物之间存在一定的关联关系,那么其中一个事物就能够通过其他事物预测到。人们希望在海量的商业交易记录中发现感兴趣的数据关联关系,用以帮助商家作出决策。例如:面包2%牛奶1.5%(占超市交易总数)2%和 1.5%表明这两种商品在超市经营中的重要程度,称为支持度。商家关注高支持度的产品。面包=牛奶60%在购买面包的交易中,有 60%的交易既买了面包又买了牛奶,成 60%为规则“面包=牛奶”的信任度。信任度反映了商品间的关联程度五、数据挖掘的任务之一“聚类”相关内容?聚类是对物理的或抽象的对象集合分
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年数据仓库与数据挖掘 2022 数据仓库 数据 挖掘
限制150内