数据仓库成功案例1.doc
《数据仓库成功案例1.doc》由会员分享,可在线阅读,更多相关《数据仓库成功案例1.doc(5页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、【精品文档】如有侵权,请联系网站删除,仅供学习与交流数据仓库成功案例1.精品文档.数据仓库成功案例数据挖掘在宝钢的实践1. 宝钢简介2. 宝钢数据挖掘基础2.1 冶金工业数据挖掘背景 2.2 其DW流程和具体步骤2.3 其工具和主要功能3. 宝钢股份信息化的三层数据架构 4. 宝钢数据仓库的体系结构及应用 4.1 系统环境 4.2 宝钢数据仓库开发 4.3 宝钢数据仓库应用 4.3.1 专业技术报表 4.3.2 数据分析与数据挖掘 4.3.3 决策信息支持 5. 宝钢数据仓库和数据挖掘应用及成果6. 参考文献1 宝钢简介宝钢是中国最大的钢铁生产企业,目前的规模达到年产1100万吨钢,2002年
2、的销售收入达到330亿元,税前利润接近60亿元。宝钢的产品系列包括板材、线材、管材等,主要的用户分布在汽车、家电等制造业。自1985年投产至今,积累了大量的生产实绩数据。2宝钢数据挖掘基础2.1 冶金工业数据挖掘背景 在冶金工业中年复一年的积累着各种数据,从每一炉钢到每一块板坯到每一个钢卷,各级计算机系统可以把这些数据完整地收集起来。但是收集数据本身并不是目的,从“信息化带动工业化”的角度来看,更重要的是把这些数据利用起来,利用数据中蕴藏的知识来指导生产,形成企业的核心竞争力。另一方面,在冶金工业的运营过程中还有许多问题需要解决,例如全流程的质量控制和供应链管理等。由于它们固有的多变量和非线性
3、特点,用传统的局部优化的方法很难达到企业级的最优。现在通过把分散在各个生产过程的实际生产数据按主题组织成数据仓库,在此基础上展开数据挖掘工作和获取知识,利用获取的知识可以比过去更好地解决这些问题。2.2 其DW流程和具体步骤通用数据挖掘流程:图一 通用数据挖掘流程宝钢针对冶金工业特点的数据挖掘流程:图二其采用的方法称为SEMMAO数据挖掘方法论,其主要步骤和含义为:采样(S)根据一定的规则从大样本集中抽取规模较小的样本子集,可以分为随机采样和非随机采样。采样的主要目的是减少后续步骤处理的数据量,有时也可以起到改善数据分布的作用。观察()指对数据进行一些可视化的探索,让分析人员对数据的分布特征做
4、到心中有数,为后续的挖掘工作带来一些有益的提示。调整()对各种令人不满意的数据进行处理,使其满足建模算法的要求和精度要求。调整的方法很多,具体的有缺失值处理、奇异值处理、矛盾值处理、标准化和变量变换等。建模()是以一种数学模型的方式来表达隐含在数据中的知识。大体上模型可以分为有监督和无监督两大类。有监督的模型是指目标变量已经被赋予一定的值,通过训练要建立一种从输入变量到目标变量的映射,使其在一定的误差准则意义下达到最优。这样的模型可以用于分类和预报的目的。无监督的模型则是在缺少目标变量的信息的情况下,仅利用输入变量自身的信息把样本划分成为若干个类,从而达到抽取信息的目的。评价()是对模型的结果
5、进行误差分析。如果模型被证明是可以接受的,就可以被认为是一种知识,可以用于以后的预报和优化。优化()是用挖掘出的知识来解决实际问题,诸如“如何调整某些输入变量的值来得到输出变量的目标值”。在一般的商业性数据挖掘中并不包含这一步,它们一般做到评价就结束了,把进一步的使用扔给用户。但是在我们的实际应用中,发现模型的理解和使用也很重要,所以在数据挖掘的方法论中增加了这一步。优化的方法包括聚类调优、遗传寻优等。.3 其工具和主要功能Practical Miner(简称PM):宝钢基于SAS的研发实用数据挖掘系统SAS Enterprise Miner:美国SAS公司研发主要功能:(1)数据收集:根据用
6、户的设定条件,选取分析用数据,并提供SAS数据格式与其它数据格式之间的接口;(2)数据采样:抽取数据集市中的典型样本;(3)数据预处理:对数据进行规范性检查、变量降维、数据变换、异常点处理、矛盾点处理;(4)可视化探索:提供直观的数据分析功能;(5)聚类分析:提供常用的聚类方法,可以自动决定类数;(6)数据建模:提供人工神经网络、模糊系统、线性回归等建模工具,可以优化模型结构;(7)数据预测:根据已建立的模型,对数据进行批量预报;(8)优化设计:通过定性或定量的方法,对于给定的目标,调整影响量,使目标达到最优;(9)趋势分析:研究变量随时间变化的趋势;(10)规范管理:设置规范数据库。宝钢股份
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 成功 案例
限制150内