数据仓库成功案例1.doc
【精品文档】如有侵权,请联系网站删除,仅供学习与交流数据仓库成功案例1.精品文档.数据仓库成功案例数据挖掘在宝钢的实践1. 宝钢简介2. 宝钢数据挖掘基础2.1 冶金工业数据挖掘背景 2.2 其DW流程和具体步骤2.3 其工具和主要功能3. 宝钢股份信息化的三层数据架构 4. 宝钢数据仓库的体系结构及应用 4.1 系统环境 4.2 宝钢数据仓库开发 4.3 宝钢数据仓库应用 4.3.1 专业技术报表 4.3.2 数据分析与数据挖掘 4.3.3 决策信息支持 5. 宝钢数据仓库和数据挖掘应用及成果6. 参考文献1 宝钢简介宝钢是中国最大的钢铁生产企业,目前的规模达到年产1100万吨钢,2002年的销售收入达到330亿元,税前利润接近60亿元。宝钢的产品系列包括板材、线材、管材等,主要的用户分布在汽车、家电等制造业。自1985年投产至今,积累了大量的生产实绩数据。2宝钢数据挖掘基础2.1 冶金工业数据挖掘背景 在冶金工业中年复一年的积累着各种数据,从每一炉钢到每一块板坯到每一个钢卷,各级计算机系统可以把这些数据完整地收集起来。但是收集数据本身并不是目的,从“信息化带动工业化”的角度来看,更重要的是把这些数据利用起来,利用数据中蕴藏的知识来指导生产,形成企业的核心竞争力。另一方面,在冶金工业的运营过程中还有许多问题需要解决,例如全流程的质量控制和供应链管理等。由于它们固有的多变量和非线性特点,用传统的局部优化的方法很难达到企业级的最优。现在通过把分散在各个生产过程的实际生产数据按主题组织成数据仓库,在此基础上展开数据挖掘工作和获取知识,利用获取的知识可以比过去更好地解决这些问题。2.2 其DW流程和具体步骤通用数据挖掘流程:图一 通用数据挖掘流程宝钢针对冶金工业特点的数据挖掘流程:图二其采用的方法称为SEMMAO数据挖掘方法论,其主要步骤和含义为:采样(S)根据一定的规则从大样本集中抽取规模较小的样本子集,可以分为随机采样和非随机采样。采样的主要目的是减少后续步骤处理的数据量,有时也可以起到改善数据分布的作用。观察()指对数据进行一些可视化的探索,让分析人员对数据的分布特征做到心中有数,为后续的挖掘工作带来一些有益的提示。调整()对各种令人不满意的数据进行处理,使其满足建模算法的要求和精度要求。调整的方法很多,具体的有缺失值处理、奇异值处理、矛盾值处理、标准化和变量变换等。建模()是以一种数学模型的方式来表达隐含在数据中的知识。大体上模型可以分为有监督和无监督两大类。有监督的模型是指目标变量已经被赋予一定的值,通过训练要建立一种从输入变量到目标变量的映射,使其在一定的误差准则意义下达到最优。这样的模型可以用于分类和预报的目的。无监督的模型则是在缺少目标变量的信息的情况下,仅利用输入变量自身的信息把样本划分成为若干个类,从而达到抽取信息的目的。评价()是对模型的结果进行误差分析。如果模型被证明是可以接受的,就可以被认为是一种知识,可以用于以后的预报和优化。优化()是用挖掘出的知识来解决实际问题,诸如“如何调整某些输入变量的值来得到输出变量的目标值”。在一般的商业性数据挖掘中并不包含这一步,它们一般做到评价就结束了,把进一步的使用扔给用户。但是在我们的实际应用中,发现模型的理解和使用也很重要,所以在数据挖掘的方法论中增加了这一步。优化的方法包括聚类调优、遗传寻优等。.3 其工具和主要功能Practical Miner(简称PM):宝钢基于SAS的研发实用数据挖掘系统SAS Enterprise Miner:美国SAS公司研发主要功能:(1)数据收集:根据用户的设定条件,选取分析用数据,并提供SAS数据格式与其它数据格式之间的接口;(2)数据采样:抽取数据集市中的典型样本;(3)数据预处理:对数据进行规范性检查、变量降维、数据变换、异常点处理、矛盾点处理;(4)可视化探索:提供直观的数据分析功能;(5)聚类分析:提供常用的聚类方法,可以自动决定类数;(6)数据建模:提供人工神经网络、模糊系统、线性回归等建模工具,可以优化模型结构;(7)数据预测:根据已建立的模型,对数据进行批量预报;(8)优化设计:通过定性或定量的方法,对于给定的目标,调整影响量,使目标达到最优;(9)趋势分析:研究变量随时间变化的趋势;(10)规范管理:设置规范数据库。宝钢股份信息化的三层数据架构 根据RN.Anthony的三级管理模型(2),管理科学家把管理分为营运控制、管理控制、战略计划三个层次。通过管理层次的设计,可以使管理的实施更具有针对性,管理的层次越高,分析的内容也越多。宝钢股份信息化的三层数据架构“数据、数据库、数据仓库”正是与管理的三大层次相对应,从信息系统的角度支持更高层次管理的实施。运营控制层次:以生产过程的管理为主,要求完成制造过程数据的自动采集和制造过程的自动控制。管理控制层次:要求完成业务管理过程的自动化,按专业实现生产、采购、销售、财务、设备等日常业务的计算机管理,并实现各专业的绩效分析、评价自动化,完成专业管理过程的PDCA闭环控制。这个层次中的日常业务自动化管理,通常由数据库应用系统完成,如 ERP系统等。而各专业的绩效分析、评价自动化,需要以企业管理知识、业务分析逻辑为基础,建立各种分析评价模型,快速、准确、安全地提供大量的专业技术信息共享,这种把数据到信息的转换和发布的过程,通常由数据仓库应用系统来完成。战略计划层次:它属于中长期计划管理,要求决策支持信息能够快速的提供,而这些信息需求通常是跨专业的、要按照决策具体需求来组织的。这个层次的业务管理,通常由数据仓库提供信息支持,专业技术模型提供决策支持。4宝钢数据仓库的体系结构及应用 41系统环境 宝钢股份企业级数据仓库的硬件平台是两台IBMRS6000S85超级小型机,与ERP系统主机通过公司主干网和ESCON光纤通道联接。这样的布局主要是大大减少了操作型数据和分析型数据在传输过程中的“碰撞”,提高数据传输效率。同时,数据仓库系统从主机系统剥离了大量统计、分析功能,实现了总体系统的负载均衡,为公司持续改进、科学决策创造了条件。42宝钢数据仓库开发 宝钢数据仓库开发策略采用总体规划、分步实施的方案。在大量调研的基础上,编制了数据仓库的主题规划,确定数据仓库的关键主题,如生产物流、技术质量、市场营销、设备管理、财务成本、能源管理等,分阶段的组织实施,总体上提高了开发效率,降低了开发风险。43宝钢数据仓库应用 宝钢企业级数据仓库基本应用可以分为三类:专业技术报表、数据分析与挖掘、决策信息支持。431专业技术报表 专业技术报表主要是为日常生产经营管理服务,每天,数据仓库系统按需要定时自动生成上千份专业技术报表,对公司的销售、技术、生产、出厂、设备、财务成本管理以及公司的炼钢、热轧、冷轧、条钢产线,从不同的角度、不同层次,结合前一天生产实绩做出评价,为各级管理者提供决策支持信息。具体业务信息系统有:生产调度信息、企业统计信息、生产物流信息、市场营销信息等等。432数据分析与数据挖掘 数据分析与数据挖掘(DM)密不可分,通过一段时间的数据积累。围绕公司的重点工作,如产品质量、降本增效工作、合同交货周期等专题进行数据分析与挖掘,通过数据清理,要因分析、找出影响指标的主要因素,及时报警,为公司的经营决策提供科学依据,为公司稳定产品质量、降本增效,提升用户服务水平,提供有效的技术支撑。433决策信息支持 为支持公司中长计划编制和持续改进,开发面向决策信息支持的数据仓库应用模块,主要有: 明细产品成本计算系统:反映产品的盈利能力的分析与评价。 标准维护与计划值系统:在公司内实现了统一的、可信度高的一系列基本技术经济管理指标。为公司年度预算计划编制提供各种基础数据。 专业决策支持:产品性能预报、配矿系统、配煤系统等等。 上述所有的应用全部基于WEB实现,用户无需安装任何附加软件,只要连接在主干网上,拥有信息授权,利用浏览器就可以得到数据仓库的信息服务。宝钢数据仓库和数据挖掘应用及成果()电力系统数据仓库 ()基于数据挖掘技术的配矿系统 ()数据挖掘在宝钢质量控制中的应用 1.0已经成功地应用于宝钢配矿优化,在19971998年间,1.0为宝钢降低成本达万元。2.0也已在热轧产品和冷轧产品的质量控制中投入使用,并成功地发现一些可为技术人员利用的规律。参考文献王珊等,数据仓库技术与联机分析处理,科学出版社,1998年6月章祥荪等,管理信息系统的系统理论与规划方法,科学出版社,2001年美WHInmon著,王志海等译,数据仓库,机械工业出版社,2000年5月李庆予,推动从数据到信息再到知识的演绎宝钢技报,数据挖掘在宝钢的实践陆玉昌,数据挖掘和知识发现