《锆石工程项目数据分析与挖掘(工程项目管理).docx》由会员分享,可在线阅读,更多相关《锆石工程项目数据分析与挖掘(工程项目管理).docx(17页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、泓域咨询/锆石工程项目数据分析与挖掘锆石工程项目数据分析与挖掘xx集团有限公司一、 项目背景分析氯氧化锆的生产工艺复杂,环境污染严重,为了保护本国的利益,发达国家几乎把这个低利润、高能耗、高污染的前期生产工艺去掉,而保留高效、无污染的深加工工艺。因此发达国家氯氧化锆几乎都停止生产,从国外采购氯氧化锆原料,这样就促进了中国锆工业的发展。随着1980年中国向世界市场开放,锆产品开始出口,宜兴化工厂规模得到迅猛发展。这也许是中国锆工业发展的转折点。随着外贸的扩大,锆化学制品品种增多,产量增大,企业效益良好。由于利益驱动,这时在国内发展了一批新的企业,生产能力有所增长,但生产量跟不上生产能力。南非、澳
2、大利亚的锆英砂进入中国,锆化学制品的质量、工艺技术水平、回收率均有所提高。同时,根据国外客商的要求,锆化学制品的种类也扩大了。在利益的驱动下,生产厂家进步增多,锆英砂供应充足,原材料价格下降。氯氧化锆出口量猛增,促进了中国锆化学制品工业的发展。但由于信息交流不畅,企业间缺乏沟通,国内氯氧化锆的生产厂家增加太多,企业相互竞争,相互压价,价格下跌。同时由于产量猛增,技术和检测手段跟不上,产品质量下降,环境污染严重。不利于我国锆化学制品的发展。这时期的产量约为20000t。世界锆化学制品市场扩大,锆陶瓷颜料、釉料需求量大增。西方国家在中国建立了许多生产陶瓷釉料的合资企业,导致ZrO的需求量大幅增加。
3、这大大刺激中国锆化学制品的发展,新建工厂蜂拥而上,原有企业生产量连续增产O在中国,第1次出现了锆化学制品供大于求的现象,产量达到40000-45000t。锆产品价格下跌,企业效益明显下降。最近几年,中国锆化学制品有了更大的发展,但由于锆英砂短缺。原材料的涨价,企业之间的竞争加剧,锆化学制品的价格偏低,库存增加,致使企业陷入困境,甚至出现严重亏损,小工厂濒临关闭。锆还可以用做冶金工业的“维生素”,发挥它强有力的脱氧、除氮、去硫的作用。钢里只要加进千分之一的锆,硬度和强度就会惊人地提高;含锆的装甲钢、不锈钢和耐热钢等,是制造装甲车、坦克、大炮和防弹板等国防武器的重要材料。把锆掺进铜里,抽成铜线,导
4、电能力并不减弱,而熔点却大大提高,用做高压电线非常合适。含锆的锌镁合金,又轻又耐高温,强度是普通镁合金的两倍,可用到喷气发动机构件的制造上。另外,锆粉的特点是着火点低和燃烧速度快,可以用做起爆雷管的起爆药,这种高级雷管甚至在水下也能够爆炸。锆粉再加上氧化剂。这好比火上加油,燃烧起来强光眩目,是制造曳光弹和照明弹的好材料。从军工上来看,钢里只要加进千分之一的锆,硬度和强度就会惊人地提高。含锆的装甲钢、大炮锻件钢、不锈钢和耐热钢等是制造装甲车、坦克、大炮和防弹板等武器的重要材料。从原子能和核能上来看,锆有突出的核能性,是发展原子能工业不可缺少的材料,中国的大型核电站普遍都用锆材,如果用核动力发电,
5、每一百万千瓦的发电能力,一年就要消耗掉20到25吨金属锆。一艘三万马力的核潜艇所用的锆合金作核燃料的包套和压力管,使用量即可达20至30吨。二、 数据统计分析数据分析重要的一类是对具有随机性质的数据进行分析,在多数情况下是用于预测。本段仅介绍统计分析。统计分析不仅是计算样本的数字特征(期望值、方差、相关系数、协方差、离散度、概率分布等),还应当建立适当的模型,进而做出预测。统计分析一般有如下工作或阶段。1选择数字特征。统计分析,就是利用若干数字特征全面认识数据的统计规律。选择数字特征是统计分析研究问题的准备阶段,是统计过程的重要环节。数字特征应当:(1)能够客观地反映研究分析对象的性质、特点、
6、内在联系和运动过程;(2)尽可能突出重点,反映分析对象的全貌;(3)应能反映分析对象的变化;(4)便于资料获取。2收集并整理数据。确定了需用的数字特征之后,就要收集并整理所需的数据。样本的容量与质量对统计结果影响极大。3计算数字特征。利用整理后的样本计算必要的数字特征。这项工作可以同下面的建模合在一起,利用适当的软件进行。4建立模型。计算出样本数字特征后,应选择适合样本模式的模型。统计分析可用的模型很多,都有各自的特点及适用条件。选择模型时,应全面考虑研究对象与目的、到手的数据与资料、统计方法等各自的特点,以及咨询人员对方法的熟悉程度等。5检验模型误差。建模之后,可利用样本检验模型的误差,误差
7、大小由样本与所选模型与方法所决定。根据经济学理论和研究对象的具体特点,分析和评价模型误差,以及模型和方法本身;若误差未达到要求,应改进模型与方法。6利用模型预测。预测是咨询结论和建议的基本依据之一,应成为咨询及决策人员的高质量信息。7评价统计与预测结果。对统计与预测结果进行评价的任务是对初步统计结果(如离散程度、影响、走势等)进行概括,并寻找它们之间的联系。评价过程一般有:形成初步概念;对现象定性;提出主要观点;阐述所提观点的理由;提出论据;得出结论。咨询工程师在进行评价时,要在大局高度上全面、长远地看问题,多方面观察,不偏废任何一方;注意数据的衔接,当来源不同的数据矛盾时应弄清情况后再做取舍
8、。三、 大数据系统和数据挖掘技术(一)数据挖掘概述1大数据大数据是指超过既往数据库系统规模、传输速度和处理能力,或者既往数据库系统结构无法容纳的数据。大数据常以万亿或EB衡量,且种类多、实时性强,蕴藏的商业价值大。很多现有的新或旧的信息基础设施、工具和技术可用来开发和利用大数据中蕴藏的价值。大数据有各种各样的来源:传感器、气候信息、公开的信息、如杂志、报纸、文章、买卖记录、网络日志、病历、事监控、视频和图像档案,及大型电子商务。大数据是数据挖掘产生与生存发展的土壤。如今数据每五年翻一番,面对前所未有的海量数据,为了从中发现有用的信息必须进行数据挖掘。此外,计算机存储、处理大量数据,以及运算的能
9、力大为增强,为数据挖掘创造了条件,使其成为一门独特的学科和技术。2数据挖掘与数据分析的区别数据挖掘与数据分析的主要区别在于:(1)处理工作量。数据分析的数据量可能并不大,而数据挖掘的数据量极大。(2)制约条件。数据分析是从某些假设出发,建立方程或模型,而数据挖掘不作假设,可以自动建立方程。(3)处理对象。数据分析往往是针对数字型数据,而数据挖掘对象类型繁多,例如图像、声音、文本等。(4)处理结果。数据分析可以解释结果的含义;数据挖掘的结果不易解释,着眼于预测未来,并提出决策建议。想要从数据中发现规律(即认知),往往需将数据分析和数据挖掘结合起来。(二)数据挖掘步骤按挖掘对象,数据挖掘分为数据库
10、与数据仓库挖掘和网络挖掘两种,各自步骤分述如下。1数据库与数据仓库挖掘数据挖掘一般有信息收集、数据集成、数据规约、数据清理、数据变换、数据挖掘、模式评估和知识表示8个步骤。(1)信息收集。从确定的挖掘对象中提取特征,然后选择合适的收集方法,将收集到的信息存入数据库。对于海量数据,必须选择合适的数据仓库。(2)数据集成。把来源、格式、特点、性质不同的数据按逻辑或物理属性加以编排,以便以后使用。(3)数据规约。多数数据挖掘算法耗时很长,商业数据往往较多,数据挖掘更耗时间。数据规约就是简化已有可用数据集的表示,规约后数量大减,但仍能保持原数据的完整性,对规约数据的挖掘结果,与对规约前数据的挖掘结果相
11、同或几乎相同。(4)数据清理。有些数据不完整(属性缺少属性值)、含噪声(属性值错误),不一致(同一信息有多种表示),需要清理,使其完整、正确、一致后存入数据仓库。(5)数据变换。将数据变换成适合数据挖掘的形式。实数型数据,可将其分层和离散化。(6)数据挖掘。根据数据格式、属性与特点,选择合适的处理工具,例如统计方法、事例推理、决策树、规则推理、模糊集,甚至神经网络,取得有用的信息。(7)模式评估。由行业专家核实数据挖掘结果是否合理、是否可用。(8)知识表示。将数据挖掘得到的信息以可视方式交给用户,或作为新的知识存人知识库,供其他应用程序使用。并非所有的数据挖掘都要走上述的每一步。若只有一个数据
12、源,则可以省略数据集成。数据规约、数据清理、数据变换合称数据预处理。数据挖掘至少60%的费用要花在信息收集阶段,而至少60%以上的精力和时间要花在数据预处理上。数据挖掘是一个反复多次的过程,若一次未满足要求或未得到有用结果,则需回到前面,经过调整后重新开始。2,网络挖掘网络挖掘可分为网络用户行为挖掘与网络信息挖掘。前者基本不在工程咨询人员关心之列。后者可理解为“从WWW中发现和分析有用的信息”。网络信息挖掘是在已知数据样本的基础上,通过归纳学习、机器学习、统计分析等发现挖掘对象间的内在关系与特性,进而在网络中提取用户感兴趣的信息,获得更高层次的知识和规律。网络信息挖掘沿用了Robot,全文检索
13、、人工智能的模式识别、神经网络等技术。现在的搜索引擎使用了这些技术,能够在网页或网站数据库中为用户搜寻有用信息。网络信息挖掘具体步骤如下:(1)确立目标样本。由用户选择目标文本,提取特征信息。(2)提取特征信息。根据目标样本的词频分布,从统计词典中提取挖掘目标的特征向量并计算出相应的权值。(3)网络信息获取。先利用搜索引擎站点选择待采集站点,再利用Robot程序采集静态Web页面,最后获取被访问站点网络数据库中的动态信息,生成WWW资源索引库。(4)信息特征匹配。提取索引库中的源信息特征向量,并与目标样本的特征向量对照,将符合要求的信息交给用户。四、 项目名称及项目单位项目名称:锆石工程项目项
14、目单位:xx集团有限公司五、 项目建设地点本期项目选址位于xxx(以选址意见书为准),占地面积约15.00亩。项目拟定建设区域地理位置优越,交通便利,规划电力、给排水、通讯等公用设施条件完备,非常适宜本期项目建设。六、 建设规模该项目总占地面积10000.00(折合约15.00亩),预计场区规划总建筑面积17610.94。其中:主体工程11228.80,仓储工程3248.00,行政办公及生活服务设施1994.94,公共工程1139.20。七、 项目建设进度结合该项目建设的实际工作情况,xx集团有限公司将项目工程的建设周期确定为12个月,其工作内容包括:项目前期准备、工程勘察与设计、土建工程施工
15、、设备采购、设备安装调试、试车投产等。八、 建设投资估算(一)项目总投资构成分析本期项目总投资包括建设投资、建设期利息和流动资金。根据谨慎财务估算,项目总投资6465.53万元,其中:建设投资5334.82万元,占项目总投资的82.51%;建设期利息73.39万元,占项目总投资的1.14%;流动资金1057.32万元,占项目总投资的16.35%。(二)建设投资构成本期项目建设投资5334.82万元,包括工程费用、工程建设其他费用和预备费,其中:工程费用4747.60万元,工程建设其他费用468.70万元,预备费118.52万元。九、 项目主要技术经济指标(一)财务效益分析根据谨慎财务测算,项目
16、达产后每年营业收入11300.00万元,综合总成本费用9241.99万元,纳税总额1013.32万元,净利润1502.33万元,财务内部收益率17.67%,财务净现值1944.75万元,全部投资回收期5.94年。(二)主要数据及技术指标表主要经济指标一览表序号项目单位指标备注1占地面积10000.00约15.00亩1.1总建筑面积17610.94容积率1.761.2基底面积6400.00建筑系数64.00%1.3投资强度万元/亩348.042总投资万元6465.532.1建设投资万元5334.822.1.1工程费用万元4747.602.1.2工程建设其他费用万元468.702.1.3预备费万元
17、118.522.2建设期利息万元73.392.3流动资金万元1057.323资金筹措万元6465.533.1自筹资金万元3469.863.2银行贷款万元2995.674营业收入万元11300.00正常运营年份5总成本费用万元9241.996利润总额万元2003.107净利润万元1502.338所得税万元500.779增值税万元457.6410税金及附加万元54.9111纳税总额万元1013.3212工业增加值万元3509.5513盈亏平衡点万元4939.29产值14回收期年5.94含建设期12个月15财务内部收益率17.67%所得税后16财务净现值万元1944.75所得税后十、 层次分析法的基
18、本步骤当一个决策者在对问题进行分析时,首先要将分析对象的因素建立起彼此相关因素的层次系统结构,这种层次结构可以清晰地反映出相关因素(目标、准则、对象)的彼此关系,使得决策者能够把复杂的问题顺理成章,然后进行逐一比较、判断,从中选出最优的方案。运用层次分析法大体上分成四个步骤:建立层次结构模型;构造比较判别矩阵;单准则下层次排序及其一致性检验;层次总排序及其一致性检验。(一)建立层次结构模型层次分析法先将决策的目标、考虑的因素(评价准则)和决策对象(行动方案)按它们之间的相互关系分为最高层、中间层和最低层,其中最高层称为目标层,这一层中只有一个元素,就是该问题要达到的目标或理想的结果;中间层为准
19、则层,层中的元素为实现目标所采用的措施、政策、准则等,准则层中可以不止一层,可以根据问题规模的大小和复杂程度,分为准则层、子准则层;最低层为方案层,这一层包括了实现目标可供选择的方案。据此绘出层次结构模型图,模型中,目标、评价准则和行动方案处于不同的层次,彼此之间关系用线段表示,评价准则可细分多层。在层次结构模型中,各层均由若干因素构成,当某个层次包含因素较多时,可将该层次进一步划分成若干子层次。通常应使各层次中的各因素支配的元素一般不超过9个,这是因为支配元素过多会给两两比较带来困难。一个好的层次结构模型对解决问题极为重要,因此,在构建层次结构模型时,应注意以下四点:1自上至下顺序地存在支配
20、关系,用直线段表示上一层次因素与下一层次因素之间的关系,同一层次及不相邻元素之间不存在支配关系;2整个结构不受层次限制;3最高层只有一个元素,每个元素所支配元素一般不超过9个,元素过多可进一步分层;4对某些具有子层次结构可引入虚元素,使之成为典型层次结构模型。(二)构造比较判别矩阵层次结构建立后,评价者根据自己的知识、经验和判断,从第一个准则层开始向下,逐步确定各层不同因素相对于上一层因素的重要性权数。层次分析法在确定各层不同因素相对于上一层各因素的重要性权数时,通常使用两两比较的方法。(三)单准则下层次排序及其一致性检验层次分析法的信息基础是比较判断矩阵。由于每个准则都支配下一层若干个因素,
21、这样对于每一个准则及它所支配的因素都可以得到一个比较判断矩阵。因此,根据比较判断矩阵如何求出各因素对于准则的相对排序权重的过程称为单准则下的排序。计算权重的方法有多种,其中和法和根法是比较成熟并得到广泛应用的方法。1和法2根法3判断矩阵一致性检验由于客观事物的复杂性,会使我们的判断带有主观性和片面性,完全要求每次比较判断的思维标准一致是不大可能的。事实上,在构建比较判断矩阵时,我们虽然不要求判断具有一致性,但一个混乱的,经不起推敲的比较判断矩阵有可能导致决策的失误,所以我们希望在判断时应大体上的致。而上述计算权重方法,当判断矩阵过于偏离一致性时,其可靠程度也就值得怀疑了,故对于每一层次作单准则排序时,均需要作一致性的检验。(四)层次总排序及其一致性检验1层次总排序计算同一层次中所有元素对于最高层(总目标)的相对重要性标度(又称排序权重向量)称为层次总排序。2总排序一致性检验人们在对各层元素作比较时,尽管每一层中所用的比较尺度基本一致,但各层之间仍可能有所差异,而这种差异将随着层次总排序的逐渐计算而累加起来,因此需要从模型的总体上来检验这种差异尺度的累积是否显著,检验的过程称为层次总排序的一致性检验。
限制150内