《庭院伞公司工程项目数据采集分析与知识管理(工程管理).docx》由会员分享,可在线阅读,更多相关《庭院伞公司工程项目数据采集分析与知识管理(工程管理).docx(27页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、泓域咨询/庭院伞公司工程项目数据采集分析与知识管理庭院伞公司工程项目数据采集分析与知识管理一、 “互联网+”背景下的工程咨询信息管理“互联网+”模式能充分发挥互联网在社会资源配置中的优化和集成作用,将互联网的创新成果深度融合于各领域之中。工程咨询行业本身就具有数据化的天然属性,对“互联网+”模式有着接纳和融合的先天优势。“互联网+”模式的到来给工程咨询行业的发展带来了新的催化剂和生产力,也带来新思维模式和发展空间。随着计算机与通信技术的飞速发展,互联网不断扩展和普及,网络技术的发展使工程咨询机构能够以快捷、低成本的方式获取更多的信息资源。“互联网+工程咨询”系统是建设基于互联网的工程咨询机构系
2、统,以丰富的信息资源为管理重心,同时全面集成客户、咨询、销售等业务处理系统及业务信息,支持工程咨询机构内部各层级间及工程咨询机构与外部环境有效沟通的信息管理系统。(一)“互联网+”对工程咨询数据分析的作用工程咨询的工作与互联网连接,使工程咨询可与无限的知识、专家、信息等实现即时对接。一个项目可通过互联网连接强大数据信息库,提供大量相关理论知识与概念,然后通过线上咨询与更多专家进行沟通、研讨,最后可自动与全球其他类似案例进行匹配,提供建设性的意见与建议。“互联网+工程咨询”系统突破传统局限,利用互联网信息化技术将信息流、数据流、工作流和资金流集成,形成强大的集聚效应,使工程咨询行业在未来的市场竞
3、争中不断发展,呈现一种无限制发展的态势。是提高工程咨询服务效率和水平。应用互联网有利于工程咨询人员掌握和有效利用相关数据信息,及时跟踪新政策、新技术的变化,增强决策者信息处理能力,提高工程咨询的服务效率。二是提高信息的准确性和及时性。及时、准确的获取信息是工程咨询的基础,信息技术改变了工程咨询人员获取信息、搜集信息和传递信息的方式,工程咨询数据的存储、整理、分析、查询、统计和传递可通过专业的信息系统实现,缩短了信息传递周期。三是有效控制工程咨询项目成本。将工程咨询项目执行成本纳入管理范围,通过统计分析发现项目管理中的问题,找出制约效益的瓶颈,从而降低项目成本,提高工程咨询单位的效益。(二)信息
4、管理目的与任务工程咨询企业自己拥有大量信息,使用方便、可靠、费用低。因此,只有当本企业缺乏所需信息时,才考虑其他来源。工程咨询企业在长期为客户服务中产生很多成果与文件,如客户资料、产品配方、生产工艺、设计图纸、货源资料、营销方案、财务报告等,往往使工程咨询企业形成竞争优势。这些宝贵资源若管理不善则不但无法得到有效利用,还会危及工程咨询企业的竞争地位和安全。目前,上述信息十分庞杂,有些企业不善于管理,仍然依靠资料室、图书馆等传统手段保存和管理上述信息,未设立有效的信息管理系统,致使员工在查找所需信息时耗费了大量不必要的时间,甚至找不到本企业实际上有的数据、信息、文件或其他资料,造成了资源的极大浪
5、费;即使使用数据库,能力也很有限。另一方面,一些企业内的某些部门囿于自身利益,不愿意将自己掌握的信息与其他部门共事。落后的信息管理已经严重妨碍了咨询业务的发展,工程咨询企业应当了解信息管理的重要性及紧迫性,迅速改变现状。信息管理是指将分散、无序、庞杂的数据信息按照一定规则加以识别、编排并记载各种信息之间的联系,进而保存、添加、检索、共享和利用。为了使信息管理行之有效,应当建立有效的制度,促使企业内各部门之间共享各自掌握的数据与信息,尽可能地减少因重复收集数据与信息而浪费的资源,增加企业的整体收益。信息管理的任务是了解信息使用者的具体需要,对信息进行全面的收集、适当的筛选、正确的分析、恰当的整理
6、和储存,并将适合需要的信息及时、准确、经济地交给各级工程咨询和决策人员。咨询企业应当利用先进的信息管理手段,建立适合本企业需要的数据库管理系统,加强对本企业内外信息的全面管理,为本企业咨询业务及时提供全面、准确、最新的信息。(三)信息管理技术与方法1信息管理基本做法对于数量巨大、种类繁多的数据、信息或其他资料,有一些基本办法,不仅适用于以往的图书室、图书馆、档案馆、博物馆等,也适用于计算机数据库系统。例如,分类与编目方法,现在微软公司的Windows文件系统所依据的就是历史悠久的分类与编目原则。2信息分类与编目对于工程咨询企业掌握的信息,有多种分类与编目方式。例如,按企业管理层次分类编目,大企
7、业,目录第一层按企业总体组织划分,如公司总部、子(分)公司;第二层可按企业各级的职能部门划分,如人力资源部、财务资产部、综合管理部、技术质量部、经营计划部等职能部门,以及规划部门、设计部门等业务部门;第三层可按各业务部门的行政科室或者项目团队来划分。分类方法的选择,既要考虑企业拥有的信息内容、形式与性质,也要考虑企业为客户提供咨询服务的方式与特点,或者将两方面结合起来,使各种类别的信息便于查询。例如,公司新闻、企业规章制度、会议纪要等,可以归为一类,供一般用户查询。而对于图档,可以按项目名称、时间、业务部门、版本、关键字、文字说明、关联信息等逐层分类。为了便于企业员工更好地利用企业拥有的信息资
8、源,可以信息地图导航的方式编制目录。信息地图可按照上述分类方法编制,使用户能够快速找到他们需要的信息与资料。3检索功能与权限信息管理系统必须有完善的查询功能,允许使用者以多种方式查询。查询系统应当灵活、具有模糊查询功能,以满足不同人员的查询习惯与偏好。查询结果能够以多种方式显示或交给用户。当然,为了信息的安全,查询系统应当具备权限管理功能。(四)现代信息管理技术信息管理人员应确保将必要的原始信息收集齐全,加工成可用信息。还要确保企业内部人员在合适的时间以合适的形式取得并利用。信息管理要确保企业的信息准确、及时、安全,确保满足所有与工程咨询有关的信息要求。对于非数字信息,可参考图书馆藏书、文献分
9、类与编目规则加以编排,购置相应设施存放此类信息。对于数字信息,可以保存在计算机数据库中并备份。1建立数据库管理系统数据库管理系统是根据数据模型研制的描述、建立和管理数据库的专用软件,一般由数据库语言、数据库管理程序和数据库使用程序三部分组成。数据库语言主要用于建立数据库、使用数据库和对数据库进行维护。数据库管理程序是对数据库的运行进行管理、调度和控制的例行程序。数据库使用程序是对数据进行维护使其处于运行状态而使用的各种数据库服务程序。数据库管理系统的功能因系统不同而有所差异,一般包括:定义数据库、装人数据库、操作数据库、维护数据库、数据通信等。数据库管理系统可分为小型和大中型数据库;亦可分为关
10、系数据库、面向对象数据库、工程数据库、多媒体数据库等。关系数据库在一般信息系统中发挥着巨大作用,是面向对象数据库、工程数据库和多媒体数据库的基础。2信息安全管理信息安全一般指信息的完整和用途是否得到了有效保护。信息安全分为信息系统、数据库、个人隐私、商用信息、国家机密的保护等方面。保密技术的缺陷、网络无限制传播、计算机病毒、网上犯罪等都威胁到信息的安全。工程咨询企业向委托人提出的方案和技术,以及委托人提供的信息容易为竞争对手取得,从而损害自己的竞争力,损害委托人的利益。目前某些项目的可行性研究报告未删除客户的敏感信息就上传到很多网站,不同程度地泄漏了本应为客户保密的内容。对此,应当给予充分重视
11、,配备必要的设备,安装可靠的防护软件。企业若不能及时有效地采取措施,信息一旦泄漏会造成不可估量的损失和损害。企业必须防止委托人和自身因泄密而受到损害。良好的信息安全管理可以降低运营风险、保持企业竞争力。保密有多种方式,主要有:1)咨询业务当事人事先签订保密协议,并严格执行;2)对信息库设置使用权限。一般可根据信息的重要性和敏感程度分为若干密级,为各级信息设置相应的使用权限。横向权限用来控制查询和使用。纵向权限可考虑信息属性和用户两方面,为各种信息设置相应的安全级别。普通知识,如企业文化、常用规章制度等,安全级别较低,可在企业内部充分共享。而诸如合同、经验、涉密图档等,只能在小范围内交流,安全级
12、别要高。各种用户也应设置权限级别,并将其与信息的安全级别对应起来。横向与纵向的保护办法结合起来,可构成比较严密、完善的安全体系,既能保证信息得到充分利用,又能减少泄露的机会。二、 工程咨询信息及其管理概述(一)工程咨询信息的内涵信息资源是工程咨询行业的核心资源,通过获取海量有效的信息,依靠信息、知识和智慧、先进科技手段进行服务。信息爆炸的社会要求工程咨询行业服务机构拥有获取信息、处理信息的能力和手段。工程咨询项目管理信息化是结合行业业务特点,以信息资源开发利用为核心,利用现代信息技术、网络技术等现代科技,强化信息技术在业务中的渗透,在工程咨询项目各环节中推广应用信息技术,以提高工程咨询机构管理
13、决策能力,提升咨询工作效率,增强机构行业竞争力。工程咨询需要的信息,涉及自然、资源、气候、水文、地质、人口、人文、项目投入产出、市场(商品、劳动力、金融)、财政及政策、货币政策、法规、标准与规范、发展规划等。(二)工程咨询信息管理的必要性我国经济进入新常态,全球化、绿色发展、结构调整、新技术应用等成为发展主基调,这不仅需要规模巨大的投资,而且更加注重发展质量,这就给工程咨询业带来了极大的发展机遇,也对工程咨询信息管理提出了新的需求。未来工程咨询将更多的应用建筑信息模型技术(BIM)、大数据、物联网、地理信息系统(GIS)无人机应用、AR仿真模拟、人工智能辅助查询与分析系统等,也迫切要求工程咨询
14、业能够尽快改变传统咨询手段,必须针对新技术、新产业进行调整,建立完善的数据分析与知识管理方法。传统的信息管理模式工作流程繁琐,耗费人力物力,亟待向智能管理模式迈进。工程咨询信息管理以丰富的信息资源为管理重点,利用“互联网+”、数据库管理系统等先进的信息管理手段,协助工程咨询人员能够从海量的业务数据中提供有用的信息,进而做出科学的判断以及正确的决策,从而实现为工程咨询的决策提供更加全面及时的信息支出,使工作更加便捷,回复也更加及时,大幅减少出现错误的概率,安全性更高。三、 工程咨询知识及其特点(一)工程咨询知识工程咨询需要多方面知识与技能。知识,有哲学、工程学、经济学、社会学、管理学、财务会计、
15、法律等方面的知识;技能,有专业知识、项目管理、公共关系、野外考察、外国语、信息处理等方面的技能。(二)工程咨询知识的特点1数量多,种类庞杂工程咨询行业涉及国民经济众多部门,专业门类多,大小不一,跨地区、跨国界。即便是行业工程咨询,也涉及多种专业。例如对校舍工程的咨询,就涉及国民经济、统计、消防、建筑、结构、给排水、暖通、电气、技术经济、法律等十多个专业。2隐性知识难以提炼隐性知识,特别是经验,在工程咨询中有重要作用。经验需要积累,且常难以提炼和恰当表达。正因为如此,长期积累的经验最容易随着这些经验的载体人离去而散失。3保密要求高咨询企业在咨询过程中获得了客户大量信息,有些很敏感,客户不希望透漏
16、给第三方。在本企业内部共享由此而获得的信息、经验与知识时,或将来为其他客户服务时,应确保不透漏给第三方。四、 工程咨询企业知识管理(一)知识管理及知识管理的组织1知识管理的概念日益激烈的竞争以及其他众多因素对工程咨询企业知识的数量与质量提出了更高的要求。从某种意义上说,知识管理是咨询企业最重要的能力。经常有人将知识管理与信息管理混为一谈。信息是知识的来源,但不一定成为知识。要想从信息中提炼知识,需要有意识地开展必要的活动,使信息经过大脑的处理、加工与提炼。知识管理,是建立一套制度,开展一系列活动,获取、记录、整合、存取、更新和创新知识,以适当的形式为咨询企业所掌握,成为企业知识积累中的一部分,
17、用来为客户、社会创造价值,不至随着企业活动的结束或停止或因当事人的离开而流失。知识管理可以延伸到人在知识方面的行为、企业管理制度与企业文化等方面。简而言之,知识管理就是对知识提炼、创造、共享和积累,以及应用等过程进行规划、实施和控制的活动。2,知识管理的必要性知识管理能够减少重复劳动,增强企业的记忆,丰富咨询企业的智慧。知识管理在全球迅猛发展的原因在于:(1)竞争。市场竞争日益激烈,创新速度加快。咨询企业必须不断获得新知识,利用知识为企业和社会创造价值。要走向世界,就必须掌握与世界交流,以及获取、创造与转换知识的能力。企业文化对企业学习能力影响极大,必须摆脱封闭、保守、不思进取的陈旧文化,转变
18、成学习型企业,才能在竞争中立于不败之地。(2)以客户为中心。企业要为客户创造价值。(3)员工流动。如果企业不能及时妥善地处理,就会丧失员工在本企业工作期间获得的知识。很多咨询企业,当某专业骨干离职后,在相当长一段时间内,无法正常开展该专业的业务,给企业和客户造成了损失。(4)不确定性。咨询企业内外不确定因素众多,市场竞争使咨询企业不能确保客户上门。当前的世界,新技术频出,更新加快,咨询企业不能确信自己为客户提出的技术方案一定成功。企业及其成员获取和使用知识的能力成为企业生存与发展的决定性因素,知识已成为企业获取竞争优势的基础与稀缺资产。3知识管理的组织工程咨询企业必须建立知识管理需要的组织,明
19、确必要的角色及其职责、权限和相互关系,并分派给适当人员。必须制订管理方针、目标以及实现这些目标所需要的规章制度。此外,还要设立必要的知识库、多渠道知识收集系统等。知识管理需要长期坚持并且努力使其成为企业文化的一部分。知识管理体系应当具备如下特征:(1)以人为本。知识管理要以人为本,咨询企业应充分发动每个部门、每一员工,贡献自己掌握的信息与知识,使之成为企业的知识与智慧。(2)以无形资产为主要对象。知识管理比以往任何管理形式都更重视知识资产。(3)无间断的循环。在企业存续期间,知识管理是一个不间断的“积累一创造一应用一再积累一再创造一再应用”的循环过程(4)以提炼隐性知识为主。知识管理对象有显性
20、和隐性知识,但以提炼隐性知识为重点,设法将隐性知识转换为易于企业内共享的知识。研究表明,大多数企业,有序、关系清楚,可供员工参考的信息与知识只占自身拥有总量的10%,其他90%存在员工个人大脑之中,且难于用语言、文字或图形清楚地表达出来供企业使用。一旦这些人流失,企业将蒙受巨大损失。(5)以创新为目标。知识管理以创新,以建立创造新知识平台为目标,创新和孕育新智慧是知识管理的标志。(6)建立学习型组织。便于知识管理的组织与叠床架屋的层级组织不同,只有中间层次简单的“扁平”、开放学习型组织,才有利于知识管理。知识管理必须利用先进的信息技术与工具。有些咨询企业已按自身的发展战略及管理体制建立了独特的
21、知识管理系统。与信息管理一样,知识管理也应具备安全管理功能,保护本企业掌握的知识不受损害。(二)知识管理原则与功能1知识管理原则(1)积累原则。知识积累是实施知识管理的基础(2)共享原则。咨询企业应使每一员工都能接触和使用公司的知识和信息。(3)交流原则。知识管理的核心是要在企业内部建立有利于交流的结构和文化,消除员工之间的交流的障碍。知识交流在上述原则中处于最高层次。2知识管理功能知识管理要获得成功,需要有完整的知识管理制度。该制度应具备的主要功能如下:(1)能够清楚地了解企业已有何种知识,还需要何种知识;(2)要能够及时将知识传递给真正需要的人;(3)一定要使需要知识的人能够获取;不断生产
22、新知识,并使整个企业的人能够使用;(4)确保进入企业的知识可靠、有生命力;(5)定期检查企业的知识是否仍然有效;(6)改造企业文化,建立激励机制,为知识管理创造便利条件。(三)内部交流与共享咨询企业内部的知识交流一方面可以让不同项目组之间交流咨询方法和经验,促进隐性知识的提炼;另一方面也便于彼此加深了解和信任,促进合作,促进知识的创新与共享。知识共享有多种方式,例如即时通信、培训与及时交流会等。知识共享将分散于各部门和各员工头脑中的知识汇集起来,将知识孤岛连成大陆,产生孤岛无法产生的价值。交流可以最大限度地使知识和经验得到融合和升华,也是使旧知识得以发展、新知识得以产生的催化剂。咨询企业应当成
23、为学习型组织,内部的知识交流是员工学习与组织学习的重要方式。咨询单位应当建立适当的激励制度,促进知识共享,在共享中充实。企业的知识管理规章和制度,应当全面鼓励各部门奉献自己的知识,与他人共享。只有这样,才有利于企业的知识积累。四)知识管理成效的评估咨询企业知识管理的好坏与成效,可从以下几个方面评估:1人力资源:培训费用、员工向心力与经验;2创新成果:研发费用、员工创新态度与比率、咨询业务的更新、知识产权;3客户态度:服务质量、合作时间、咨询次数、销售额等。五、 层次分析法概述及优缺点(一)层次分析法概述层次分析法(简称AHP)是美国匹茨堡大学运筹学家T.L.satty教授于20世纪70年代初,
24、在为美国国防部研究“应急计划”时,应用网络系统理论和多目标综合评价方法,提出的一种层次权重决策分析方法。该方法将决策问题的有关元素分解成目标、准则、方案等层次,在此基础上进行定性分析和定量分析的一种决策方法。这一方法的特点,是在对复杂决策问题的本质影响因素及其内在关系等进行深人分析之后,构建一个层次结构模型,然后利用较少的定量信息,把决策的思维过程数学化,从而为求解多准则或无结构特性的复杂决策问题提供一种简便的综合决策分析方法。层次分析法的应用范围十分广泛,应用的领域包括:经济与计划;能源政策与资源分配;政治问题及冲突;人力资源管理;教育发展;医疗卫生;环境工程;军事指挥与武器评价;企业管理与
25、生产经营决策;项目评价;规划咨询;资源环境承载力评价等。层次分析法优缺点1层次分析法的优点(1)系统性的分析方法层次分析法把研究对象作为一个系统,按照分解、比较判断、综合的思维方式进行决策,成为继机理分析、统计分析之后发展起来的系统分析的重要工具。系统的思想在于不割断各个因素对结果的影响,层次分析法中每一层的权重设置最后都会直接或间接影响到结果,而且在每个层次中的每个因素对结果的影响程度都是量化的,非常清晰明确。(2)简洁实用的决策方法这种方法既不单纯追求高深数学,又不片面地注重行为、逻辑、推理,而是把定性方法与定量方法有机地结合起来,将多目标、多准则又难以全部量化处理的决策问题化为多层次单目
26、标问题,通过两两比较确定同一层次元素相对上一层次元素的数量关系后,最后进行简单的数学运算。该方法计算简便,结果明确,且易于决策者了解和掌握。(3)所需定量数据信息较少层次分析法主要是从评价者对评价问题的本质、要素的理解出发,比一般的定量方法更讲究定性的分析和判断。由于层次分析法是一种模拟人们决策过程的思维方式的一种方法,该方法把判断各要素的相对重要性化为简单的权重进行计算。2层次分析法的缺点(1)不能为决策者提供新方案对于大部分决策者来说,如果一种分析方法能替我们分析出在我们已知的方案里的最优者,然后能指出已知方案的不足,或者甚至能提出改进方案的话,这种分析方法才是比较完美的。而层次分析法只能
27、从原有备选方案中选择较优者,而不能为决策者提供解决问题的新方案。(2)指标过多时工作量大,且权重难以确定当我们希望能解决较普遍的问题时,指标的选取数量很可能也就随之增加,而指标的增加就意味着我们要构造层次更深、数量更多、规模更庞大的判断矩阵,那么就需要对许多的指标进行两两比较的工作。由于一般情况下两两比较是用1至9来说明其相对重要性,如果有越来越多的指标,对每两个指标之间的重要程度的判断可能就会出现困难,甚至会对层次单排序和总排序的一致性产生影响,使一致性检验不能通过,如果不能通过,就需要进行调整,在指标数量多的时候其调整的工作量大,且权重难以确定。(3)特征值和特征向量的精确求法比较复杂在求
28、判断矩阵的特征值和特征向量时,所用的方法和我们多元统计所用的方法是一样的。在二阶、三阶的时候,还比较容易处理,但随着指标的增加,阶数也随之增加,其人工计算也变得越来越困难,需要借助计算机来完成。六、 时间数据分析方法(一)时间数据时间数据也称时间序列(Timeseries)或动态数据,是按时序排列的一组来自同一现象的观察值。时间序列可按日、月、季度、年等收集,有些呈现很强的季节性,建模时应给予反映。气象、水文、生态环境、经济及社会活动都能观察到周期性时间序列。实际观测并记录的时间序列,实际上是随机过程的样本,即,在产生时间序列的实际过程的每一时点上,人们看到的只是该时点随机变量的样本,并不能观
29、察到母体。时间序列可分为平稳和非平稳序列,还可以分成线性和非线性时间序列。(二)时间序列分析1概述时间序列分析是根据随机过程理论,研究时间序列的统计规律。时间序列分析广泛应用于信息压缩、利用卫星照片识别地球资源、石油勘探、经营管理、预测(气象、水文、地震、地下水位、农作物病虫灾害)、控制(环境污染、生态平衡)(天文学和海洋学)等方面。时间序列预测的基本依据是:(1)客观过程是连续的,有惯性,现在是过去的继续,过去的信息会传递到现在与未来,利用过去的数据或信息能推测未来。(2)偶然因素会影响到客观过程,使其行为与模式有随机性。预测要利用时间序列各时点随机量的相关关系。时间序列的趋势与波动称为“模
30、式”,时间序列分析首要要识别其模式,然后用适当的曲线拟合。拟合模式的各种参数根据按“最优预测”原则估算出的时间序列数字特征(期望值、方差、协方差、自相关函数)等确定。2.时间序列成分时间序列常含有4种成分:趋势、季节变动、规则波动和不规则波动。所谓趋势,是长期持续向上或持续向下的倾向。季节变动,是实际过程受气候、市场状况、节假日或风俗习惯等影响而呈现的周期性波动。规则波动,是周期不等的变动,呈涨落交替之状。波动的周期可能很长,但与趋势不同。不规则波动,是时间序列除去趋势、季节变动和周期波动之后的波动。不规则波动总是夹杂在时间序列中,致使时间序列产生一种波浪形或震荡式的变动。时间序列经常是各种周
31、期成分的叠加,例如地震或人工地震波的记录。这样的序列要做频域分析。频域分析确定时间序列各周期成分称为“谱”或“功率谱”的能量分布形态。频域分析又称谱分析。谱分析的重要内容就是通过序列的周期图()的极值点寻找各种分量的周期。3时间序列建模时间序列建模一般有如下几个步骤(1)取得时间序列样本。(2)将样本点画成图,进行相关分析。时间序列图形可显示出变化趋势和周期,并发现离群点和转折点。若离群点确实为观测值,建模时应加以考虑,若非,应加以调整。转折点指时间序列趋势突变的点。如果发现转折拐点,则在建模时须分段用不同的模型拟合时间序列,例如用门限回归模型。(3)模式识别与拟合。时间序列模式众多。小样本可
32、用趋势模型、季节模型加上随机误差拟合。对于样本容量(即观测值个数)大于50的平稳时间序列,可用ARMA(自回归移动平均)模型拟合。非平稳时间序列可经差分化为平稳时间序列,再用ARMA模型拟合。(4)预测未来。利用建成的模型预测时间序列未来值。4时间序列常用模型(1)ARMA模型(2)回归模型七、 大数据系统和数据挖掘技术(一)数据挖掘概述1大数据大数据是指超过既往数据库系统规模、传输速度和处理能力,或者既往数据库系统结构无法容纳的数据。大数据常以万亿或EB衡量,且种类多、实时性强,蕴藏的商业价值大。很多现有的新或旧的信息基础设施、工具和技术可用来开发和利用大数据中蕴藏的价值。大数据有各种各样的
33、来源:传感器、气候信息、公开的信息、如杂志、报纸、文章、买卖记录、网络日志、病历、事监控、视频和图像档案,及大型电子商务。大数据是数据挖掘产生与生存发展的土壤。如今数据每五年翻一番,面对前所未有的海量数据,为了从中发现有用的信息必须进行数据挖掘。此外,计算机存储、处理大量数据,以及运算的能力大为增强,为数据挖掘创造了条件,使其成为一门独特的学科和技术。2数据挖掘与数据分析的区别数据挖掘与数据分析的主要区别在于:(1)处理工作量。数据分析的数据量可能并不大,而数据挖掘的数据量极大。(2)制约条件。数据分析是从某些假设出发,建立方程或模型,而数据挖掘不作假设,可以自动建立方程。(3)处理对象。数据
34、分析往往是针对数字型数据,而数据挖掘对象类型繁多,例如图像、声音、文本等。(4)处理结果。数据分析可以解释结果的含义;数据挖掘的结果不易解释,着眼于预测未来,并提出决策建议。想要从数据中发现规律(即认知),往往需将数据分析和数据挖掘结合起来。(二)数据挖掘步骤按挖掘对象,数据挖掘分为数据库与数据仓库挖掘和网络挖掘两种,各自步骤分述如下。1数据库与数据仓库挖掘数据挖掘一般有信息收集、数据集成、数据规约、数据清理、数据变换、数据挖掘、模式评估和知识表示8个步骤。(1)信息收集。从确定的挖掘对象中提取特征,然后选择合适的收集方法,将收集到的信息存入数据库。对于海量数据,必须选择合适的数据仓库。(2)
35、数据集成。把来源、格式、特点、性质不同的数据按逻辑或物理属性加以编排,以便以后使用。(3)数据规约。多数数据挖掘算法耗时很长,商业数据往往较多,数据挖掘更耗时间。数据规约就是简化已有可用数据集的表示,规约后数量大减,但仍能保持原数据的完整性,对规约数据的挖掘结果,与对规约前数据的挖掘结果相同或几乎相同。(4)数据清理。有些数据不完整(属性缺少属性值)、含噪声(属性值错误),不一致(同一信息有多种表示),需要清理,使其完整、正确、一致后存入数据仓库。(5)数据变换。将数据变换成适合数据挖掘的形式。实数型数据,可将其分层和离散化。(6)数据挖掘。根据数据格式、属性与特点,选择合适的处理工具,例如统
36、计方法、事例推理、决策树、规则推理、模糊集,甚至神经网络,取得有用的信息。(7)模式评估。由行业专家核实数据挖掘结果是否合理、是否可用。(8)知识表示。将数据挖掘得到的信息以可视方式交给用户,或作为新的知识存人知识库,供其他应用程序使用。并非所有的数据挖掘都要走上述的每一步。若只有一个数据源,则可以省略数据集成。数据规约、数据清理、数据变换合称数据预处理。数据挖掘至少60%的费用要花在信息收集阶段,而至少60%以上的精力和时间要花在数据预处理上。数据挖掘是一个反复多次的过程,若一次未满足要求或未得到有用结果,则需回到前面,经过调整后重新开始。2,网络挖掘网络挖掘可分为网络用户行为挖掘与网络信息
37、挖掘。前者基本不在工程咨询人员关心之列。后者可理解为“从WWW中发现和分析有用的信息”。网络信息挖掘是在已知数据样本的基础上,通过归纳学习、机器学习、统计分析等发现挖掘对象间的内在关系与特性,进而在网络中提取用户感兴趣的信息,获得更高层次的知识和规律。网络信息挖掘沿用了Robot,全文检索、人工智能的模式识别、神经网络等技术。现在的搜索引擎使用了这些技术,能够在网页或网站数据库中为用户搜寻有用信息。网络信息挖掘具体步骤如下:(1)确立目标样本。由用户选择目标文本,提取特征信息。(2)提取特征信息。根据目标样本的词频分布,从统计词典中提取挖掘目标的特征向量并计算出相应的权值。(3)网络信息获取。
38、先利用搜索引擎站点选择待采集站点,再利用Robot程序采集静态Web页面,最后获取被访问站点网络数据库中的动态信息,生成WWW资源索引库。(4)信息特征匹配。提取索引库中的源信息特征向量,并与目标样本的特征向量对照,将符合要求的信息交给用户。八、 信息鉴别及必要性(一)信息鉴别数据与信息鉴别,可称信息识别,就是将信息与具有特定属性的“模式”进行比较,进而判断信息的类别或属性。具体而言,就是信息收集或使用者运用已有的知识和经验,在对获取的信息进行初步分析之后,按照一定原则和目的,辨认与甄别信息的真伪、轻重主次、是否完整、是否有用,以及用途大小等。(二)信息鉴别的必要性互联网时代,信息极为丰富,大
39、大开阔了人们的眼界。然而,蜂拥而至,难辨真假的信息掺杂在一起,常常使人们陷入另一种迷茫,甚至成了海量信息的奴隶。过量的信息若不筛选,会使决策者无所适从。现在,互联网上充斥着伪造、篡改缺失、无代表性、误传、以及过时等信息。有些信息背后隐藏着各种政治、经济社会的利益团体正当或不正当的目的和企图。信息识别及时与否决定了决策是否正确而又及时,决定了企业、事业、项目和其他活动的命运。对于工程咨询,信息识别同样十分必要。信息识别并非简单工作,对从事者有很高的要求。决策者固然应高瞻远瞩,但决策的基础是真实、可靠的信息。决定信息识别成败的主要因素有:对服务目标的正确认识及其深刻程度;识别者实事求是的态度和已有的知识、推理与判断能力。九、 信息的综合信息综合是信息工作的重要内容。采集来的信息经常是零散、无序,甚至残缺不全,无法直接使用。对于这样的信息,须进行分析、联系、推断、整理和组合,使之成为有用信息,然后确定其特征,如精度、类型、长度、保密度、保留时间、用途等。信息综合有两种方式:一是对已有信息挖掘、延伸,引发创新需求的新信息,达到信息的“增值”,二是通过设计和试验创造新的信息。有价值的信息往往是反复推理分析和猜想后的结果,这个过程要求咨询工程师具备很强的分析、联想、综合与创造能力。
限制150内