墙布项目数据采集分析与知识管理(工程管理).docx
《墙布项目数据采集分析与知识管理(工程管理).docx》由会员分享,可在线阅读,更多相关《墙布项目数据采集分析与知识管理(工程管理).docx(26页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、泓域咨询/墙布项目数据采集分析与知识管理墙布项目数据采集分析与知识管理一、 项目背景分析环保一直是家居行业的主要关注点,而此刻对环保的要求已经不仅仅是针对消费者的层面,更重要的是针对企业自我生存的层面,在这个方面,国家环保政策已经完全说明了这一点。同时,家居建材的下游客户将倒逼全行业来全面完善环保方面的要求。装饰行业在消费需求的带动下被完全激活,消费者已经能够接受装饰行业的整装/精装产品和服务,装饰行业的第二春已经到来,这与当九零后为主体的消费崛起,全市场的消费升级都不无关系。而缺乏服务和设计能力的墙布企业将受到很大程度上的排挤,品牌影响力将被进一步削弱。从墙纸销量分布来看,据统计,2018年
2、530万平方米以下销量占比66.6%,530-1060万平方米销量占比18.6%,1060-1590万平方米销量占比8.8%,1590-2650万平方米销量占比4%,2650-3710万平方米销量占比1.3%,3710-5300万平方米销量占比0.7%。随着“轻装修,重装饰”的家装理念被越来越多的人认可,墙纸这种曾经的“奢侈品”正走进寻常百姓家。目前墙纸在中国室内装修的使用率不过5%。本应拥有巨大发展潜力的墙纸行业,由于进入门槛低、商家品牌意识淡薄、服务体系欠缺等原因使其发展受阻。近年来墙纸市场的管理正在逐步规范,墙纸产品也由过去的全进口逐渐向自主生产转化。国产墙纸的质量、花色、品种、档次、功
3、能方面完全可与国外墙纸媲美,有的品牌已达到国际水平。在装饰效果、使用功效上墙纸产品的设计比其他墙面装饰材料更有品位,更具艺术化,更能符合个性特点。这奠定了行业差异化、高端化的基础。二、 数据统计分析数据分析重要的一类是对具有随机性质的数据进行分析,在多数情况下是用于预测。本段仅介绍统计分析。统计分析不仅是计算样本的数字特征(期望值、方差、相关系数、协方差、离散度、概率分布等),还应当建立适当的模型,进而做出预测。统计分析一般有如下工作或阶段。1选择数字特征。统计分析,就是利用若干数字特征全面认识数据的统计规律。选择数字特征是统计分析研究问题的准备阶段,是统计过程的重要环节。数字特征应当:(1)
4、能够客观地反映研究分析对象的性质、特点、内在联系和运动过程;(2)尽可能突出重点,反映分析对象的全貌;(3)应能反映分析对象的变化;(4)便于资料获取。2收集并整理数据。确定了需用的数字特征之后,就要收集并整理所需的数据。样本的容量与质量对统计结果影响极大。3计算数字特征。利用整理后的样本计算必要的数字特征。这项工作可以同下面的建模合在一起,利用适当的软件进行。4建立模型。计算出样本数字特征后,应选择适合样本模式的模型。统计分析可用的模型很多,都有各自的特点及适用条件。选择模型时,应全面考虑研究对象与目的、到手的数据与资料、统计方法等各自的特点,以及咨询人员对方法的熟悉程度等。5检验模型误差。
5、建模之后,可利用样本检验模型的误差,误差大小由样本与所选模型与方法所决定。根据经济学理论和研究对象的具体特点,分析和评价模型误差,以及模型和方法本身;若误差未达到要求,应改进模型与方法。6利用模型预测。预测是咨询结论和建议的基本依据之一,应成为咨询及决策人员的高质量信息。7评价统计与预测结果。对统计与预测结果进行评价的任务是对初步统计结果(如离散程度、影响、走势等)进行概括,并寻找它们之间的联系。评价过程一般有:形成初步概念;对现象定性;提出主要观点;阐述所提观点的理由;提出论据;得出结论。咨询工程师在进行评价时,要在大局高度上全面、长远地看问题,多方面观察,不偏废任何一方;注意数据的衔接,当
6、来源不同的数据矛盾时应弄清情况后再做取舍。三、 大数据系统和数据挖掘技术(一)数据挖掘概述1大数据大数据是指超过既往数据库系统规模、传输速度和处理能力,或者既往数据库系统结构无法容纳的数据。大数据常以万亿或EB衡量,且种类多、实时性强,蕴藏的商业价值大。很多现有的新或旧的信息基础设施、工具和技术可用来开发和利用大数据中蕴藏的价值。大数据有各种各样的来源:传感器、气候信息、公开的信息、如杂志、报纸、文章、买卖记录、网络日志、病历、事监控、视频和图像档案,及大型电子商务。大数据是数据挖掘产生与生存发展的土壤。如今数据每五年翻一番,面对前所未有的海量数据,为了从中发现有用的信息必须进行数据挖掘。此外
7、,计算机存储、处理大量数据,以及运算的能力大为增强,为数据挖掘创造了条件,使其成为一门独特的学科和技术。2数据挖掘与数据分析的区别数据挖掘与数据分析的主要区别在于:(1)处理工作量。数据分析的数据量可能并不大,而数据挖掘的数据量极大。(2)制约条件。数据分析是从某些假设出发,建立方程或模型,而数据挖掘不作假设,可以自动建立方程。(3)处理对象。数据分析往往是针对数字型数据,而数据挖掘对象类型繁多,例如图像、声音、文本等。(4)处理结果。数据分析可以解释结果的含义;数据挖掘的结果不易解释,着眼于预测未来,并提出决策建议。想要从数据中发现规律(即认知),往往需将数据分析和数据挖掘结合起来。(二)数
8、据挖掘步骤按挖掘对象,数据挖掘分为数据库与数据仓库挖掘和网络挖掘两种,各自步骤分述如下。1数据库与数据仓库挖掘数据挖掘一般有信息收集、数据集成、数据规约、数据清理、数据变换、数据挖掘、模式评估和知识表示8个步骤。(1)信息收集。从确定的挖掘对象中提取特征,然后选择合适的收集方法,将收集到的信息存入数据库。对于海量数据,必须选择合适的数据仓库。(2)数据集成。把来源、格式、特点、性质不同的数据按逻辑或物理属性加以编排,以便以后使用。(3)数据规约。多数数据挖掘算法耗时很长,商业数据往往较多,数据挖掘更耗时间。数据规约就是简化已有可用数据集的表示,规约后数量大减,但仍能保持原数据的完整性,对规约数
9、据的挖掘结果,与对规约前数据的挖掘结果相同或几乎相同。(4)数据清理。有些数据不完整(属性缺少属性值)、含噪声(属性值错误),不一致(同一信息有多种表示),需要清理,使其完整、正确、一致后存入数据仓库。(5)数据变换。将数据变换成适合数据挖掘的形式。实数型数据,可将其分层和离散化。(6)数据挖掘。根据数据格式、属性与特点,选择合适的处理工具,例如统计方法、事例推理、决策树、规则推理、模糊集,甚至神经网络,取得有用的信息。(7)模式评估。由行业专家核实数据挖掘结果是否合理、是否可用。(8)知识表示。将数据挖掘得到的信息以可视方式交给用户,或作为新的知识存人知识库,供其他应用程序使用。并非所有的数
10、据挖掘都要走上述的每一步。若只有一个数据源,则可以省略数据集成。数据规约、数据清理、数据变换合称数据预处理。数据挖掘至少60%的费用要花在信息收集阶段,而至少60%以上的精力和时间要花在数据预处理上。数据挖掘是一个反复多次的过程,若一次未满足要求或未得到有用结果,则需回到前面,经过调整后重新开始。2,网络挖掘网络挖掘可分为网络用户行为挖掘与网络信息挖掘。前者基本不在工程咨询人员关心之列。后者可理解为“从WWW中发现和分析有用的信息”。网络信息挖掘是在已知数据样本的基础上,通过归纳学习、机器学习、统计分析等发现挖掘对象间的内在关系与特性,进而在网络中提取用户感兴趣的信息,获得更高层次的知识和规律
11、。网络信息挖掘沿用了Robot,全文检索、人工智能的模式识别、神经网络等技术。现在的搜索引擎使用了这些技术,能够在网页或网站数据库中为用户搜寻有用信息。网络信息挖掘具体步骤如下:(1)确立目标样本。由用户选择目标文本,提取特征信息。(2)提取特征信息。根据目标样本的词频分布,从统计词典中提取挖掘目标的特征向量并计算出相应的权值。(3)网络信息获取。先利用搜索引擎站点选择待采集站点,再利用Robot程序采集静态Web页面,最后获取被访问站点网络数据库中的动态信息,生成WWW资源索引库。(4)信息特征匹配。提取索引库中的源信息特征向量,并与目标样本的特征向量对照,将符合要求的信息交给用户。四、 网
12、络信息搜索和提取方法(一)概过现在,虽然不能说人类所有文献与其他信息都上了互联网,但是网上的信息极为丰富,许多都可用于咨询。但是,许多咨询人员还不善于甚至不知道如何从网上快速、安全、有效地获得自己需要的信息和知识。咨询工程师应当知晓网上有何利信息,应掌握从网上获取信息的方法与基本技巧。对于网上的信息,可利用浏览器和搜索引擎获取。浏览器是供用户阅读网页内容的软件;而搜索引擎,指从互联网上搜集信息的特定电脑程序。早期的搜索引擎是收集互联网中服务器的地址,按这些服务器拥有的资源类型将其编成不同的目录,各个目录再逐层分类。搜索引擎则沿着此类层级向下搜索,找到用户想要的信息。这种方式只适用于互联网信息不
13、多的时代。随着互联网上信息的迅猛增长,出现了新式搜索引擎,性能大为改进,能够找到网站每一页的起始地址,随后搜索网上所有超级链接,把代表超级链接的所有词汇放入一个数据库。搜索引擎的功能不再限于搜索,已经添加了电子商务、新闻信息服务、个人免费电子信箱服务等。(二)搜索引擎工作原理搜索引擎有信息搜集、信息整理和接受用户查询三部分,各自工作原理大致如下:1搜集信息:搜索引擎利用称为网络蜘蛛(spider)的自动搜索机器人程序,从少数几个网页开始,将各个网页的超链接连结在一起,只要网页上有适当的超链接,机器人便可以遍历绝大部分网页。2整理信息:这个过程称为“建立索引”。搜索引擎不仅要保存搜集到的信息,还
14、要按照一定规则编排之。这样,搜索引擎无须重新翻查已保存的所有信息,便能迅速找到所要的资料,从而能够大大加快搜索速度。3接受查询:对于每时每刻都会接到的大量用户几乎同时发出的查询请求,搜索引擎按照各个用户的要求检查自己的索引,能在极短时间内找到用户需要的资料,并交给用户。目前,搜索引擎交给用户的主要是网页链接,用户按照这些链接便能找到含有自己所需资料的网页。搜索引擎一般会在这些链接下加一段有关这些网页的摘要,以便用户判断此网页是否含有自己需要的内容。(三)搜索引擎种类现在,搜索引擎有很多种,可以从不同的角度分类。按搜索方法,分全文索引、目录索引、元搜索、垂直搜索、集合式搜索、门户搜索、个性搜索、
15、专家型搜索与免费链接列表等。按搜索对象,分购物、自然语言、新闻、MP3、图片等搜索引擎。按搜索范围,分桌面、地址栏、本地等搜索引擎。按出现的时间,分第三代、第四代搜索引擎等。现在,用的较多的搜索引擎有Google,百度、Yahoo、MSNSearch,Webcrawler,Lycos,CNetSearch,LookSmart等。(四)搜索方法与技巧要想使搜索引擎能在网上快速找到有关咨询的资料,首先要明确查询目的。目的不同,查询策略与方法不同。在明确目的之后,还应了解查询的种类与技巧,学会恰当地使用关键词。搜索方法的选择取决于搜索的内容。不同搜索引擎的复杂条件查询功能和实现方法各有不同,网站中一
16、般都有“帮助”和“说明”解释各自的功能和方法。现在的搜索引擎都有模糊查询功能。当用户输入关键词时,搜索引擎不但交给用户关键词的网址,还发来与关键词意义相近的内容。比如,查找“建筑报”一词时,模糊查询搜索的结果会有“建筑报”“建设报”“建筑时报”等的网址。网址的排列,一般是完全符合关键词在最前边,其次是相近的。模糊查询的结果往往并非用户所需,为了排除不需要的结果,各种搜索引擎也设置了相应的功能。五、 工程咨询信息采集途径调查方法可分为普查与抽样调查两大类,这两类都有文案调查、实地调查、问卷调查、实验调查等几种。选择调查方法要考虑收集信息的能力、调查研究的成本、时间要求、样本控制和人员效应的控制程
17、度。上述各种方法,各有利弊,各有适用范围。文案调查是上述各种调查方法中最简单、最一般和常用的方法,也是其他调查方法的基础。实地调查能够控制调查过程,应用灵活,信息充分,但耗时长、费用多,调查对象易受心理暗示影响,不够客观。问卷调查适应范围广、简单易行、费用较低,得到了大量应用。实验调查最复杂、费用高、应用范围有限,但调查结果可信度较高。(一)文案调查法文案调查法是指对已经存在的各种资料档案,以查阅和归纳的方式进行的市场调查。文案调查法又称二手资料或文献调查。文案资料来源很多,主要有:国际组织和政府机构资料;行业资料;公开出版物;相关企业和行业网站;有关企业的内部资料。(二)问卷调查法这种方法是
18、调查人员以面谈、电话询问、网上填表或邮寄问卷等方式,了解调查对象的行为方式,从而收集信息。问卷调查法是市场调查常用方法,尤其在消费者行为调查中大量应用,其核心工作是设计问卷,实施问卷调查。(三)实地调查法此法是调查人员通过跟踪、记录调查对象的行为取得第一手资料的方法。这种方法是调查人员直接到市场或某些场所(商品展销会、商品博览会、商场等)亲身感受或借助于某些摄录设备和仪器,跟踪、记录调查对象的活动、行为和事物的特点,获取所需信息资料。(四)实验调查法该法是指调查人员在调查过程中,通过改变某些影响调查对象的因素,观察调查对象行为的变化,从而获得消费行为和某些因素之间的内在因果关系。该法主要用于消
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 项目 数据 采集 分析 知识 管理 工程
限制150内