数据挖掘技术在职业卫生工程分析中的应用研究.pdf
《数据挖掘技术在职业卫生工程分析中的应用研究.pdf》由会员分享,可在线阅读,更多相关《数据挖掘技术在职业卫生工程分析中的应用研究.pdf(5页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、【论著】数据挖掘技术在职业卫生工程分析中的应用研究麦海明1 罗海铭1 常会友2 陈有青2(11 广东省卫生监督所,广东 广州 510300;21 中山大学软件学院)【摘 要】目的 利用数据挖掘技术将历史数据和专家经验合理应用于职业卫生工程分析,弥补传统分析方法的缺陷。方法 用历史数据建立数据仓库,用联机分析处理(OLAP)和基于贝叶斯信念网络与神经网络集成的风险评估模型,分别挖掘泛化特征和风险评估规则。结果 该方法能充分应用历史数据的隐含规则与专家经验来提高工程分析的准确度。结论 数据挖掘技术的应用,为工程分析方法的改进提供了一种新的途径。【关键词】职业卫生;卫生工程;风险评估;数据挖掘 中图
2、分类号 R13;D23 文献标识码 A 文章编号 167124199(2007)0220070205ApplicationofDataMiningTechnologyonOccupationalHealthEngineeringMAI Hai-ming,LUO Hai-ming,CHANGHui-you,et al.Guangdong Health InspectionInstitute,GuangzhouGuangdong510300,China【Abstract】ObjectiveToapplyhistoricaldataandexpertsexperiencetooccupational
3、healthengineeringanalysisbyusingDataMiningtechnologysoastocomplementtheinsufficiencyoftraditionalmethodsandimprovethequalityofengineeringanalys2is.MethodsUsinghistoricaldatatosetupthedatabase,andcombiningOLAPandhazardassessmentmodalbasingonneuralnetworkintegrationtoexcavatethegeneralizationengineeri
4、ngcharacteristicsandharmfulfactorscharacteristicsandhazardassess2mentregulations.ResultsThismethodcouldmakeafulluseoftheconnotativeregulationsofhistoricaldataandexpertsexperi2encetoimprovetheengineeringanalysisaccuracy.ConclusionTheapplicationofDataMiningtechnologyoffersanewwayforengineeringanalysis
5、methodamelioration.【Keywords】Occupationaldisease;Healthengineering;Hazardassessment;DataMining作者简介:麦海明(1962-),男,副主任医师,硕士,研究方向:模糊逻辑与人工智能职业卫生工程分析(OccupationalHealthEngi2neeringAnalysis)是通过对工程项目的工程特征和卫生特征进行全面、系统的分析,了解项目所具有的工艺特点、工艺流程和卫生防护水平1。数据挖掘(DataMining)是一个集统计学、人工智能、模式识别,并行计算、机器学习、数据库等技术于一体的交叉性学科研究领
6、域。数据挖掘技术是指从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程2。本文探讨如何应用数据挖掘技术,将历史数据与专家经验合理应用于职业卫生工程分析,简化工程分析过程,为风险评估法提供依据,提高工程分析质量。1 数据挖掘111 数据的选择 本文利用的数据有有:职业病危害项目申报资料、评价单位开展的类比工程调查资料和企业职业卫生档案数据(目前利用的是7506家企业的数据)。这些数据包含有:行业分类、项目概况、工程技术及生产方法、有毒有害因素、职业病危害结果、关键控制点、物料平衡、卫生防护措施等。知识库包括职业卫生相关法规、标
7、准、职业病危害因素资料、卫生工程控制技术资料、职业病危害事故案例、生产安全事故案例等。112 数据的预处理与数据挖掘系统的建立 按职业卫生工程分析的知识背景需求对原始数据清理、转换,数据的遗漏值由专家组经集体讨论后根据经验使用最可能的值填充,专家无法判断的字符串型数据都用“Unknown”填充,数字型数据都用“-1”填充。例如:电力行业中的危害因素六氟化硫、石化行业的密闭空间作业等是资料中经常出现的遗漏值,这些都应由专家根据经验予以填充。有些资料缺少检测数据,如车间空气中苯浓度,应用“-1”填充。存在大量氯气的场所虽然在本文利用的数据中没有事故发生,但根据国内案例,在资料中补充了氯气中毒的潜在
8、危险。建立的数据挖掘系统体系结构如图1。根据职业卫生工程学的背景知识特点,数据仓库OheasDataWarehouse,由RiskAnalysis事实表和En2terpriseSituation、Hazard等6个维表及其子维表组成。其中EnterpriseSituation包含行业分类、项目概况、工07中国卫生工程学2007年4月第6卷第2期 ChineseJournalofPublicHealthEngineeringApr12007,Vol16No12 1994-2008 China Academic Journal Electronic Publishing House.All rig
9、hts reserved.http:/图1 数据挖掘系统的体系结构程技术及生产方法等信息,Hazard包含有毒有害物质单位时间消耗量、有害因素释放水平及来源、职业病危害因素识别与危害结果、评价因子、关键控制点、物料平衡、卫生防护措施及其技术可行性分析依据等信息。114 工程特征分析和危害因素特征分析 Oheas2DataWarehouse概念分层按行业、工艺特点、危害因素等进行分层和聚集分析。通过上卷、下钻、切片和切块、转轴等联机分析处理(OLAP)操作2,分析某行业的工程特征与职业病危害因素特征等。应用面向属性归纳方法进行工程特征分析和危害因素特征分析,在关系数据库上挖掘工程的泛化特征和危害
10、因素特征。在应用中最常见的是行业特征,如果已经从企业提供或调查的资料了解到更多的信息,还可以挖掘具有更具体属性集合的泛化特征,如行业、工艺单元、作业方式、劳动定员、危害因素等。每个维泛化到越高的层,其特征性越低。因此,掌握的拟分析的工程资料越多,就越能挖掘到可比性的类比资料。工程特征分析和危害因素特征分析导出泛化的表示用表格显示,拟分析工程特征与泛化特征的可比性用属性相关分析方法进行比较2。115 职业病危害风险评估 职业病危害风险评估(RiskAssessmentofOccupationalHazard)是指依据工作场所职业病危害因素的种类、理化性质、浓度(强度)、暴露方式、接触人数、接触时
11、间、接触频率、防护措施、毒理学资料、流行病学等相关资料,按一定准则,对建设项目发生职业病危害的可能性和危害程度进行评估,并按照危害程度考虑有关消除或减轻这些风险所需的防护措施,使其降低到可承受水平。11511 选择评价因子 根据上述定义,参考职业安全卫生风险评价方法MES、LEC和MLS等3,风险程度函数可设为:R=maxRi|i=1,2,n(1)Ri=maxRijj=1,2,m;i=1,2,n(2)R ij=f(Kij,Pij,Lij,Mij,Eij,Sij;i=1,2,n;j=1,2,m(3)式中,R为工程总风险度;Ri为评价单元i的风险度;Rij为评价单元i的危害因素j的风险度,量纲为1
12、;n为评价单元个数;m为职业病危害因素的个数;Kij为第i评价单元第j个职业病危害因素危害系数;Pij为第i评价单元暴露于第j个职业病危害因素的人数系数;Lij为第i评价单元第j个职业病危害因素所导致的事故发生可能性;Mij为第i评价单元第j个职业病危害因素的控制措施;Eij为第i评价单元人员暴露于第j个职业病危害因素的频繁程度;Sij为第i评价单元第j个职业病危害因素所导致的事故后果。参考LEC、MES和MLS,结合毒理学资料和接触人数等对风险程度的影响,将控制措施的状态(M)、暴露频繁程度(E)、事故后果(S)、事故发生可能性(L)、职业病危害因素危害系数(k)、暴露于职业病危害因素的人数
13、系数(p)和危险度(R)分组(见表1)。OheasDataWarehouse数据仓库中每条数据的S、L、R用以下方法确定:事故后果S通过OLAP操作或从事故案例分析可以确定。应用模糊模式识别法确定R3。事故发生可能性L可从流行病学调查资料或事故案例中得到,也可以利用OheasDataWare2house数据仓库中的资料,通过贝叶斯信念网络求解。贝叶斯信念网络求解方法如下:将Oheas2DataWarehouse数据仓库中的每个评价单元的数据集合设为一个随机变量集X=X1,X2,Xn(其中Xj是一个m维向量),建立贝叶斯信念网络2。贝叶斯信念网络由两部分定义:第一部分是有向无环图,其每个结点代表
14、一个随机变量,而每条弧代表一个概率依赖;如果一条弧由结点Xj到Zj,则Xi是Zi的双亲或直接前驱,而Zi是Xj的后继;给定其双亲,每个变量条件独立于图中的非后继,它们可以对应于数据中给定的实际属性,或对应于一个相信形成联系的“隐藏变量”(如“慢性苯中毒”等职业病危害事故)。定义信念网络的第二部分是每个属性一个条件概率表(CPT),变量Zi的CPT说明条件分布PZi|Parents(Zi),其中,Parents(Zi)是Zi的双亲。对应于属性或变量Zi,Zn的任意元组(Zi,Zn)的联合概率由下式计算:P(Z2,Zn)=Kni=1PZi|Parents(Zi)其中,PZi|parents(Zi)
15、的值对应于Zi的CPT中的17中国卫生工程学2007年4月第6卷第2期 ChineseJournalofPublicHealthEngineeringApr12007,Vol16No12 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http:/表目。在给定网络结构后,使用梯度下降方法训练信念网络。应用经过训练的网络可以考察任意组合的非空条件下危害因素i的事故发生概率Li,例如,可表1M、E、S、L、k、p、R分组组号 分项控制措施的状态(M)1 无控制措施2 预防措施不足,有减
16、轻后果的应急措施,包括报警系统3 预防措施足够,作业场所危害因素浓度(强度)不超标暴露频繁程度(E)1 连续暴露2 每天工作时间间断暴露3 每周一次,或偶然暴露4 每月一次暴露5 每年几次暴露6 非常罕见的暴露事故后果(S)1 有多人死亡2 有职业病多人,或有1人死亡3 只有职业病1人4 只有观察对象5 只有职业性多发病6 极不可能有事故发生要能性(L)1 非常可能,为常见、多发的职业病2 可能,但不经常3 可能性小,历史上曾有个案,完全是意外事故4 很不可能,没案例,只有潜在可能,可以设想5 极不可能职业病危害因素危害系数(k)1 严重职业病危害的因素2 其他职业病危害因素暴露于职业病危害因
17、素的人数系数(p)1 暴露人数 100人2 暴露人数5099人3 暴露人数1049人4 暴露人数59人5 暴露人数5人危险度(R)1 职业病危害轻微2 职业病危害一般3 职业病危害严重考察联合条件(如变量集:行业=“制鞋”,作业方式=“开放式”、个人防护措施=“无”,危害因素名称=“苯”,危害事故=“慢性苯中毒”)概率分布,即输出危害事故=“慢性苯中毒”的发生概率等。11512 挖掘风险分析规则 建立一个基于神经网络集成的风险评估模型,将神经网络放在前端,做数据前端处理。基于蚁群算法的选择性神经网络集成ANTSEN5与数据挖掘框架图分别如图2、图3所示:图2ANTSEN描述图图3 利用数据挖掘
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 技术 职业 卫生 工程 分析 中的 应用 研究
限制150内