人工智能下的电子病历数据质量控制(共4720字).doc
《人工智能下的电子病历数据质量控制(共4720字).doc》由会员分享,可在线阅读,更多相关《人工智能下的电子病历数据质量控制(共4720字).doc(9页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、人工智能下的电子病历数据质量控制(共4720字)摘要目的探索科学、有效的电子病历数据质控方法,提高数据质量。方法针对国内对电子病历数据质量控制的定量研究较薄弱的现状,联合利用人工智能技术及统计学方法,对结构化及非结构化诊疗数据分别建立相应的质控方法与技术。结果通过多维数据质量定量评估、医疗文本数据后结构化,结合自然语言处理技术、规范化模型进行数据清理,并结合病历内涵质控系统的应用,可有效提高电子病历数据质量。结论完善的数据质控方法与技术,不仅能使数据问题早评估、早发现,也能为医疗健康大数据的后续分析利用提供支撑。关键词人工智能;统计学方法;医疗数据;质控;数据清洗随着我国医院信息化建设的不断发
2、展和完善,医疗卫生数据进入大数据时代。电子病历作为医疗信息的主要载体,在医疗数据中占据着重要地位。其记录患者从入院到出院的疾病发生、发展和转归的全过程,为医疗管理及临床研究等提供丰富的信息1。2018年,国家卫健委关于进一步推进以电子病历为核心的医疗机构信息化建设工作的通知2,指出要充分发挥电子病历信息化作用,促进医疗管理水平提高和智慧医院发展,对电子病历数据质量提出更高的要求。而实际工作中,电子病历数据却因各种原因存在着错误、无效、不完整、不一致、异构等问题3,相应的质量定量评估及治理措施又相对匮乏,严重影响其在医疗管理和临床科研中的二次利用和有效挖掘。本研究联合人工智能技术(Artific
3、ialIntelligence,AI)和统计学方法(statisticalmethods),针对电子病历中两种主要的数据类型,即结构化数据和非结构化数据,分别探索不同的质控方法和技术,以期为建立符合循证决策或科学研究要求的高质量数据库提供参考。1结构化电子病历数据质控方法结构化数据往往在采集时设置一定的质控条件,如病案首页数据、检查检验数据等,质量相对较好,可以采用评估数据质量、查找定位问题数据来进行数据清洗的思路,从而获得可用数据。11多维数据质量评估方法针对结构化数据,笔者已在前期研究中从数据的完整性、规范性、逻辑性及准确性等方面,构建多维数据质量评价指标体系4。其中,完整性是指关键指标的
4、数据是否填全,评估内容包括个人信息核心字段缺失情况、首次病程记录重要字段采集情况等。如果某项必填指标,如性别,未填写则被认为缺失,数据不完整。规范性是指数据是否按规定的赋值字典填写,如病案首页的赋值字典中规定“入院时情况”为“1危、2急、3一般”,但实际填写中出现除了13以外的阿拉伯数字,或者其他文字、字符,则为填写不规范。逻辑性是指关联数据间的逻辑关系是否正确,包括逻辑缺失与逻辑错误等,如主诉与现病史中对同一症状的时间描述不一致。准确性是指数据是否真实可靠,需溯源核查,但可通过指标的极端值辅助判断,例如人口学指标、生活习惯描述等应在合理取值范围,根据不同指标的实际意义进行判断,如身高过高或过
5、低、妊娠年龄过小、日吸烟支数、日饮酒量过高等均被作为疑似值识别出来,进行后续核查、清洗。12数据清洗根据质量评估结果,定位问题数据后,可针对不同的数据问题制定不同的清洗策略,以控制数据质量。如数据缺失、异常或逻辑矛盾等,可采用自然语言处理(NaturalLanguageProcessing,NLP)技术,对电子病历中的医疗文本数据进行语义分析及提取,从中获取缺失数据可能的填补值,核对变量的逻辑性与准确性,并对关键变量进行标准化处理,如入院时情况、输血标志等信息;对无法填补与校正的数据,予以标记。如果是多次记录的检查检验纵向数据中某次记录值缺失,也可以根据缺失机制和比例,采用统计学方法进行填补5
6、,如多重填补法(MultipleImputation,MI)。13应用案例针对结构化数据的多维数据质量评价方法已用于某三甲医院23万余名出院患者的病案首页结构化数据质量评估,发现该院病案首页数据的完整性与逻辑性较好,完整率与逻辑吻合率均在99%以上;规范性有待提高,符合规范率在86%左右。且通过自动化程序,可准确识别与定位问题数据,为数据清洗奠定基础。通过这一前期应用,反映出多维数据质量评估方法可以快速、高效地发现病案首页数据的质量问题,便于数据质量的定量监测4。2非结构化电子病历数据质控方法电子病历中超过80%的数据都是非结构化数据,给数据的处理、利用带来一定障碍。因此,针对这部分数据,须先
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人工智能 电子 病历 数据 质量 控制 4720
限制150内