(大数据资料)数据脱敏方案.pdf





《(大数据资料)数据脱敏方案.pdf》由会员分享,可在线阅读,更多相关《(大数据资料)数据脱敏方案.pdf(6页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、(大数据资料)数据脱敏方案政府数据共享交换平台数据脱敏方案1概述1.1数据脱敏定义从原始环境向目标环境进行敏感数据交换的过程中,通过一定方法消除原始环境数据中的敏感信息,并保留目标环境业务所需的数据特征或内容的数据处理过程.1.2数据脱敏原则1.2.1基本原则数据脱敏工作不仅要确保敏感信息被去除,还需要尽可能的平衡脱敏所花费的代价、使用方的业务需求等多个因素.因此,为了确保数据脱敏的过程、代价可控,得到的结果正确且满足业务需要,在实施数据脱敏时,应从技术和管理两方面出发,符合以下基本原则.1.2.2技术原则a)有效性数据脱敏的最基本原则就是要去掉数据中的敏感信息,保证数据安全,这是对数据脱敏工
2、作最基本的要求.有效性要求经过数据脱敏处理后,原始信息中包含的敏感信息已被移除,无法通过处理后的数据得到敏感信息;或者需通过巨大经济代价、时间代价才能得到敏感信息,其成本已远远超过数据本身的价值.此外,在处理敏感信息时,应注意根据原始数据的特点和应用场景,选择合适的脱敏方法.b)真实性由于脱敏后的数据需要在相关业务系统、测试系统等非原始环境中继续使用,因此需保证脱敏后的数据仍能真实体现原始数据的特征,且应尽可能多的保留原始数据中的有意义信息,以减小对使用该数据的系统的影响.需要注意的是,如果某一数据特征本身就是敏感信息,则不应保留.这是从后续使用到数据的系统出发提出的要求.真实性要求脱敏过程需
3、保持用于后续分析的数据真实特征,以助于实现数据相关业务需求.包括但不限于数据结构特征和数据统计特征:数据结构特征是指数据本身的构成遵循一定的规则(例如身份证号由地区编码、生日、顺序号和校验码组成);数据统计特征是指大量的数据记录所隐含的统计趋势(例如开户人地区分布、年龄分布等).为达到真实性要求,在开展数据脱敏工作时,一般情况下应注意:保持原数据的格式;保持原数据的类型;保持原数据之间的依存关系 保持语义完整性;保持引用完整性;第 1 页 共 6 页(大数据资料)数据脱敏方案 保持数据的统计、聚合数据;保持频率分布;保持唯一性.c)高效性应保证数据脱敏的过程可通过程序自动化实现,可重复执行.在
4、不影响有效性的前提下,需注意平衡脱敏的力度与所花费的代价,将数据脱敏的工作控制在一定的时间和经济成本内.本质上,高效性是成本和安全性相互作用的结果,在确保一定安全底线的前提下,尽可能减少数据脱敏工作所花费的额外代价.d)稳定性由于原始数据间存在关联性,为保障数据使用者可正常使用和分析数据,因此数据脱敏时需保证对相同的原始数据,在各输入条件一致的前提下,无论脱敏多少次,结果最终结果数据是相同的.如最终结果是不稳定的,可能导致数据使用者无法将本有联系的数据正确的进行关联,从而造成数据的使用出现问题.例如,某ID有两条记录,但是由于脱敏结果的不稳定,得到了两个不同的脱敏ID1和ID2,则在使用该数据
5、时,就无法得知ID1和ID2其实是同一个ID,从而使得数据分析结果出现错误.e)可配置性同一份原始数据,可能被用于不同的数据分析场景,由于不同场景下的安全要求不同,数据脱敏时的处理方式和处理字段也不尽相同.因此需通过配置的方式,按照输入条件不同生成不同的脱敏结果,从而可以方便的按数据使用场景等因素为不同的最终用户提供不同的脱敏数据.1.2.3管理原则a)敏感信息识别在进行数据脱敏前,首先应完整的梳理待处理数据中包含的所有信息分类(包括单条记录中每一个项目的内容/格式、多条记录联合后包含的统计特征等),然后明确其中哪些信息分类属于敏感信息,并标注出其敏感程度、泄露后可能造成的后果、应急预案等.需
6、要注意的是,有些信息本身可能并不直接是敏感信息,但是可通过与其他一些信息结合后推断出敏感信息,此时也应将此类信息纳入数据脱敏的范围.b)安全可控经过数据脱敏处理后,已知的敏感信息已经被隐藏和处理,但脱敏后的数据由于保持了原始数据的部分统计特征和结构特征等信息,仍可能存在一定的敏感信息泄漏风险.因此,仍然需要采取合适的方式控制知悉范围,通过恰当的安全管理手段,防止数据外泄.c)安全审计在数据脱敏的各个阶段需加入安全审计机制,严格、详细记录数据处理过程中的相关信息,形成完整数据处理记录,用于后续问题排查与数据追踪分析,一旦发生泄密事件可追溯到是在哪个数据处理环节发生的.d)代码安全对于执行数据脱敏
7、的程序和代码模块,应当进行代码审查,并对上线前的程序和模块进行代码安全扫描,确保执行数据脱敏过程的程序安全可靠,无漏洞和后门.第 2 页 共 6 页(大数据资料)数据脱敏方案1.3数据脱敏常用方法3.1.1泛化技术泛化是指在保留原始数据局部特征的前提下使用一般值替代原始数据,泛化后的数据具有不可逆性,具体的技术方法包括但不限于:a)数据截断:直接舍弃业务不需要的信息,仅保留部分关键信息,例如将手机号码13500010001截断为135.b)日期偏移取整:按照一定粒度对时间进行向上或向下偏移取整,可在保证时间数据一定分布特征的情况下隐藏原始时间,例如将时间20150101 01:01:09按照5
8、秒钟粒度向下取整得到20150101 01:01:05.c)规整:将数据按照大小规整到预定义的多个档位,例如将客户资产按照规模分为高、中、低三个级别,将客户资产数据用这三个级别代替.3.1.2抑制技术抑制是指通过隐藏数据中部分信息的方式来对原始数据的值进行转换,又称为隐藏技术,具体的技术方法包括但不限于:a)掩码:用通用字符替换原始数据中的部分信息,例如将手机号码13500010001经过掩码得到135*0001,掩码后的数据长度与原始数据一样.3.1.3扰乱技术扰乱是指通过加入噪声的方式对原始数据进行干扰,以实现对原始数据的扭曲、改变,扰乱后的数据仍保留着原始数据的分布特征,具体的技术方法包
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据资料 数据 方案

限制150内