信息安全技术个人信息去标识化指南(GB-T 37964-2019).pdf
《信息安全技术个人信息去标识化指南(GB-T 37964-2019).pdf》由会员分享,可在线阅读,更多相关《信息安全技术个人信息去标识化指南(GB-T 37964-2019).pdf(36页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、ICS 35.040L 80中中 华华 人人 民民 共共 和和 国国 国国 家家 标标 准准GB/T XXXXXXXXX信息安全技术个人信息去标识化指南Information security technology Guide for De-Identifying Personal Information点击此处添加与国际标准一致性程度的标识(报批稿)(本稿完成日期:2018 年 5 月 14 日)XXXX-XX-XX 发布XXXX-XX-实施GB/T XXXXXXXXXI目次前言.II引言.III1 范围.12 规范性引用文件.13 术语和定义.14 概述.34.1 去标识化目标.34.2
2、去标识化原则.34.3 重标识风险.44.4 去标识化影响.44.5 不同公开共享类型对去标识化的影响.45 去标识化过程.55.1 概述.55.2 确定目标.55.3 识别标识.65.4 处理标识.75.5 验证审批.85.6 监控审查.86 角色职责与人员管理.96.1 角色职责.96.2 人员管理.9附录A(资料性附录)常用去标识化技术.11附录B(资料性附录)常用去标识化模型.18附录C(资料性附录)去标识化模型和技术的选择.25附录D(资料性附录)去标识化面临的挑战.30参考文献.32GB/T XXXXXXXXXII前言本标准按照GB/T 1.12009标准化工作导则第1部分:标准的
3、结构和编写给出的规则起草。请注意本文件的其他内容可能涉及专利,本文件的发布机构不承担识别这些专利的责任。本标准由全国信息安全标准化技术委员会(SAC/TC260)提出并归口。本标准主要起草单位:清华大学、启明星辰信息技术集团股份有限公司、浙江蚂蚁小微金融服务集团有限公司、阿里巴巴(北京)软件服务有限公司、北京奇安信科技有限公司(360)、北京天融信网络安全技术有限公司、中国科学研究院软件研究所、中国软件评测中心、上海计算机软件技术开发中心、北京数字认证股份有限公司、西安电子科技大学、湖南科创信息技术股份有限公司、中国电子技术标准化研究院、陕西省信息化工程研究院。本标准主要起草人:金涛、谢安明、
4、陈星、白晓媛、郑新华、刘贤刚、陈文捷、刘玉岭、宋鹏举、赵亮、宋玲娓、叶晓俊、王建民、方明、裴庆祺、潘正泰。GB/T XXXXXXXXXIII引言在大数据、云计算、万物互联的时代,基于数据的应用日益广泛,同时也带来了巨大的个人信息安全问题。为了保护个人信息安全,同时促进数据的共享使用,特制定个人信息去标识化指南标准。本标准旨在借鉴国内外个人信息去标识化的最新研究成果,提炼业内当前通行的最佳实践,研究个人信息去标识化的目标、原则、技术、模型、过程和组织措施,提出能科学有效地抵御安全风险、符合信息化发展需要的个人信息去标识化指南。本标准关注的待去标识化的数据集是微数据(以记录集合表示的数据集,逻辑上
5、可通过表格形式表示)。去标识化不仅仅是对数据集中的直接标识符、准标识符进行删除或变换,而且应当结合后期应用场景考虑数据集被重标识的风险,进而选择恰当的去标识化模型和技术措施,并实施合适的效果评估。对于不是微数据的数据集,可以转化为微数据进行处理,也可以参照本标准的目标、原则和方法进行处理。比如针对表格数据,如果关于同一个人的记录有多条,则可将多条记录拼接成一条,从而形成微数据,其中同一个人的记录只有一条。GB/T XXXXXXXXX1信息安全技术个人信息去标识化指南1范围本标准描述了个人信息去标识化的目标和原则,提出了去标识化过程和管理措施。本标准针对微数据提供具体的个人信息去标识化指导,适用
6、于组织开展个人信息去标识化工作,也适用于网络安全相关主管部门、第三方评估机构等组织开展个人信息安全监督管理、评估等工作。2规范性引用文件下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB 116431999公民身份号码GB/T 250692010信息技术安全技术术语GB/T 317222015信息技术安全技术信息安全风险管理GB/T 352732017信息安全技术个人信息安全规范3术语和定义GB/T 250692010中界定的以及下列术语和定义适用于本文件。3.1个人信息persona
7、l information以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人身份或者反映特定自然人活动情况的各种信息。GB/T 35273-2017,定义3.13.2个人信息主体personal data subject个人信息所标识的自然人。GB/T 35273-2017,定义3.33.3去标识化de-identification通过对个人信息的技术处理,使其在不借助额外信息的情况下,无法识别个人信息主体的过程。GB/T 35273-2017,定义3.14注:去除标识符与个人信息主体之间关联性。3.4微数据microdataGB/T XXXXXXXXX2一个结构化数据集,其中每
8、条(行)记录对应一个个人信息主体,记录中的每个字段(列)对应一个属性。3.5聚合数据aggregate data表征一组个人信息主体的数据,比如各种统计值的集合。3.6标识符identifier微数据中的一个或多个属性,可以实现对个人信息主体的唯一识别。注:标识符分为直接标识符和准标识符。3.7直接标识符direct identifier微数据中的属性,在特定环境下可以单独识别个人信息主体。例如:姓名、身份证号、护照号、驾照号、地址、电子邮件地址、电话号码、传真号码、银行卡号码、车牌号码、车辆识别号码、社会保险号码、健康卡号码、病历号码、设备标识符、生物识别码、互联网协议(IP)地址号和网络通
9、用资源定位符(URL)等。注:特定环境指个人信息使用的具体场景。比如,在一个具体的学校,通过学号可以直接识别出一个具体的学生。3.8准标识符quasi-identifier微数据中的属性,结合其它属性可唯一识别个人信息主体。比如:性别、出生日期或年龄、事件日期(例如入院、手术、出院、访问)、地点(例如邮政编码、建筑名称、地区)、族裔血统、出生国、语言、原住民身份、可见的少数民族地位、职业、婚姻状况、受教育水平、上学年限、犯罪历史、总收入和宗教信仰等。3.9重标识re-identification把去标识化的数据集重新关联到原始个人信息主体或一组个人信息主体的过程。3.10敏感属性sensiti
10、ve attribute数据集中需要保护的属性,该属性值的泄露、修改、破坏或丢失会对个人产生损害。注:在潜在的重标识攻击期间需要防止其值与任何一个个人信息主体相关联。3.11有用性usefulness数据对于应用有着具体含义、具有使用意义的特性。去标识化数据应用广泛,每种应用将要求去标识化数据具有某些特性以达到应用目的,因此在去标识化后,需要保证对这些特性的保留。3.12完全公开共享completely public sharingGB/T XXXXXXXXX3数据一旦发布,很难召回,一般通过互联网直接公开发布。注:同英文术语The Release and Forget Model。3.13受
11、控公开共享controlled public sharing通过数据使用协议对数据的使用进行约束,数据使用协议规定内容应包含但不限于:a)禁止信息接收方发起对数据集中个体的重标识攻击;b)禁止信息接收方关联到外部数据集或信息;c)禁止信息接收方未经许可共享数据集。比如,针对合格的研究者,可基于数据使用协议共享数据。注:同英文术语The Data Use Agreement Model。3.14领地公开共享enclave public sharing在物理或者虚拟的领地范围内共享,数据不能流出到领地范围外。注:同英文术语The Enclave Model。3.15去标识化技术de-identif
12、ication technique降低数据集中信息和个人信息主体关联程度的技术。注1:降低信息的区分度,使得信息不能对应到特定个人,更低的区分度是不能判定不同的信息是否对应到同一个个人,实践中往往要求一条信息可能对应到的人数超过一定阈值。注2:断开和个人信息主体的关联,即将个人其它信息和标识信息分离。3.16去标识化模型de-identification model应用去标识化技术并能计算重标识风险的方法。4概述4.1去标识化目标去标识化目标包括:a)对直接标识符和准标识符进行删除或变换,避免攻击者根据这些属性直接识别或者结合其它信息识别出原始个人信息主体;b)控制重标识的风险,根据可获得的数
13、据情况和应用场景选择合适的模型和技术,将重标识的风险控制在可接受范围内,确保重标识风险不会随着新数据发布而增加,确保数据接收方之间的潜在串通不会增加重标识风险;c)在控制重标识风险的前提下,结合业务目标和数据特性,选择合适的去标识化模型和技术,确保去标识化后的数据集尽量满足其预期目的(有用)。4.2去标识化原则对数据集进行去标识化,应遵循以下原则:GB/T XXXXXXXXX4a)合规:应满足我国法律法规和标准规范对个人信息安全保护的有关规定,并持续跟进有关法律法规和标准规范;b)个人信息安全保护优先:应根据业务目标和安全保护要求,对个人信息进行恰当的去标识化处理,在保护个人信息安全的前提下确
14、保去标识化后的数据具有应用价值;c)技术和管理相结合:根据工作目标制定适当的策略,选择适当的模型和技术,综合利用技术和管理两方面措施实现最佳效果。包括设定具体的岗位,明确相应职责;对去标识化过程中形成的辅助信息(比如密钥、映射表等)采取有效的安全防护措施等;d)充分应用软件工具:针对大规模数据集的去标识化工作,应考虑使用软件工具提高去标识化效率、保证有效性;e)持续改进:在完成去标识化工作后须进行评估和定期重评估,对照工作目标,评估工作效果(包括重标识风险和有用性)与效率,持续改进方法、技术和工具。并就相关工作进行文档记录。4.3重标识风险4.3.1重标识方法常见的用于重标识的方法如下:a)分
15、离:将属于同一个个人信息主体的所有记录提取出来;b)关联:将不同数据集中关于相同个人信息主体的信息联系起来;c)推断:通过其它属性的值以一定概率判断出一个属性的值。4.3.2重标识攻击常见的重标识攻击包括:a)重标识一条记录属于一个特定个人信息主体;b)重标识一条特定记录的个人信息主体;c)尽可能多的将记录和其对应的个人信息主体关联;d)判定一个特定的个人信息主体在数据集中是否存在;e)推断和一组其它属性关联的敏感属性。4.4去标识化影响对数据集进行去标识化,会改变原始数据集,可能影响数据有用性。业务应用使用去标识化后的数据集时应充分认识到这一点,并考虑数据集变化可能带来的影响。4.5不同公开
16、共享类型对去标识化的影响在开展去标识化工作之前需要根据应用需求确定数据的公开共享类型,不同公开共享类型可能引发的重标识风险和对去标识化的要求如表 1 所示。表 1不同公开共享类型对去标识化的影响公开共享类型可能的重标识风险对去标识化的要求完全公开共享高高受控公开共享中中领地公开共享低低GB/T XXXXXXXXX55去标识化过程5.1概述去标识化过程通常可分为确定目标、识别标识、处理标识以及验证审批等步骤,并在上述各步骤的实施过程中和完成后进行有效的监控和审查。如图 1 所示。图 1去标识化过程5.2确定目标5.2.1概述确定目标步骤包括确定去标识化对象、建立去标识化目标和制定工作计划等内容。
17、5.2.2确定去标识化对象确定去标识化对象,指确定需要去标识化的数据集范围,宜根据以下要素确定哪些数据属于去标识化对象:a)法规标准。了解国家、地区或行业的相关政策、法律、法规和标准,待采集或发布数据是否涉及去标识化相关要求。b)组织策略。了解数据是否属于组织列入的重要数据或敏感数据范畴,数据应用时是否存在去标识化的要求。c)数据来源。了解这些数据采集时是否做过去标识化相关承诺。d)业务背景。了解数据来源相关信息系统的业务特性,了解业务内容和业务流程,披露数据是否涉及个人信息安全风险。e)数据用途。了解待发布数据的用途,是否存在个人信息安全风险。f)关联情况。了解数据披露历史和去标识化历史情况
18、,待披露数据是否和历史数据存在关联关系。5.2.3建立去标识化目标建立去标识化目标,具体包括确定重标识风险不可接受程度以及数据有用性最低要求。需要考虑的因素包括:a)数据用途。了解数据去标识化后的用途,涉及到业务系统的功能和特性。b)数据来源。了解数据获取时的相关承诺,以及涉及哪些个人信息。c)公开共享类别。若为数据发布实施个人信息去标识化,需了解数据是完全公开共享、受控公开GB/T XXXXXXXXX6共享还是领地公开共享,以及对数据在浏览和使用方面的安全保护措施。d)去标识化模型和技术。了解数据适用的保护或去标识化标准,以及可能采用的去标识化模型和技术。e)风险级别。了解数据属性和业务特性
19、,拟采用的重标识风险评估模型及设定的风险级别。5.2.4制定工作计划制定个人信息去标识化的实施计划,包括去标识化的目的、目标、数据对象、公开共享方式、实施团队、实施方案、利益相关方、应急措施以及进度安排等,形成去标识化实施计划书。确定相关内容后,去标识化实施计划书应得到组织高级管理层的批准和支持。5.3识别标识5.3.1概述识别标识符的方法包括查表识别法、规则判定法和人工分析法。5.3.2查表识别法查表识别法指预先建立元数据表格,存储标识符信息,在识别标识数据时,将待识别数据的各个属性名称或字段名称,逐个与元数据表中记录进行比对,以此识别出标识数据。建立的标识符元数据表,应包括标识符名称、含义
20、、格式要求、常用数据类型、常用字段名字等内容。查表识别法适用于数据集格式和属性已经明确的去标识化场景,如采用关系型数据库,在表结构中已经明确姓名、身份证号等标识符字段。5.3.3规则判定法规则判定法是指通过建立软件程序,分析数据集规律,从中自动发现标识数据。组织可分析业务特点,总结可能涉及到直接标识符和准标识符的数据格式和规律,确立相关标识符识别规则,然后通过运行程序,自动化地从数据集中识别出标识数据。如可依据 GB 116431999公民身份号码 建立身份证号码识别规则,并通过自动化程序在数据集中自动发现存在的身份证号码数据。组织识别标识数据宜先采用查表识别法,并根据数据量大小和复杂情况,结
21、合采用规则判定法。规则判定法在某些情况下有助于发现查表识别法不能识别出的标识符,如标识符处于下面情况时:a)业务系统存储数据时未采用常用的字段名称,如使用“备注”字段存储身份证号;b)数据中存在混乱或错误情况,如“备注”字段前 100 条记录的值为空,而后 10000 条记录的值为用户身份证号码。规则判定法不仅仅适用于结构化数据应用场景,也适用于某些半结构化和非结构化数据应用场景,如对于非结构化存储的司法判决书,可以通过建立身份证号识别规则和开发程序,从司法判决书中自动识别出所有的身份证号。5.3.4人工分析法人工分析法是通过人工发现和确定数据集中的直接标识符和准标识符。组织可在对业务处理、数
22、据集结构、相互依赖关系和对数据集之外可用数据等要素分析的基础上,综合判断数据集重标识风险后,直接指定数据集中需要去标识化的直接标识符和准标识符。人工分析法在结构化、半结构化和非结构化数据应用场景下都可使用。在下列场景时,人工分析法具有明显的优势:GB/T XXXXXXXXX7a)数据集中的多个不同数据子集之间存在关联、引用关系时,如通过数据挖掘算法,可关联分析数据集中多个非常见标识符属性后识别出唯一的用户身份;b)数据集中有特别含义的数据,或者数据具有特殊值、容易引起注意的值,从而可能被用来重标识时,如超出常人的身高、独特的地理坐标、罕见的病因等。相比较于查表识别法和规则判定法,人工分析法能够
23、更加准确地识别出标识符。5.4处理标识5.4.1概述处理标识步骤分为预处理、选择模型技术、实施去标识化三个阶段工作。5.4.2预处理预处理是在对数据集正式实施去标识化前的准备过程。一般地,预处理是对数据集施加某种变化,使其有利于后期进行处理。预处理阶段工作可参考如下方法进行:a)形成规范化,或满足特定格式要求的数据;b)对数据抽样,减小数据集的规模;c)增加或扰乱数据,改变数据集的真实性。组织应根据数据集的实际情况选择预处理措施,或选择不预处理。5.4.3选择模型技术不同类型的数据需要采用不同的去标识化技术,所以在去标识化的早期阶段,重要的一步是确定数据的类型和业务特性,选择合适的去标识化模型
24、和技术。选择的参考因素包括但不限于如下方面:a)是否需要对重标识风险进行量化;b)聚合数据是否够用;c)数据是否可删除;d)是否需要保持唯一性;e)是否需要满足可逆性;f)是否需要保持原有数据值顺序;g)是否需要保持原有数据格式,如数据类型、长度等保持不变;h)是否需要保持统计特征,如平均值、总和值、最大值、最小值等;i)是否需要保持关系型数据库中的实体完整性、参照完整性或用户自定义完整性;j)是否可以更改数据类型,比如在针对字符串类型的“性别”(男/女)进行去标识化时,是否可以变成数字类型表示(1/0);k)是否需要满足至少若干个属性值相同,以加强数据的不可区分性;l)是否可以对属性值实施随
25、机噪声添加,对属性值做微小变化;m)去标识化的成本约束。附录 A 和附录 B 分别给出了常见的去标识化技术和模型,针对这些技术和模型的特点以及选择方法可参考附录 C。5.4.4实施去标识化根据选择的去标识化模型和技术,对数据集实施去标识化。主要工作包括:a)若存在多个需要去标识化的标识符,则根据数据特点和业务特性设定去标识化的顺序;GB/T XXXXXXXXX8b)依次选择相应的工具或程序;c)设置工具或程序的属性和参数,如设置数据源、用户名/口令、算法参数等;d)依次执行去标识化工具或程序,获得结果数据集。5.5验证审批5.5.1验证结果含义对数据集去标识化后进行验证,以确保生成的数据集在重
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息安全技术个人信息去标识化指南GB-T 37964-2019 信息 安全技术 个人信息 标识 指南 GB 37964 2019
限制150内