信息安全技术个人信息去标识化指南(GB-T 37964-2019).docx
《信息安全技术个人信息去标识化指南(GB-T 37964-2019).docx》由会员分享,可在线阅读,更多相关《信息安全技术个人信息去标识化指南(GB-T 37964-2019).docx(36页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、ICS35.040L 80中华人民共和国国家标准GB/T XXXXXXXXX信息安全技术个人信息去标识化指南Information security technology Guide for De-Identifying Personal Information点击此处添加与国际标准一致性程度的标识(本稿完成日期:2018年5月14日)XXXX - XX - XX发布XXXX - XX - 实施GB/T XXXXXXXXX目次前言II引言III1 范围12 规范性引用文件13 术语和定义14 概述34.1 去标识化目标34.2 去标识化原则34.3 重标识风险44.4 去标识化影响44.5 不
2、同公开共享类型对去标识化的影响45 去标识化过程55.1 概述55.2 确定目标55.3 识别标识65.4 处理标识75.5 验证审批85.6 监控审查86 角色职责与人员管理96.1 角色职责96.2 人员管理9附录A (资料性附录) 常用去标识化技术11附录B (资料性附录) 常用去标识化模型18附录C (资料性附录) 去标识化模型和技术的选择25附录D (资料性附录) 去标识化面临的挑战30参考文献32前言本标准按照GB/T 1.12009标准化工作导则第1部分:标准的结构和编写给出的规则起草。请注意本文件的其他内容可能涉及专利,本文件的发布机构不承担识别这些专利的责任。本标准由全国信息
3、安全标准化技术委员会(SAC/TC260)提出并归口。本标准主要起草单位:清华大学、启明星辰信息技术集团股份有限公司、浙江蚂蚁小微金融服务集团有限公司、阿里巴巴(北京)软件服务有限公司、北京奇安信科技有限公司(360)、北京天融信网络安全技术有限公司、中国科学研究院软件研究所、中国软件评测中心、上海计算机软件技术开发中心、北京数字认证股份有限公司、西安电子科技大学、湖南科创信息技术股份有限公司、中国电子技术标准化研究院、陕西省信息化工程研究院。本标准主要起草人:金涛、谢安明、陈星、白晓媛、郑新华、刘贤刚、陈文捷、刘玉岭、宋鹏举、赵亮、宋玲娓、叶晓俊、王建民、方明、裴庆祺、潘正泰。引言在大数据、
4、云计算、万物互联的时代,基于数据的应用日益广泛,同时也带来了巨大的个人信息安全问题。为了保护个人信息安全,同时促进数据的共享使用,特制定个人信息去标识化指南标准。本标准旨在借鉴国内外个人信息去标识化的最新研究成果,提炼业内当前通行的最佳实践,研究个人信息去标识化的目标、原则、技术、模型、过程和组织措施,提出能科学有效地抵御安全风险、符合信息化发展需要的个人信息去标识化指南。本标准关注的待去标识化的数据集是微数据(以记录集合表示的数据集,逻辑上可通过表格形式表示)。去标识化不仅仅是对数据集中的直接标识符、准标识符进行删除或变换,而且应当结合后期应用场景考虑数据集被重标识的风险,进而选择恰当的去标
5、识化模型和技术措施,并实施合适的效果评估。对于不是微数据的数据集,可以转化为微数据进行处理,也可以参照本标准的目标、原则和方法进行处理。比如针对表格数据,如果关于同一个人的记录有多条,则可将多条记录拼接成一条,从而形成微数据,其中同一个人的记录只有一条。32信息安全技术个人信息去标识化指南1 范围本标准描述了个人信息去标识化的目标和原则,提出了去标识化过程和管理措施。本标准针对微数据提供具体的个人信息去标识化指导,适用于组织开展个人信息去标识化工作,也适用于网络安全相关主管部门、第三方评估机构等组织开展个人信息安全监督管理、评估等工作。2 规范性引用文件下列文件对于本文件的应用是必不可少的。凡
6、是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB 116431999公民身份号码GB/T 250692010信息技术安全技术术语GB/T 317222015信息技术安全技术信息安全风险管理GB/T 352732017信息安全技术个人信息安全规范3 术语和定义GB/T 250692010中界定的以及下列术语和定义适用于本文件。3.1个人信息personal information以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人身份或者反映特定自然人活动情况的各种信息。GB/T 35273-2017,定义3.1
7、3.2个人信息主体personal data subject个人信息所标识的自然人。GB/T 35273-2017,定义3.33.3去标识化de-identification通过对个人信息的技术处理,使其在不借助额外信息的情况下,无法识别个人信息主体的过程。GB/T 35273-2017,定义3.14注:去除标识符与个人信息主体之间关联性。3.4微数据microdata一个结构化数据集,其中每条(行)记录对应一个个人信息主体,记录中的每个字段(列)对应一个属性。3.5聚合数据aggregate data表征一组个人信息主体的数据,比如各种统计值的集合。3.6标识符identifier 微数据中
8、的一个或多个属性,可以实现对个人信息主体的唯一识别。注:标识符分为直接标识符和准标识符。3.7直接标识符direct identifier 微数据中的属性,在特定环境下可以单独识别个人信息主体。例如:姓名、身份证号、护照号、驾照号、地址、电子邮件地址、电话号码、传真号码、银行卡号码、车牌号码、车辆识别号码、社会保险号码、健康卡号码、病历号码、设备标识符、生物识别码、互联网协议(IP)地址号和网络通用资源定位符(URL)等。注:特定环境指个人信息使用的具体场景。比如,在一个具体的学校,通过学号可以直接识别出一个具体的学生。3.8准标识符quasi-identifier微数据中的属性,结合其它属性
9、可唯一识别个人信息主体。比如:性别、出生日期或年龄、事件日期(例如入院、手术、出院、访问)、地点(例如邮政编码、建筑名称、地区)、族裔血统、出生国、语言、原住民身份、可见的少数民族地位、职业、婚姻状况、受教育水平、上学年限、犯罪历史、总收入和宗教信仰等。3.9重标识re-identification把去标识化的数据集重新关联到原始个人信息主体或一组个人信息主体的过程。3.10敏感属性sensitive attribute数据集中需要保护的属性,该属性值的泄露、修改、破坏或丢失会对个人产生损害。注:在潜在的重标识攻击期间需要防止其值与任何一个个人信息主体相关联。3.11有用性usefulness
10、数据对于应用有着具体含义、具有使用意义的特性。去标识化数据应用广泛,每种应用将要求去标识化数据具有某些特性以达到应用目的,因此在去标识化后,需要保证对这些特性的保留。3.12完全公开共享completely public sharing数据一旦发布,很难召回,一般通过互联网直接公开发布。注:同英文术语The Release and Forget Model。3.13受控公开共享controlled public sharing通过数据使用协议对数据的使用进行约束,数据使用协议规定内容应包含但不限于:a) 禁止信息接收方发起对数据集中个体的重标识攻击;b) 禁止信息接收方关联到外部数据集或信息;
11、c) 禁止信息接收方未经许可共享数据集。比如,针对合格的研究者,可基于数据使用协议共享数据。注:同英文术语The Data Use Agreement Model。3.14领地公开共享enclave public sharing在物理或者虚拟的领地范围内共享,数据不能流出到领地范围外。注:同英文术语The Enclave Model。3.15去标识化技术de-identification technique降低数据集中信息和个人信息主体关联程度的技术。注1:降低信息的区分度,使得信息不能对应到特定个人,更低的区分度是不能判定不同的信息是否对应到同一个个人,实践中往往要求一条信息可能对应到的人数
12、超过一定阈值。注2:断开和个人信息主体的关联,即将个人其它信息和标识信息分离。3.16去标识化模型de-identification model应用去标识化技术并能计算重标识风险的方法。4 概述4.1 去标识化目标去标识化目标包括:a) 对直接标识符和准标识符进行删除或变换,避免攻击者根据这些属性直接识别或者结合其它信息识别出原始个人信息主体;b) 控制重标识的风险,根据可获得的数据情况和应用场景选择合适的模型和技术,将重标识的风险控制在可接受范围内,确保重标识风险不会随着新数据发布而增加,确保数据接收方之间的潜在串通不会增加重标识风险;c) 在控制重标识风险的前提下,结合业务目标和数据特性,
13、选择合适的去标识化模型和技术,确保去标识化后的数据集尽量满足其预期目的(有用)。4.2 去标识化原则对数据集进行去标识化,应遵循以下原则:a) 合规:应满足我国法律法规和标准规范对个人信息安全保护的有关规定,并持续跟进有关法律法规和标准规范;b) 个人信息安全保护优先:应根据业务目标和安全保护要求,对个人信息进行恰当的去标识化处理,在保护个人信息安全的前提下确保去标识化后的数据具有应用价值;c) 技术和管理相结合:根据工作目标制定适当的策略,选择适当的模型和技术,综合利用技术和管理两方面措施实现最佳效果。包括设定具体的岗位,明确相应职责;对去标识化过程中形成的辅助信息(比如密钥、映射表等)采取
14、有效的安全防护措施等;d) 充分应用软件工具:针对大规模数据集的去标识化工作,应考虑使用软件工具提高去标识化效率、保证有效性;e) 持续改进:在完成去标识化工作后须进行评估和定期重评估,对照工作目标,评估工作效果(包括重标识风险和有用性)与效率,持续改进方法、技术和工具。并就相关工作进行文档记录。4.3 重标识风险4.3.1 重标识方法常见的用于重标识的方法如下:a) 分离:将属于同一个个人信息主体的所有记录提取出来;b) 关联:将不同数据集中关于相同个人信息主体的信息联系起来;c) 推断:通过其它属性的值以一定概率判断出一个属性的值。4.3.2 重标识攻击常见的重标识攻击包括:a) 重标识一
15、条记录属于一个特定个人信息主体;b) 重标识一条特定记录的个人信息主体;c) 尽可能多的将记录和其对应的个人信息主体关联;d) 判定一个特定的个人信息主体在数据集中是否存在;e) 推断和一组其它属性关联的敏感属性。4.4 去标识化影响对数据集进行去标识化,会改变原始数据集,可能影响数据有用性。业务应用使用去标识化后的数据集时应充分认识到这一点,并考虑数据集变化可能带来的影响。4.5 不同公开共享类型对去标识化的影响在开展去标识化工作之前需要根据应用需求确定数据的公开共享类型,不同公开共享类型可能引发的重标识风险和对去标识化的要求如表1所示。表1 不同公开共享类型对去标识化的影响公开共享类型可能
16、的重标识风险对去标识化的要求完全公开共享高高受控公开共享中中领地公开共享低低5 去标识化过程5.1 概述去标识化过程通常可分为确定目标、识别标识、处理标识以及验证审批等步骤,并在上述各步骤的实施过程中和完成后进行有效的监控和审查。如图1所示。图1 去标识化过程5.2 确定目标5.2.1 概述确定目标步骤包括确定去标识化对象、建立去标识化目标和制定工作计划等内容。5.2.2 确定去标识化对象确定去标识化对象,指确定需要去标识化的数据集范围,宜根据以下要素确定哪些数据属于去标识化对象:a) 法规标准。了解国家、地区或行业的相关政策、法律、法规和标准,待采集或发布数据是否涉及去标识化相关要求。b)
17、组织策略。了解数据是否属于组织列入的重要数据或敏感数据范畴,数据应用时是否存在去标识化的要求。c) 数据来源。了解这些数据采集时是否做过去标识化相关承诺。d) 业务背景。了解数据来源相关信息系统的业务特性,了解业务内容和业务流程,披露数据是否涉及个人信息安全风险。e) 数据用途。了解待发布数据的用途,是否存在个人信息安全风险。f) 关联情况。了解数据披露历史和去标识化历史情况,待披露数据是否和历史数据存在关联关系。5.2.3 建立去标识化目标建立去标识化目标,具体包括确定重标识风险不可接受程度以及数据有用性最低要求。需要考虑的因素包括:a) 数据用途。了解数据去标识化后的用途,涉及到业务系统的
18、功能和特性。b) 数据来源。了解数据获取时的相关承诺,以及涉及哪些个人信息。c) 公开共享类别。若为数据发布实施个人信息去标识化,需了解数据是完全公开共享、受控公开共享还是领地公开共享,以及对数据在浏览和使用方面的安全保护措施。d) 去标识化模型和技术。了解数据适用的保护或去标识化标准,以及可能采用的去标识化模型和技术。e) 风险级别。了解数据属性和业务特性,拟采用的重标识风险评估模型及设定的风险级别。5.2.4 制定工作计划制定个人信息去标识化的实施计划,包括去标识化的目的、目标、数据对象、公开共享方式、实施团队、实施方案、利益相关方、应急措施以及进度安排等,形成去标识化实施计划书。确定相关
19、内容后,去标识化实施计划书应得到组织高级管理层的批准和支持。5.3 识别标识5.3.1 概述识别标识符的方法包括查表识别法、规则判定法和人工分析法。5.3.2 查表识别法查表识别法指预先建立元数据表格,存储标识符信息,在识别标识数据时,将待识别数据的各个属性名称或字段名称,逐个与元数据表中记录进行比对,以此识别出标识数据。建立的标识符元数据表,应包括标识符名称、含义、格式要求、常用数据类型、常用字段名字等内容。查表识别法适用于数据集格式和属性已经明确的去标识化场景,如采用关系型数据库,在表结构中已经明确姓名、身份证号等标识符字段。5.3.3 规则判定法规则判定法是指通过建立软件程序,分析数据集
20、规律,从中自动发现标识数据。组织可分析业务特点,总结可能涉及到直接标识符和准标识符的数据格式和规律,确立相关标识符识别规则,然后通过运行程序,自动化地从数据集中识别出标识数据。如可依据GB 116431999公民身份号码建立身份证号码识别规则,并通过自动化程序在数据集中自动发现存在的身份证号码数据。组织识别标识数据宜先采用查表识别法,并根据数据量大小和复杂情况,结合采用规则判定法。规则判定法在某些情况下有助于发现查表识别法不能识别出的标识符,如标识符处于下面情况时:a) 业务系统存储数据时未采用常用的字段名称,如使用“备注”字段存储身份证号;b) 数据中存在混乱或错误情况,如“备注”字段前10
21、0条记录的值为空,而后10000条记录的值为用户身份证号码。规则判定法不仅仅适用于结构化数据应用场景,也适用于某些半结构化和非结构化数据应用场景,如对于非结构化存储的司法判决书,可以通过建立身份证号识别规则和开发程序,从司法判决书中自动识别出所有的身份证号。5.3.4 人工分析法人工分析法是通过人工发现和确定数据集中的直接标识符和准标识符。组织可在对业务处理、数据集结构、相互依赖关系和对数据集之外可用数据等要素分析的基础上,综合判断数据集重标识风险后,直接指定数据集中需要去标识化的直接标识符和准标识符。人工分析法在结构化、半结构化和非结构化数据应用场景下都可使用。在下列场景时,人工分析法具有明
22、显的优势:a) 数据集中的多个不同数据子集之间存在关联、引用关系时,如通过数据挖掘算法,可关联分析数据集中多个非常见标识符属性后识别出唯一的用户身份;b) 数据集中有特别含义的数据,或者数据具有特殊值、容易引起注意的值,从而可能被用来重标识时,如超出常人的身高、独特的地理坐标、罕见的病因等。相比较于查表识别法和规则判定法,人工分析法能够更加准确地识别出标识符。5.4 处理标识5.4.1 概述处理标识步骤分为预处理、选择模型技术、实施去标识化三个阶段工作。5.4.2 预处理预处理是在对数据集正式实施去标识化前的准备过程。一般地,预处理是对数据集施加某种变化,使其有利于后期进行处理。预处理阶段工作
23、可参考如下方法进行:a) 形成规范化,或满足特定格式要求的数据;b) 对数据抽样,减小数据集的规模;c) 增加或扰乱数据,改变数据集的真实性。组织应根据数据集的实际情况选择预处理措施,或选择不预处理。5.4.3 选择模型技术不同类型的数据需要采用不同的去标识化技术,所以在去标识化的早期阶段,重要的一步是确定数据的类型和业务特性,选择合适的去标识化模型和技术。选择的参考因素包括但不限于如下方面:a) 是否需要对重标识风险进行量化;b) 聚合数据是否够用;c) 数据是否可删除;d) 是否需要保持唯一性;e) 是否需要满足可逆性;f) 是否需要保持原有数据值顺序;g) 是否需要保持原有数据格式,如数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息安全技术个人信息去标识化指南GB-T 37964-2019 信息 安全技术 个人信息 标识 指南 GB 37964 2019
限制150内