【PDF】结构式数據的去识别化指引 - 资源下载

编辑：

ddzhikoi

2016-04-23

1 值得注意,这一说法并不适用於有关个人群体的权利.关於如何在数腥ナ侗鸹狈拦对个人群体造成伤害的讨论,请参阅下文关於去识别化的治理的部分.

2 专门术语指引内使用的一些技术用语,定义如下: 1. 对手:试图针对数诘囊桓龌蚨喔龈鋈私猩矸菰偈侗鸬母鎏寤蚴堤 2. 暴力攻击:尝试用所有潜在组合,将加密值解码的试错攻击 3. 掩蔽:将变量移除、或利用隐匿或加密资料将变量替换的处理 4. 单向哈希函数(杂凑函数):几近不可逆转的加密映射函数,亦即不能通过加密值来重组原始输入数 5. 再识别:重新将可识别资料与个人联系起来的任何处理过程 6. 发放模式:向接收者提供的查阅数柿系姆绞 7. 结构式数(数):以表格形式表示的数,表格中以每列表示变量,以每行表示成员或个人 8. 目标个体:被对手针对作身份再识别的个人 9. 变量:数诒硎疽蛔橄嗤粜缘氖盗

二、指引围去识别化的方法包括从单纯的移除或修改千篇一律的变量列表,到像单元格5规则

2 这种被广泛地宽定义的技术,再到其他以系统性风险为本的方法. 虽然可以利用不同的方式将数ナ侗鸹,但本指引提供的,是以风险导向为主的去识别化.3

2 单元格

5 规则是指,当表格内每个单元格的个人数量大於或等於

5 时才发放有关个人的聚合数的做法.

3 本指引提供的去识别化手段主要参考由 Khaled El Emam 博士提出的建基於风险的去识别方法,由El Emam 博士撰写及共同撰写的以去识别为题的选定书籍和文章的列表,参阅附录 A:参考书目.

3 以风险为本的去识别化,涉及为特定的数⒎,测定一个可接受的再识别风险水平.有关计算需要考虑一系列的因素,包括对手能否知悉目标个体有无包含在数,如果对手明知目标个体在数,属於检察官风险 .举个例子, 如果一名少年的父母得知他们的孩子参加了一项调查,而有关结果将以去识别化方式发布,则父母试图将孩子对调查的回应进行再识别化的这种风险,就称为检察官风险;

如果对手不能或不知悉目标个体是否包含在数,即为记者风险

4 , 例如,如果只有原始数谝讶コ侗鸬(表格形式的)抽样横行被发放,就属於记者风险. 虽然某些去识别化方法同时适用上述两类型风险 C 检察官风险和记者风险 C 本指引仅适用检察官风险 C 亦即,指引假定对手已知道或可知道目标个体是在数.由於检察官风险总是等於或高於记者风险5 ,这种取态导致本指引在计算再识别风险水平时倾向保守.6 去识别化还涉及一系列诸如二次抽样、随机化或置换等技术.虽然有若干可以用於移除数诘母鋈俗柿系募际,但为简单起见,我们在此仅讨论那些较普遍的应用技术,即掩蔽、泛化和抑制.因此,当按照本指引,对含有众多变量或高维度数氖腥ナ侗鸹,相关数男в每赡鼙仁褂闷渌际得出的效用来得较低.

三、去识别化的概述如上所述,去识别化是指从记录中或数谝瞥鋈俗柿系拇. 个人资料在FIPPA 及MFIPPA 中被定义为可识别个人的记录资料 ,安大略省资讯和私隐专员办公室(IPC)及法院均对该定义作了详细阐述,还特别针对可识别一词的涵义在不同的判令和评论中作了具体说明.7 基於此,可以更精确地将

4 见由 Khaled El Emam 博士著之?Guide to the De-identification of Personal Health Information? (Boca Raton, FL: CRC Press, 2013),第182 页.

注：以上内容是本站开源项目的机器提供的预览内容，更完整和更好的阅读体验请直接免费下载资源后阅读

下载（注：源文件不在本站服务器，都将跳转到源网站下载）

备用下载

PDF《结构式数據的去识别化指引》