专题研讨 | 如何进行匿名化处理,以平衡个人信息保护与数据要素流动的需求?
研讨背景
针对上述难点,CCIA数据安全工作委员会于近日组织各方专家进行了研讨。与会专家从全球范围内对匿名化的定义、案例、演讲路线、技术方案等进行了探讨。现就研讨中形成的主要观点以会议纪要方式公开,供各界参考、指正。
参与此次研讨的专家来自:中国电子技术标准化研究院、北京航空航天大学、中国网络安全审查技术与认证中心、中科院信工所等研究机构以及部分CCIA数据安全工作委员会委员单位。
以下观点仅代表专家个人观点。
研讨问题
研讨问题1:匿名化边界如何界定?有哪些是被认可的匿名化案例,有哪些是还存在一定的争议的案例,有哪些是匿名化失败的案例?
精彩观点如下:
欧盟数据保护委员会(EDPB)对匿名化的界定是:不能和任何人关联的信息才属于匿名化信息,要切断一切可能的合理的关联,并且强调持续跟踪;美国主要使用去标识化的概念,一般不使用匿名化的概念,例如在HIPPA法案中,认为去掉标识符,经专家判断没有再识别的可能,就不属于HIPPA规定的可识别自然人的健康信息,美国也趋向于要对匿名化效果进行持续跟踪。新加坡《基础匿名化指南》认为匿名化是一个基于风险管理的过程,并给出了数据匿名化的五步指引:识别数据、对数据进行去标识化、应用匿名化技术、评估重识别风险、管理数据重识别与泄露风险。
在标准化方面,国际标准组织在多项标准中给出定义。ISO 19731:2017《用于市场,观点和社会研究的数字分析和网络分析-词汇和服务要求》中对匿名化给出的定义是:删除、模糊、聚合或更改标识符的过程,目的是防止识别与数据最初相关的个人。ISO/IEC 29100:2011《信息技术-安全技术-隐私框架》中对匿名化的定义是:PII被不可逆转的改变的过程,并且PII主体不能被直接或间接的标识,无论是被PII控制者单独标识还是联合其他方。并且,ISO/IEC 29100:2011在正文中对匿名化的含义进行了补充,即在匿名化过程中,身份信息要么被擦除,或者别名被破坏,并且与别名相关的分配函数或表也被破坏。目前,ISO其他标准中普遍采用了29100中匿名化的定义。
匿名化有争议或失败的案例有:
案例1:2006年,为了学术研究,美国在线公司(AOL)公开了一些做了去标识和脱敏处理的匿名化的搜索记录。但是《纽约时报》通过这些记录,找到了真实世界中对应的一个人。后来AOL遭到起诉,为此赔偿了大概总额高达500万美金的罚款。
案例2:美国某州的医疗部门发布医疗数据集,把患者的姓名和地址数据删除,保留了邮编、生日、性别,另外一个部门发布了选民登记表,包括邮编、生日、姓名、性别,最后研究人员发现可以通过发布数据中的同类型字段将两个数据集进行关联。
被认可的匿名化案例有:
案例1:美国人口普查局用差分隐私创建合理准确的会计人口普查数据,Chrome浏览器用差分隐私收集用户计算机运行进程名称和用户主页的汇总统计信息,通过差分隐私随机化之后无法确定特定用户的进程或主页,被监管当局认可。
案例2:2015年,爱沙尼亚的一个研究机构研究大学期间工作和不能按时毕业之间的关联,将1000万个可识别的税务记录与60万个可辨认的教育记录相关联后进行分析,并使用安全多方计算(MPC)进行统计分析。数据保护局在研究了该方案的技术和组织控制措施后,给出结论是未处理任何个人数据。
在开放空间里高维关联之下是没有办法做到彻底的匿名化,彻底的匿名化仅是理论上的定义,在现实中“不存在”,这里的不存在是指无法通过科学方法求证得出确定结论。
研讨问题2:目前全球范围、国内各行业、领域等对个人信息匿名化的态度如何?呈现什么样的趋势?精彩观点如下:
2021年7月15日,几位欧盟隐私保护专家针对欧盟立法中对于匿名化的不一致性做出了评判和分析,并为欧盟相关机构的下一步工作提出了意见。报告中指出,完全匿名化数据几乎是不可能的,重新识别的可能性仍然存在,并针对匿名化的下一步解决方案给出如下建议:1)放弃匿名化接受假名化;2)认为重识别的风险足够小就可达到匿名化;3)依靠受信任的第三方;4)采用新兴技术方案。
美国主要采用去标识化和假名化的概念,很少使用匿名化的概念,比如,NIST TR 8053《个人信息去标识化》中就明确说明:由于匿名化概念的不统一,所以本文档里面不用匿名化的概念,用去标识化的概念,去标识化有时可以重标识,有时不能重标识。
我国虽然在《个人信息保护法》中明确了匿名化的概念,但是由于缺乏证明做到绝对的“无法识别”的标准,比较通行的做法是:在大部分仍需针对个体提供服务的场景下,企业会使用去标识化来表述所采取的措施。在统计相关的处理场景下,企业才可能使用匿名化的表述。
对于何种数据处理方式可达到被认可的匿名化,在发布的规章、规范性文件、标准等文件中,提供了以下较为明确的观点:
国家互联网信息办公室等5部门发布的《汽车数据安全管理若干规定(试行)》第八条明确指出,因保证行车安全需要,无法征得个人同意采集到车外个人信息且向车外提供的,应当进行匿名化处理,包括删除含有能够识别自然人的画面,或者对画面中的人脸信息等进行局部轮廓化处理等。事实上,即使做到将个人的人脸彻底抠除,也有可能通过画面中的其他信息,如衣服、环境、时间等因素,与其他数据集进行对照(如附近监控信息)找出某个人的身份,只是难度极大、概率极低。
CCSA广告子组团标《互联网广告 匿名化实施指南》提出了基于“技术环境+合规环境+管理环境”的匿名化实施路径,广告行业作为个人信息密集利用的行业,该指南希望能在合法、合规的前提条件下,制定能平衡安全合规和市场需求的标准,为广告行业匿名化方案提供指导,也为其他领域的匿名化活动提供参考。
信安标委(TC260)在研国标《信息安全技术 个人信息去标识化效果评估指南》中将去标识化后的个人信息,能以多大概率识别个人信息主体的角度由高到低分为4级,其中3级数据是“消除了直接标识符,但包含准标识符,且重标识风险低于设定阈值”,4级数据是“不包含任何标识符(包括直接标识符和准标识符)。从去标识化效果的角度分析是否达到匿名化也是一条可行的路径。
从趋势来看,各国均可能会在相关文件中对匿名化或者等同匿名化的场景作出和更进一步的解释,还有部分国家通过实际的案例来逐步框定匿名化的具体边界,阐明何种处理将达到匿名化的效果,以促进匿名化措施的落地。否则,匿名化概念的提出将没有意义。
研讨问题3:对于“匿名化”还能继续拆分、归类吗?比如“绝对的”、“相对的”?“有条件的”、“无条件的”?有哪些场景下“匿名化”已经得到广泛应用,呈现了什么样的特点? 精彩观点如下:
目前产业界对匿名化实施路径的探索主要是在数据流通领域,(比如在向第三方提供、变更处理目的、预计算等场景中如果仅依赖个人的单独同意,将可能导致数据处理的效率、数据的价值释放产生显著影响),因此产生了诸多的对于匿名化的理解,包括“相对的”“有条件的”“场景化的”“受控的”匿名化。这些讨论均将匿名化框定在一个特定范围下,与理论上的和概念层面的匿名化有所区分。但是,由于缺乏统一的标准,是否能够在特定范围内达到匿名化效果无法验证,不排除可能产生匿名化概念的误用、滥用。
还有一种观点值得商榷,匿名化的概念本身就是有条件限定作为前提,因此无需再专门强调匿名化是“绝对的”还是“相对的”,“有条件的”还是“无条件的”。否则,更容易导致概念上的模糊和混乱,以及扩大对相对和有条件等词汇的理解造成滥用。
之所以担心匿名化可能被滥用,或者说造成匿名化可能被滥用的原因之一,是去标识化后的个人信息处理并没有带来实质性的合规义务减免,那么匿名化自然会被寄予太多期望,都希望通过套用匿名化的概念来绕开个人的告知同意。
统计是匿名化后数据应用的一大领域,而且接受度高、风险可控,统计的价值与被统计数据的特点、统计数据量、统计的颗粒度、统计的应用场景等有关。比如,使用地图App时,用户的精准位置信息经统计后形成区域内交通拥堵情况的数据,为用户出行提供重要参考,其兼具了保护个人隐私与出行便利,是被广泛肯定的,也是有巨大社会价值的。因此,并非统计后的数据价值被严重削弱,而是统计后的数据在服务于特定个人的价值上被削弱。
从交通领域的统计信息解决拥堵问题这个最佳案例来分析,该案例中,由于个人的身份、设备标识等等与个人关联的信息均无价值,因此全部去除,剩下的信息是“客观上存在的地理位置信息、时间信息”,而非个人参与其中创造出来的痕迹(如购物记录、浏览信息、轨迹信息等)。因此,可以认为,把客观存在的信息中的个人标识去掉就可以认为是匿名化信息。这种推断思路或许能够成为一种分析重标识风险的逻辑。
统计信息的使用,其实可以扩展出一些灵活的应用方式,同样可以在匿名化的前提下,挖掘数据的价值。比如,甲企业想更充分地了解A类(筛选条件:30-40岁的司机)人群的喜好,多个不同的数据集的拥有者(如企业乙、机构丙)可以在不清楚具体被筛选人群的情况下,通过筛选条件,即可分析A类人群的喜好,然后将喜好的参考数据反馈至甲企业。此过程中企业乙、机构丙不会提供任何形式的个人信息,而是提供了统计数据,甲企业同样可以进行A类用户的画像完善,虽然不够精准,但是参考价值仍然存在。此处的画像即间接画像,如果用户还能自主调整画像,那么该间接画像对A类用户权益的侵害可能微乎其微。
研讨问题4:个人信息“匿名化”后的风险应该如何评判?与数据利用存在的风险有何关联?如何让“匿名化”后的风险程度与数据利用的风险程度相适应? 精彩观点如下:
以风险管理为视角,有一种“匿名化”的判定方式值得商榷。比如,银行达到了什么样的安全水平,就可以进行交易,或者说,当异常交易的比例小于多少阈值的时候,就可以认为交易是安全的;再比如,一个非常敏感的数据,采取了一种通用的密码算法进行加密,在排除国家级别的威胁源可能利用超级计算机破解,以及个人习惯导致泄露密钥的问题等以外,可以认为数据是安全的。以上两个例子,交易安全保障的是个人财产权益,数据加密保障的是个人或组织的利益,而目前大家已经认可了这种做法。而匿名化到底为了什么?无非还是个人的权益,只要个人权益能得到保障,匿名化的边界的探讨的意义有那么重要吗?
因此,在组织声称,其采取了匿名化措施时,可以不纠结于是不是符合匿名化的概念,而是通过判定其是否采取了充分的措施保障个人权益来认定匿名化措施的有效性(是否达到了匿名化的效果)。对于风险的评判,可以首先明确数据处理的场景,然后从技术要素(技术上复原的可能性、付出的成本等)、管理要素(处理过程的规范性、参与人员的可靠性、是否通过购置网络保险等方式转嫁风险等)、法律要素(合同中的约定、重识别关联行为本身是否被禁止、是否有能力进行救济等),分析对个人权益产生的影响及安全风险,已采取的措施是否和风险相适应。
就上述评估而言,GB/T 39335 《个人信息安全影响评估指南》标准给出的个人权益影响和风险评估的方法可供参考。事实上,该标准在A.4 个人信息匿名化和去标识化效果评估中给出了指导,可供参考。
如果评估认为,存在下列风险,可认为匿名化措施不足。包括但不限于:1)已有实际案例证明技术措施无法达到切断数据集与个人的关联;2)已有同类型方案被证明识别出了或关联上了具体个人;3)新的攻击形式导致原有的技术措施失效,比如针对TEE的侧信道攻击,针对差分隐私技术的差分攻击等;4)原本认为已经匿名化的数据在应用过程中,还是对相应个人权益带来了不利影响;5)匿名化数据作为模型输入数据,对个人权益造成了间接影响。
如果需要对于匿名化之后的风险值进行定量评估,目前通过对重标识风险的量化,能够判断出单一数据集匿名化之后的风险值。但对匿名化的多数据集风险评估,目前缺少普遍共识的方案。
即使做到了匿名化,也需要考虑数据处理的合法性基础,比如,匿名化之后的数据可能会构成重要数据,需要在数据使用、跨境等场景进行严格限制,遵循有关法律法规的要求。
研讨问题5: 实现匿名化的技术措施有哪些?效果如何?密态计算技术(例如安全多方计算、TEE、可信密态计算等)如何使用才能满足匿名化要求?精彩观点如下:
欧盟第29条工作组认为,匿名化解决方案应当可以抵御以下风险。
1)精准定位(singling out)——在数据集中定位个人记录的可能性。
2)可连接性(linkability)——能够至少连接同一数据库或两个不同数据库中同一数据主体或一组数据主体的两条记录。
3)推断(inference)——利用其他属性信息推断出一个具体的属性值的可能性。
是否能够达到抵御上述风险的,是选择技术措施最直接的思路,然而,仅采取差分隐私、K匿名、加盐、随机、泛化等技术,很难抵御上述风险。
如何利用技术措施来达到匿名化的效果,需要考虑多方面要素,应用多种技术,采取多种管理手段。以下思路供参考:
1)创造一个安全受控的环境,与外部进行有效的隔离,防止数据被开放后产生关联。另外,对任何数据的处理“均不信任”,通过一系列远程验证、审计等机制来保障数据处理过程符合预设要求。其中,可以基于可信计算、TEE来构建受控的环境。
2)在数据的计算和流通过程中都用密态的形式去保护数据,计算的都是数据密文,所需要做的就是保护好加密数据的密钥,把不确定的匿名化问题收缩为比较确定的目标和方案,做到“可算不可识”,既满足了不识别到自然人,又实现了数据计算,利用和产生了数据价值。
3)针对数据易流通的特性,利用技术手段,对数据流通血缘链路进行记录,实现对数据的溯源,并且对所有可能产生数据关联的通道进行强管控,例如:研发过程的中间数据,可以通过如动态K匿名等方法防止重识别;在结果输出的时候,防止输出结果由于精度过高,有机会导致数据属性通过数据信息传导导致个人身份的间接泄露。进而达到可管控、可审计、可取证。
4)利用技术手段,把数据使用过程中各个环节的授权进行确认和记录。
研讨问题6:匿名化与当前法律法规的要求、与当前数据应用的实际需求之间能否更好契合,有什么进一步的建议?精彩观点如下:
需要形成共识的是,对个人信息进行匿名化处理的出发点是为了尽责,而非免责。而只要尽责,则安全风险、合规责任自然减轻。如果说彻底的匿名化是不可及的终点,那么追求免责也是徒劳。
进一步通过立法解释、司法判例、国家/行业标准等方式明确匿名化应用的场景、采取的措施、达成的效果,进一步积累匿名化成功的案例,让匿名化能够得到越来越多的认可,是当下业界应当共谋的方向。
从实务视角,匿名化的应用通常需要结合保护和发展两个视角。匿名化是管理+技术+合规三维的综合性方案,需要基于特定的环境、场景、生命周期,通过对数据进行处理,在可实现的算力,合理的时间范围内识别不到自然人,从而达到在特定的环境、场景、生命周期下实现了匿名化效果;并且需要对重识别风险进行持续的跟踪,证明匿名化的有效性,直至数据的使用取得新的合法性基础(例如用户重新进行授权同意)或者在匿名化状态下的直接应用(例如统计数据的使用)。
(文章来源:
)