差异性隐私:企业用例的利弊

在某些用例中,将敏感数据隐藏在杂乱无章的环境中可能比加密具有更大的价值。以下是最可能的差异隐私应用程序及其折衷方案。

抽象数据流/数据流
Gonin / Getty Images

过去,对隐私的追求是绝对的,要么全有要么全无的游戏。最好的保护数据的方法是使用坚不可摧的算法(如AES)将其锁定在采用冗余n因子身份验证的坚如磐石的防火墙后面。 

最近,有些人通过允许数据自由使用来接受相反的方法,但是只有在通过精心策划的随机性对数据进行更改或“模糊化”之后,这些数据才能被释放。这些算法有时被称为“差异隐私”,它依赖于添加足够的混乱,以使窥探不可能或至少不可能从嘈杂的数据中提取个人的个人记录。

该策略的动机是这样的现实:锁定在数学保险箱中的数据不能用于科学研究,不能汇总用于统计分析或无法分析以训练机器学习算法。一个好的差异隐私算法可以为所有这些任务以及更多任务打开可能性。它使共享变得更简单,更安全(至少要等到良好,有效的同态算法出现之后)。

通过混入虚假条目或伪造数据来保护信息已有很长的历史。例如,地图制作者添加了“纸镇”和“陷落街道”,以赶上窃者。正式称为“差异隐私”的地区始于2006年, 一篇论文 由辛西娅·德沃克(Cynthia Dwork),弗兰克·麦克谢里(Frank McSherry),科比·尼西姆(Kobbi Nissim)和亚当·D·史密斯(Adam D.Smith)提出,他们提供了一种更为严格的方法来对不正确的位置进行折叠。

差异隐私颤动中最简单的算法之一可以用来找出有多少人可能在不跟踪每个人的偏好的情况下回答一个问题的“是”或“否”。每个人都没有挥霍事实,而是扔了两枚硬币。如果第一个硬币是正面的,那么这个人会诚实地回答。但是,如果第一个硬币是尾巴,那么该人会看第二个硬币,如果是正面则回答“是”,如果是尾巴则回答“否”。有人称这种方法为“随机化的启示”。

要继续阅读本文,请立即注册