大型科技公司也参与其中微分隐私。
这是一个谷歌隐私沙盒的基本概念;苹果将其应用于诊断设备、健康和网页浏览数据的研究;就在上周,Facebook使用了不同的隐私为了保护它向研究人员提供的大量数据,这些研究人员分析了共享虚假信息对选举的影响。
优步使用差别隐私来检测用户基础的统计趋势,而不泄露个人信息。亚马逊的人工智能系统利用它来防止数据泄露。Snapchat利用不同的隐私来训练机器学习模型。Salesforce在其报告日志中使用DP过滤器。
虽然差异化隐私最初只是一个学术概念,现在已经被大公司采用,但广告技术公司也需要了解它,有些公司甚至将其视为隐私保护的未来。
DP是什么?
差异隐私最早是由微软研究人员在2006年发明的,作为一种用于数据分析的隐私安全模型。
区别隐私不是一种算法本身,而是一组可以应用于机器学习算法的密码属性,目的是在对个人进行推断之前,限制从数据中提取的信息的数量。
宾夕法尼亚大学工程学院(University of Pennsylvania Engineering)计算机和信息科学教授、《伦理算法》(The Ethical Algorithm)的合著者亚伦·罗斯(Aaron Roth)说,换句话说,它向数据集引入了“貌似合理的推辞”。《伦理算法》是一篇关于社会意识算法设计科学的论文。
在实践中,这意味着数据所有者有意地向数据集添加噪声或随机性,这样就可以同时从数据中了解某个群体的一些信息,而无需识别该群体中的任何个体。
考虑一下民意调查人员收集关于尴尬行为的统计信息,比如吸毒或作弊。为了保护隐私,受访者在回答问题前先抛硬币,但不向调查者透露结果。如果硬币背面朝上,他们会被要求如实回答。如果是正面,他们抛第二枚硬币,正面回答“是”,反面回答“不是”。这就在研究的最终结果中引入了随机性,或似是而非的推诿。Roth解释说,但是因为研究人员知道错误是如何产生的,他或她可以在以后的工作中系统地从数据中去除错误,并仍然从数据中收集有用的东西。
他说:“我没有办法知道这个答案是不是随机的。”“但因为我知道将噪声添加到响应中的过程,所以可以减去噪声并学习其平均值。”
在规模上,机器学习算法可以应用这一原理,从数据集中做出估计并收集信息,而不会损害特定的个人。值得注意的是,研究人员需要更大的数据集来进行研究,以弥补故意的随机性。
如今,差异隐私最常见的用途是将大数据集随机化,以便研究人员使用,例如Facebook的错误信息例子。
分析公司Victory Medium的创始人扎克·爱德华兹(Zach Edwards)说,“从某种意义上说,这是数据所有者保护自己免受合作伙伴伤害的问题。”“差异隐私可以让你在不降低公司价值的情况下让人们访问数据,或者创建另一个迷你的‘剑桥分析’。”
进入广告技术?
但是,广告技术公司为什么要关心像差异隐私这样晦涩难懂的学术概念呢?
因为这就是未来,爱德华兹说,不管广告技术生态系统愿意不愿意承认。在线数据的收集和共享将越来越多地由浏览器api控制,其目的是限制在线数据的收集和共享。
谷歌隐私沙箱中的许多建议都基于不同的隐私框架。
爱德华兹说:“显然已经没有变通的余地了。”“不过,这个现实似乎只有大公司才真正意识到。”
出于同样的原因,差别隐私并不是隐私的保证,也不会创造出以前没有的隐私,Roth说。它也不一定能阻止对一群人的隐私侵犯。
例如,健身应用程序Strava在发布一份看似温和的2018年流行跑步路线热图时,无意中泄露了秘密军事基地的位置。没有一个人的隐私受到损害,但仍然相当尴尬。在这种情况下,差别隐私没什么用。
使用差异隐私的算法中的隐私保护级别也取决于部署的严格程度。
罗斯说:“你可以拨号获得完美的隐私,但你几乎不能对这些数据做任何有用的事情,或者你可以走相反的方向,没有真正的保护。”“这是一种权衡,因为保护隐私总是要付出代价的。”
他说,尽管如此,看到大型科技公司终于开始将差别隐私应用到现实生活中还是令人振奋的。
“在最初的10年里,差异隐私是一种学术上的好奇,像我这样的人会写关于它的论文,可能有其他5个像我这样的人会读,”罗斯说。“这不是什么灵丹妙药,但看到企业真的开始考虑这个问题是一件非常好的事情。”