为什么每个广告技术公司都必须了解不同的隐私

大型科技公司也参与其中微分隐私

这是一个谷歌隐私沙盒的基本概念;苹果将其应用于诊断设备、健康和网页浏览数据的研究;就在上周,Facebook使用了不同的隐私为了保护它向研究人员提供的大量数据,这些研究人员分析了共享虚假信息对选举的影响。

优步使用差别隐私来检测用户基础的统计趋势,而不泄露个人信息。亚马逊的人工智能系统利用它来防止数据泄露。Snapchat利用不同的隐私来训练机器学习模型。Salesforce在其报告日志中使用DP过滤器。

虽然差异化隐私最初只是一个学术概念,现在已经被大公司采用,但广告技术公司也需要了解它,有些公司甚至将其视为隐私保护的未来。

DP是什么?

差异隐私最早是由微软研究人员在2006年发明的,作为一种用于数据分析的隐私安全模型。

区别隐私不是一种算法本身,而是一组可以应用于机器学习算法的密码属性,目的是在对个人进行推断之前,限制从数据中提取的信息的数量。

宾夕法尼亚大学工程学院(University of Pennsylvania Engineering)计算机和信息科学教授、《伦理算法》(The Ethical Algorithm)的合著者亚伦·罗斯(Aaron Roth)说,换句话说,它向数据集引入了“貌似合理的推辞”。《伦理算法》是一篇关于社会意识算法设计科学的论文。

在实践中,这意味着数据所有者有意地向数据集添加噪声或随机性,这样就可以同时从数据中了解某个群体的一些信息,而无需识别该群体中的任何个体。

考虑一下民意调查人员收集关于尴尬行为的统计信息,比如吸毒或作弊。为了保护隐私,受访者在回答问题前先抛硬币,但不向调查者透露结果。如果硬币背面朝上,他们会被要求如实回答。如果是正面,他们抛第二枚硬币,正面回答“是”,反面回答“不是”。这就在研究的最终结果中引入了随机性,或似是而非的推诿。Roth解释说,但是因为研究人员知道错误是如何产生的,他或她可以在以后的工作中系统地从数据中去除错误,并仍然从数据中收集有用的东西。

他说:“我没有办法知道这个答案是不是随机的。”“但因为我知道将噪声添加到响应中的过程,所以可以减去噪声并学习其平均值。”

在规模上,机器学习算法可以应用这一原理,从数据集中做出估计并收集信息,而不会损害特定的个人。值得注意的是,研究人员需要更大的数据集来进行研究,以弥补故意的随机性。

如今,差异隐私最常见的用途是将大数据集随机化,以便研究人员使用,例如Facebook的错误信息例子。

分析公司Victory Medium的创始人扎克·爱德华兹(Zach Edwards)说,“从某种意义上说,这是数据所有者保护自己免受合作伙伴伤害的问题。”“差异隐私可以让你在不降低公司价值的情况下让人们访问数据,或者创建另一个迷你的‘剑桥分析’。”

进入广告技术?

但是,广告技术公司为什么要关心像差异隐私这样晦涩难懂的学术概念呢?

因为这就是未来,爱德华兹说,不管广告技术生态系统愿意不愿意承认。在线数据的收集和共享将越来越多地由浏览器api控制,其目的是限制在线数据的收集和共享。

谷歌隐私沙箱中的许多建议都基于不同的隐私框架。

爱德华兹说:“显然已经没有变通的余地了。”“不过,这个现实似乎只有大公司才真正意识到。”

博客宣布Chrome打算在2022年前弃用第三方cookie, Chrome的工程总监贾斯汀·舒赫(Justin Schuh)明确地指出,不同的隐私是未来广告可以发送给“大量相似的人,而不让个人识别数据离开你的浏览器”的一个组成部分。

其中一项名为TURTLEDOVE的提议——即“然后本地执行胜利决定”——要求所有用户行为,包括兴趣数据,都存储在浏览器中,这有效地扼杀了分析。测量和报告也是在总体水平上,所以比广告商习惯的更少粒度。

但Thunder的首席执行官Victor Wong表示,在广告技术领域,差异化隐私的一个卓有成效的应用可能是为数据洁净室提供数据透明度服务。该公司去年成立了一个名为“真实测量”(Truth in Measurement)的行业工作组,测试了不同的DP模型。

他说,对无尘室的主要批评是不透明,由销售广告的媒体公司运营,这造成了固有的利益冲突。

“它们不允许你做独立的归因(或)测量来验证、验证或定制,”他说。“通过不同的隐私保护实现数据导出,可以让研究人员和分析人员在自己的环境中运行自己的模型。”

而且,至少在理论上,没有理由一家广告技术公司不能在自己的数据分析中采用差异化隐私模型。MediaMath负责数据政策和治理的高级副总裁爱丽丝•林肯(Alice Lincoln)举例说,DSP可以利用它来帮助客户获得关于消费者对其广告参与程度的总体洞察,而不会透露任何个人的信息。

据Lincoln所知,目前还没有任何广告技术公司利用不同的隐私,而且业界对DP和相关概念的认识也相当低。

但“考虑到Chrome在隐私沙箱中强调(差异隐私),人们的兴趣正在迅速增长,”她说,而MediaMath本身也对探索差异隐私方法感兴趣。

不过,You & Mr jones旗下数据机构55的美国董事总经理雨果•洛里奥(Hugo Loriot)对广告科技公司近期内将差别隐私应用于自己算法的前景却不那么乐观。

洛里奥特表示:“在广告技术领域,身份识别的目的是与第三方共享匿名的个人数据,例如Facebook或谷歌广告的客户关系管理,这需要双方共享完全相同的匿名数据方法。”

这就是为什么广告科技公司都依赖同样的哈希算法,他说,这并不考虑哈希相关的数据泄露风险。

“如果你应用差异隐私,你肯定不希望另一方能够解密它,你将不得不与每个单独的合作伙伴创建1:1协议,让他们解密数据和你添加的噪音,”Loriot说。“我不确定这是否真的能大规模实现。”

不能保证

出于同样的原因,差别隐私并不是隐私的保证,也不会创造出以前没有的隐私,Roth说。它也不一定能阻止对一群人的隐私侵犯。

例如,健身应用程序Strava在发布一份看似温和的2018年流行跑步路线热图时,无意中泄露了秘密军事基地的位置。没有一个人的隐私受到损害,但仍然相当尴尬。在这种情况下,差别隐私没什么用。

使用差异隐私的算法中的隐私保护级别也取决于部署的严格程度。

罗斯说:“你可以拨号获得完美的隐私,但你几乎不能对这些数据做任何有用的事情,或者你可以走相反的方向,没有真正的保护。”“这是一种权衡,因为保护隐私总是要付出代价的。”

他说,尽管如此,看到大型科技公司终于开始将差别隐私应用到现实生活中还是令人振奋的。

“在最初的10年里,差异隐私是一种学术上的好奇,像我这样的人会写关于它的论文,可能有其他5个像我这样的人会读,”罗斯说。“这不是什么灵丹妙药,但看到企业真的开始考虑这个问题是一件非常好的事情。”

喜欢这个内容吗?

今天就注册成为AdExchange爱游戏体育骗子r会员,就可以无限访问像这样的文章,加上专有数据和研究,会议折扣,按需访问活动内容,等等!

今天加入!

添加一个评论

XHTML:你可以使用这些标签:< a href = " "标题= " " > <简写的标题= " " > <缩写标题= " " > < b > <引用引用= " " > <引用> <代码> < del datetime = " " > < em > <我> <问引用= " " > <年代> <罢工> < >强