分析差分隐私算法合成下累积的隐私丢失的能力使我们能够掌握差分隐私数据库可以提供什么功能。 一些发现是有序的。
弱量化 假设对手始终选择 $x_i^0$ 保留 Bob 的数据,并且选择 $x_i^1$ 相同的数据库(但是不包含Bob的数据)。带有适当的参数选择的 定理3.20,告诉我们:对手(这个对手的能力包括了知道数据库对,甚至能选择数据库对)在确定 $b\in{0,1}$ 的值时几乎没有优势。这是天生的弱量化。我们可以确保对手不太可能将现实与任何给定的替代方案区分开,但是我们不能为所有替代方案同时确保这一点。如果有一个数不胜数的数据库,但 Bob 仅是其中10,000个的成员,那么我们不会同时保护 Bob 在剩余数据库的缺失。 这类似于 $(\varepsilon,\delta)$-差分隐私的定义中的量化,在该定义中,我们预先确定了一对相邻的数据库,并认为很有可能这两个数据库的输出几乎相等。
人类和幽灵 直观地说,一个$(\varepsilon,0)$-差分隐私数据库(库中每条记录只有少量的位),比另一个相同 $\varepsilon$ 值的差分隐私数据库(这个库包含数据量大,甚至包含我们的整个病史)的保护性差。我们的隐私预算 $\varepsilon$ 告诉我们关于数据库的同一件事:它们在存储数据的复杂性和敏感性方面有根本区别,但这有什么意义上呢?答案在于合成定理。想象一个由两种生物组成的世界:鬼魂和人类。两种类型的生物行为相同,以相同的方式与他人互动,写作、学习、工作、笑、爱、哭、繁殖、生病、康复和衰老都以相同的方式。唯一的区别是,幽灵在数据库中没有记录,而人类有。隐私攻击者的目标是确定给定的50岁“目标”是幽灵还是人类。的确,给了对手50年来做这件事情。攻击者不需要保持被动,例如,她可以组织临床试验并招募自己选择的患者,可以创建人员来填充数据库,有效地创建最坏情况(针对隐私)的数据库,她可以在25岁时将目标暴露于化学品中,在35岁时再次暴露于化学品中等等操作。她可以知道有关目标的所有信息,可以将其输入任何数据库。如果目标是人类,她就能知道目标会在哪个数据库中。合成定理告诉我们,每个数据库的隐私保证-无论数据类型,复杂性和敏感性如何-都对人类/幽灵比特提供了可比的保护。