这篇是上一篇论文笔记中flex工具的详细版
摘要
差异隐私有望在保护个人隐私的同时实现常规数据分析,但是现有的差异隐私机制不支持基于SQL的现实分析系统中使用的各种功能和数据库。本文提出了第一种实用的SQL查询差异隐私保护方法。我们使用810万个现实查询来进行实证研究,以确定对实际差异隐私的要求,并根据这些要求讨论先前方法的局限性。为了满足这些要求,我们提出了弹性敏感性,这是一种用一般的等联接来逼近查询的局部敏感性的新方法。我们证明弹性敏感度是局部敏感度的上限,因此可以使用任何基于局部敏感度的机制来强制执行差异性隐私。我们构建了FLEX,这是一个实用的端到端系统,可以使用弹性敏感性对SQL查询强制实施差异隐私。我们证明FLEX与任何现有数据库兼容,可以为实际SQL查询强制实施差异性隐私,并产生可忽略的(0.03%)性能开销。
这篇是上一篇论文笔记中flex工具的详细版
摘要
差异隐私有望在保护个人隐私的同时实现常规数据分析,但是现有的差异隐私机制不支持基于SQL的现实分析系统中使用的各种功能和数据库。本文提出了第一种实用的SQL查询差异隐私保护方法。我们使用810万个现实查询来进行实证研究,以确定对实际差异隐私的要求,并根据这些要求讨论先前方法的局限性。为了满足这些要求,我们提出了弹性敏感性,这是一种用一般的等联接来逼近查询的局部敏感性的新方法。我们证明弹性敏感度是局部敏感度的上限,因此可以使用任何基于局部敏感度的机制来强制执行差异性隐私。我们构建了FLEX,这是一个实用的端到端系统,可以使用弹性敏感性对SQL查询强制实施差异隐私。我们证明FLEX与任何现有数据库兼容,可以为实际SQL查询强制实施差异性隐私,并产生可忽略的(0.03%)性能开销。
因为这篇文章中的大多数都与简略版的flex文章一致,所以这篇博客主要列出与其不同的地方。
例如apple和google公司使用了差分隐私,但是,针对差异性隐私的实用技术的研究集中在特殊用途的情况下,例如收集有关Web浏览行为的统计信息[27]和键盘和表情符号使用[1],而通用数据分析的差异隐私仍然是一个开放挑战。
此图摘自【1】https://www.apple.com/newsroom/2016/06/apple-previews-ios-10-biggest-ios-release-ever.html
2.实际差分隐私权要求
数据集。我们使用由Uber员工编写的SQL查询数据集。该数据集包含2013年3月至2016年8月之间对广泛的敏感数据(包括车手和驾驶员信息,旅行日志和客户支持数据)执行的810万次查询。 Uber的数据分析师会查询此信息,以支持许多商业利益,例如改善服务,检测欺诈和了解业务趋势。这些用例中的大多数都需要灵活的通用分析。
2.1研究结果
Question 1: How many different database backends are used?
Results. The queries in our dataset use more than 6 database back-ends, including V ertica, Postgres, MySQL, Hive, and Presto.
问题2:最经常使用哪个关系运算符?
问题3:典型查询使用多少个联接?
结果:大量查询使用多个联接,而查询使用多达95个联接。
问题4:最常使用哪种类型的联接?
连接条件:绝大多数(76%)的连接是等值连接:连接以两个关系中一列的值相等为条件。一个单独的实验(未显示)显示,所有连接查询中有65.9%仅使用等值连接。
复合表达式(定义为使用函数应用程序的连接条件以及基元运算符的合取和析取),占连接条件的19%。列比较定义为使用非等号运算符(例如大于)比较两个列的条件,占联接条件的3%。文字比较定义为将单个列与字符串或整数进行比较的连接条件,占连接条件的2%。
连接关系:大多数联接(64%)以一对多关系为条件,超过四分之一的联接(26%)以一对一关系为条件,而10%的联接以多对多为条件许多关系。
自身连接: 28%的查询包含至少一个自我联接,该联接定义为在两个联接关系中同一数据库表出现的联接。其余查询(72%)不包含自我联接。
联接类型:内连接是最常见的连接类型(69%),其次是左连接(29%)和交叉连接(1%)。其余的类型(右联接和完全联接)加在一起不到1%。
问题5:哪些查询使用聚合?
问题6:最常使用哪些聚合函数?
结果:大多数查询少于100个子句,但大量查询却大得多,有些查询包含多达数千个子句。
问题7:典型查询有多复杂?
问题8:典型查询结果有多大?
结果:关于行和列,查询的输出大小差异很大,并且查询通常返回数百列和数十万行。
2.2研究结果总结
研究表明,所有查询中有62.1%使用SQL联接,尤其是迄今为止最常见的等联接。此外,大多数查询使用多个联接,超过四分之一的查询使用自联接,并且联接以一对一,一对多和多对多关系为条件。这些结果表明,实用的差异隐私方法至少必须为等值连接提供强大的支持,包括全范围的连接关系和任意数量的嵌套连接。
所有查询中有三分之一(34%)返回汇总统计信息。
对于统计查询,Count是迄今为止最常见的聚合。这证实了大多数以前的通用差分隐私机制[14、40、42、47]对计数和直方图查询的关注。我们的工作类似地专注于此类查询。
2.3现有的差分隐私机制
现有的差分隐私机制比较
第三节和第四节的内容都与另一篇论文类似
后面的内容都类似。ending。