FLEX的扩展版 更加详细的版本 论文笔记 差分隐私 Towards Practical Differential Privacy for SQL Queries

这篇是上一篇论文笔记中flex工具的详细版

摘要

      差异隐私有望在保护个人隐私的同时实现常规数据分析,但是现有的差异隐私机制不支持基于SQL的现实分析系统中使用的各种功能和数据库。本文提出了第一种实用的SQL查询差异隐私保护方法。我们使用810万个现实查询来进行实证研究,以确定对实际差异隐私的要求,并根据这些要求讨论先前方法的局限性。为了满足这些要求,我们提出了弹性敏感性,这是一种用一般的等联接来逼近查询的局部敏感性的新方法。我们证明弹性敏感度是局部敏感度的上限,因此可以使用任何基于局部敏感度的机制来强制执行差异性隐私。我们构建了FLEX,这是一个实用的端到端系统,可以使用弹性敏感性对SQL查询强制实施差异隐私。我们证明FLEX与任何现有数据库兼容,可以为实际SQL查询强制实施差异性隐私,并产生可忽略的(0.03%)性能开销。

这篇是上一篇论文笔记中flex工具的详细版

摘要

      差异隐私有望在保护个人隐私的同时实现常规数据分析,但是现有的差异隐私机制不支持基于SQL的现实分析系统中使用的各种功能和数据库。本文提出了第一种实用的SQL查询差异隐私保护方法。我们使用810万个现实查询来进行实证研究,以确定对实际差异隐私的要求,并根据这些要求讨论先前方法的局限性。为了满足这些要求,我们提出了弹性敏感性,这是一种用一般的等联接来逼近查询的局部敏感性的新方法。我们证明弹性敏感度是局部敏感度的上限,因此可以使用任何基于局部敏感度的机制来强制执行差异性隐私。我们构建了FLEX,这是一个实用的端到端系统,可以使用弹性敏感性对SQL查询强制实施差异隐私。我们证明FLEX与任何现有数据库兼容,可以为实际SQL查询强制实施差异性隐私,并产生可忽略的(0.03%)性能开销。

     因为这篇文章中的大多数都与简略版的flex文章一致,所以这篇博客主要列出与其不同的地方

     例如apple和google公司使用了差分隐私,但是,针对差异性隐私的实用技术的研究集中在特殊用途的情况下,例如收集有关Web浏览行为的统计信息[27]和键盘和表情符号使用[1],而通用数据分析的差异隐私仍然是一个开放挑战。

       此图摘自【1】https://www.apple.com/newsroom/2016/06/apple-previews-ios-10-biggest-ios-release-ever.html 

2.实际差分隐私权要求

数据集。我们使用由Uber员工编写的SQL查询数据集。该数据集包含2013年3月至2016年8月之间对广泛的敏感数据(包括车手和驾驶员信息,旅行日志和客户支持数据)执行的810万次查询。 Uber的数据分析师会查询此信息,以支持许多商业利益,例如改善服务,检测欺诈和了解业务趋势。这些用例中的大多数都需要灵活的通用分析。

2.1研究结果

  Question 1: How many different database backends are used?

   Results. The queries in our dataset use more than 6 database back-ends, including V ertica, Postgres, MySQL, Hive, and Presto.

  问题2:最经常使用哪个关系运算符?

  

  问题3:典型查询使用多少个联接?

  

  结果:大量查询使用多个联接,而查询使用多达95个联接。

  问题4:最常使用哪种类型的联接?

  

  连接条件绝大多数(76%)的连接是等值连接:连接以两个关系中一列的值相等为条件。一个单独的实验(未显示)显示,所有连接查询中有65.9%仅使用等值连接。

   复合表达式(定义为使用函数应用程序的连接条件以及基元运算符的合取和析取),占连接条件的19%。列比较定义为使用非等号运算符(例如大于)比较两个列的条件,占联接条件的3%。文字比较定义为将单个列与字符串或整数进行比较的连接条件,占连接条件的2%。

  连接关系:大多数联接(64%)以一对多关系为条件,超过四分之一的联接(26%)以一对一关系为条件,而10%的联接以多对多为条件许多关系。

  自身连接: 28%的查询包含至少一个自我联接,该联接定义为在两个联接关系中同一数据库表出现的联接。其余查询(72%)不包含自我联接。

  联接类型:内连接是最常见的连接类型(69%),其次是左连接(29%)和交叉连接(1%)。其余的类型(右联接和完全联接)加在一起不到1%。

问题5:哪些查询使用聚合?

 问题6:最常使用哪些聚合函数?

结果:大多数查询少于100个子句,但大量查询却大得多,有些查询包含多达数千个子句。

问题7:典型查询有多复杂?

问题8:典型查询结果有多大?

 

 结果:关于行和列,查询的输出大小差异很大,并且查询通常返回数百列和数十万行。

 2.2研究结果总结

     研究表明,所有查询中有62.1%使用SQL联接,尤其是迄今为止最常见的等联接。此外,大多数查询使用多个联接,超过四分之一的查询使用自联接,并且联接以一对一,一对多和多对多关系为条件。这些结果表明,实用的差异隐私方法至少必须为等值连接提供强大的支持,包括全范围的连接关系和任意数量的嵌套连接。

所有查询中有三分之一(34%)返回汇总统计信息。

对于统计查询,Count是迄今为止最常见的聚合。这证实了大多数以前的通用差分隐私机制[14、40、42、47]对计数和直方图查询的关注。我们的工作类似地专注于此类查询。

[14] J. Blocki, A. Blum, A. Datta, and O. Sheffet. Differentially private data analysis of social networks via restricted sensitivity. In Proceedings of the 4th Conference on
Innovations in Theoretical Computer Science, ITCS ’13,pages 87–96, New York, NY, USA, 2013. ACM.
[40] F. D. McSherry. Privacy integrated queries: an extensible 
platform for privacy-preserving data analysis. In Proceedings 
of the 2009 ACM SIGMOD International Conference on 
Management of data, pages 19–30. ACM, 2009.
[42]A. Narayan and A. Haeberlen. Djoin: differentially private 
join queries over distributed databases. In Presented as part 
of the 10th USENIX Symposium on Operating Systems 
Design and Implementation (OSDI 12), pages 149–162, 
2012.
[47]D. Proserpio, S. Goldberg, and F. McSherry. Calibrating data 
to sensitivity in private data analysis: A platform for 
differentially-private analysis of weighted datasets. PVLDB, 
7(8):637–648, 2014.
要求与 上一个博客中的flex一样
要求1:与现有数据库的兼容性
要求2:对等值连接的强大支持 

2.3现有的差分隐私机制

    现有的差分隐私机制比较

第三节和第四节的内容都与另一篇论文类似

后面的内容都类似。ending。

原文地址:https://www.cnblogs.com/someonezero/p/14137443.html