Personal Control of
Digital Data



图灵奖获得者Butler W. Lampson主题演讲" title="第十六届“二十一世纪的计算”学术研讨会 图灵奖获得者Butler W. Lampson主题演讲">

我想,我们将会在今后几年面临一个非常重大的问题,也就是我要讨论的问题,我们现在有各种各样的方法让人们去收集关于个人的数据。并且把它储存在因特网说进行搜索。同时,从中获得一些其他的信息。

在目前大多数情况下,人们是没有什么规则的,没有什么监管的,哪些可以做,哪些不可以做,现在人们越来越忧虑这一点,所以今天的话题就是去描述一下其中的一些问题,讨论一些技术的方案,可能有用的方案。

它可以使得现在这样一个非常混乱的局面变得更加有秩序一些。首先,为什么有这个新的问题出现。它到底新在哪?主要是有两点,网络的数据,第一个在时空上是广度分布的。一旦进入系统之后就永远存储在那里,很容易被复制,很容易让所有的人都看到,通过搜索引擎看到。

另外一点,所有的这些信息都是可以获得的,很容易通过搜索引擎找到他们,很容易将一些不同分布的信息连接起来,这也就意味着曾经对于我们是隐私的东西现在已经不那么隐私了。所以在过去,我们通过命名就可以保持隐私,但是现在很难了,现在除非你愿意花很多的钱,否则你是做不到隐私了。

第二点我认为在实体世界中的数据和数码数据变得同样的重要了。因为,你的电子邮件,你的网络搜索记录也是一种数据。而你的车去了哪,因为有摄像头看到了你的车牌都会有记录,所以这样数码的信息它知道你在什么时间到了什么地点,什么街区,所以你在想这个问题的时候,非常明显的已经大规模出现这样一种现象,信息数码化的现象,几乎所有的数据都会展示你相关的信息,所以人们会觉得关于我的车在哪里的信息,不应该被别人知道。

今天我们看到网络的数据,这种平衡主要是在机构这块,它的权力比较大,第二就是要服务于公众的权益,公共的福利,比如说在创新和交通管制和执法方面要有用。还有一点,我想到在很多情况当中,在使用合法或非合法使用数据的时候,实际上有一些法律的覆盖,比如说知识产权法律。比如说其他的一些相关的公众的信息法律等等。

如果我们认为人们确实希望控制个人的数据,这里有一个非常理想的方式,但是可能不是实际的方式,你把所有的数据都放在你可以控制的一个空间里面。如果我要想去找你的数据,我得去找你,然后提出一个查询的请求,说我要了解你上周一做了什么。如果你愿意给信息的话,就给我这个信息,如果不愿意就可以让我走开。你可以完全控制你的数据,你可以决定哪些是你愿意回答的,哪些是不愿意回答的。但是这个不是很实用,有很多原因,很昂贵,很多都不清楚。我们不可能进行大量数据的研究,而且为公共的福祉服务。举个简单的例子,如果你想要使用关于你车的数据,把它用在交通管制方面,如果是说刚才我提的这种方法就不行了。

很多时候,你会点OK,或者是对勾说我同意,但是这个并不有利于你私人数据的保护,因为你的选择就是是还是不是,如果只是“是”才会进入下一步服务的话,你往往会选择“是”,但是实际上你并且得到什么服务,第二,你没有办法反悔,改变你的想法。比如说你觉得我这个数据不想给他用了,你做不到了,你的数据已经被收集走了。比如你16岁的一张照片看起来很滑稽,可能你不希望到25岁或者30岁的时候还在网上流行。同时你不希望能够对所有的数据处理商,和数据处理设备都是一致的。不管是浏览器和E-mail系统,他们都应该是一个连贯和一致性的信息,但是这点很复杂。

人们在处理数据的时候必须要根据这个规则来做。这些很多的政策其实都非常简单,或者是写的太粗,或者是过为复杂,人们根本就不理解,还有很多默认的条款。如果你不仔细阅读这个条款的话,那么你选的结果基本上就是他们想要的。并且,其实不应当是有这种集中的数据库来收集信息的。因为,如果有的话,就有可能产生这种侵犯人们隐私非常强大的机制。

现在,基本上有两种模式,第一个就是你自己去选择你服务的供应商,比如说选择你邮件的供应商。
除此之外,还有这种数据处理者,,任何存储或者处理你的数据的那些人实际上都被称之为数据处理者。这些人他必须在处理或者应用你数据的时候,要遵循相应的条款。   
我想包括在座的各位,可能很多人在不同的邮件和社交网络上都有账号。所以,在不同的地方你也在互联网上所展现出的是不一样的。个人控制是什么意思?就是你应当有权利控制自己的数据,能找到它,限制自己数据的使用,任何时候都可以对你数据进行使用。

当然了,如果你希望也可以进行匿名操作。并且我刚才提到那些供应商,包括个人供应商也应当由你个人来选择。除去这些之外,还有刚才提到的数据操纵者,他们应该受到监管。

简单的来谈几个具体的情境,在实际里可能遇到的情况。比如说你到了另外一个地方,换了地址了,你想知道谁有你的联系信息,你就可能删除一些信息,更新一些信息,你希望让有些人继续了解你新的地址,比如说某些商店等等我就不想让这些商店再知道我家的地址了,我就把它删掉。另外一种情景,在你上网的时候,你可能发现在线的广告特别多,你不想看这么多广告,或者如果有的话,看一些比较有意思的广告,所以你就可以,比如将功能禁用,保持某些其他的功能。还有其他的情景,包括交通摄像头会记录你汽车牌照的信息,然后通过这种牌照信息就能够识别出你到底是谁,但是这些信息你是有权知道的。但是这种信息只有某些权威的机构才可以使用的。它到底是怎么运作的?这个数据处理者,首先对于你的数据进行贴标签,然后给一个链接,发送给你的信用条款。然后原数据实际上在最开始这个数据创造出来的时候,可能就已经和其他的数据整合到一起了,并且原数据也会和一些拷贝的数据,和计算出来的结果整合在一起。除了有一些隐私条款规定,可能有些数据不能转换到一起。

比如说你收集了某一辆车的信息,比如说你将9点的时候,某一个摄像头记录下的几百辆车通过这里的数据整合到一起的话,这样就不行,个人有权利禁止这样的信息整合。如果说对信息进行重新识别的话,那么就需要对它进行其他标签的添加。比如说有一些摄像头记录了某一个车的车牌号,这些车牌号在数据库可以找到,然后你就能够发现这是你的车,对于这些数据如何使用你有发言权。所以我觉得数据处理器有两个功能,第一个是为你加一个标签,第二在使用你信息的时候,它会查询你的信息使用条款,来看看是否能够使用,大家可以把它想成一个分布式的执行。

那么原数据都会以什么样的形式存在?两部分,一个是NID,一个是数据的ID,你把它当作一个公共钥匙,这是一些可以公共政策允许你可以通过这个ID验证的一个ID。这个NID你想要多少个就要多少个,第二个是连接到你的策略条款的服务。然后通过这个链接了解到目前隐私的条款是什么,因为这个处理器在使用数据的时候就会进行查询,了解相应的策略。然后这个策略还可以做另外一个事情,这个策略服务本身可以记录有哪些处理器对它进行了查询,这样人们就可以找到相应的信息。

图灵奖获得者Butler W. Lampson主题演讲" title="第十六届“二十一世纪的计算”学术研讨会 图灵奖获得者Butler W. Lampson主题演讲">

此外,这个策略本身每一个人对它有发言权,它可以设定自己的信息使用策略。首先你有一个代理,他控制你的ID,比如说就用这种数字的ID。就是加密的加密码。他首先会查询你的信息策略是什么,对于这一类的数据处理者他是可以使用的。然后在左边的这一部分,都是你个人可以控制的东西。右边的这部分是数据处理器的部分。应当是根据相应的规则来执行的部分,提供数据给数据处理器,数据就发出去了,NID的原数据和连接就已经发出去了。处理器会将这个数据进行存储,包括NID还有原数据,处理器想要利用这个数据的话,他就需要去查询这个数据的策略是什么。他查询的时候就要告诉我这个处理器到底是什么,我要用什么样的数据。

策略服务商就会查询,然后将这个信息返回给处理器,告诉你某一个信息你是可以用的,某一些数据你是不可以用的。最后如果我要想问处理器那边,你到底用了我们什么的数据,我可以问我的策略服务供应商,到底我什么数据被人查询了。他可以直接发给数据处理商那边,数据处理商将这个数据发还过来,告诉我哪些数据被查询了。

很多时候在创造你个人在网上的人格的时候,你首先可能会有一个ID。可能你在不同的网站上创造不同的ID的时候,对于数据处理器来说,他可能就会认为你是不同的人。所以,如果说你要想真的在互联网保持匿名的话,你就需要创造很多的ID才可以。并且我还提到,你要了解到底谁用你的数据,否则的话,你就无法对于你的信息策略做出正确的决定。这个实际上是有一点点难做的。因为,我们之前也看到,数据处理器实际上会将数据一级一级往下传,传给其他的数据处理器。首先你选择的策略服务,除去对于你每个ID信息进行存储之外,还要不断的追踪这些数据处理器。所以你不仅仅要设定自己网上的人格,或者是这种头像之类的。你还要很好的控制你的策略和了解你的数据处理器。

然后如果你能够清楚的了解到哪些数据处理器用了你的数据,你可以在需要的时候将这个数据收回。所以,这个数据处理器都是什么,并且它的一些代理器都是什么,你得等到非常了解你的信息使用策略之后才能很好的知道都有哪些数据处理器使用了你的信息。首先我谈的是一个基本的原则,要有原数据,对数据进行加标签。

然后,在我看来,觉得我想保持匿名一个唯一的方式就是选择我想要的数据服务商。尽量在收集信息的时候,他以集中的方式来进行。

再谈一下政策本身,这是一个基本的特点。就是我们在思考政策的时候,政策应该是以数据为中心的,不是以设备,或者某一种服务为中心的,原数据会和数据在一起,不管他是使用什么样的设备和服务,同时他应该是遵循具体数据的政策的。

基本的政策像我刚才所描述的那样,一个具体的信息的处理者,他可以使用,或者不可以使用某一种类型的数据,这就是基本的政策,还有一些相关的政策,他可以说是并列的,选择性的,或者是非排他性的这样一种政策。另外,还有在这样一种结构当中的政策,你可能有更加复杂的政策的组合,比如说你把应用本身看作是信息的处理工具。所以你需要这个应用也能够正确的来处理这个数据。比如说,像我们所谈的学校里面的紧急联系电话的应用。它应该能够获得各个地理位置的这样一个信息。但是,它却不会把这个地理信息提供给别人,而只是提供电话信息。所以他只提供一部分的信息。

很明显,要想个人控制个人数据的话,这样一种系统当中的用户体验非常重要,在这样的领域当中我们的信息很少。时政的数据只能够应用在目前的这样一个通知加同意、知情的系统当中,数据的使用者,他们可能会由律师写三页纸的使用的合同,他会让你点一下,说我同意。一般人都会点同意,实际上他那里面没有任何的实质性的内容,另外一个就是对于用户体验来说非常重要的一点。

就是你必须要有一个屏幕,他应该能够展示出大多数的人需要看的相关的政策,要用大字把它显示出来。那么在我选择我的数据使用政策的时候,我其实是在选择,我信任的第三方。然后说我的政策和他们的使用政策是一样的,除了有几个例外之外。这样的话,需要去决定。比如说你在网络上进行购买的时候,你可以通过这种方式来实现对于数据的控制。

同时你还需要有一些默认程序,来保护那些粗心的浏览者。这些都是一些比较宽泛的原则,另外还有一些细节,你需要能改变你的政策服务。   
现有的这样一种安全是通过SSL,或者TLS来加密的。我前面提到控制复杂的数据是通过应用来实现的。你把应用本身当作一个数据处理商,同时要看看这个数据是不是值得依赖的,同时要控制使用者对它的使用。

我前面也提到过,不同的账户,所以就需要怎么样管理这样一个不同账户背后的同一实体。还有默认的权利,比如说你拍了一张照片,摄影师可能有这个权利,但是被拍摄的人也有这个权利,所以这是一个联合权利。

最后还有一点,在很多应用当中,可能找到数据的来源,他是来自于哪个地方,哪个第三方的数据处理者在应用这些数据。那么,这就需要对原数据进行扩展,所以把整个的演讲总结一下,就是我觉得将会有更多的数据使用相关的规则将会被制定出来。

第二就是怎么样在使用的层面上控制个人的数据,你应该有权利控制你的数据有能力能够找到这个信息,限制它的使用,生成你的权利,在任何地方和任何时候,同时还能够在不同的数据处理商那里保持一致,可以匿名使用。另外就是原数据和数据,和你的政策都是相联系的,另外你需要有不同的账户保护你匿名的身份,另外就是没有一个中央的数据库来集中你所有的数据,这是我主要讲的内容,谢谢大家。


____________________________________________________________________________________ 

相关阅读

微软亚洲研究院举办第十六届“二十一世纪的计算” 学术研讨

历届“二十一世纪的计算”学术研讨会


欢迎关注


微软亚洲研究院官方网站:http://www.msra.cn

微软亚洲研究院人人网主页:http://page.renren.com/600674137

微软亚洲研究院微博http://t.sina.com.cn/msra

第十六届“二十一世纪的计算”学术研讨会 图灵奖获得者Butler W. Lampson主题演讲的更多相关文章

  1. 第十六届“二十一世纪的计算”学术研讨会 密西根州立大学教授Anil K. Jain主题演讲

    Biometrics---How Do I Know Who You Are? 密西根州立大学教授Anil K. Jain主题演讲" title="第十六届"二十一世纪的 ...

  2. 第十六届“二十一世纪的计算”学术研讨会 牛津大学肿瘤成像学教授Michael Brady主题演讲

    Computing and Healthcare 牛津大学肿瘤成像学教授Michael Brady主题演讲" title="第十六届"二十一世纪的计算"学术研讨 ...

  3. 二十一世纪计算 | John Hopcroft:AI革命

    编者按:信息革命的浪潮浩浩汤汤,越来越多的人将注意力转向人工智能,想探索它对人类生产生活所产生的可能影响.人工智能的下一步发展将主要来自深度学习,在这个领域中,更多令人兴奋的话题在等待我们探讨:神经网 ...

  4. 剑指offer二十六之二叉搜索树与双向链表

    一.题目 输入一棵二叉搜索树,将该二叉搜索树转换成一个排序的双向链表.要求不能创建任何新的结点,只能调整树中结点指针的指向. 二.思路 对二叉搜索树中序遍历的结果即为排序的结果,在中序遍历的过程中,建 ...

  5. 北京师范大学第十六届程序设计竞赛决赛-重现赛-B题

    一.题目链接 https://www.nowcoder.com/acm/contest/117/B 二.题意 给定一组序列$a_1,a_2,\cdots,a_n$,表示初始序列$b_1,b_2,\cd ...

  6. 西电大第十六届程序设计竞赛 A-GRE

    题目描述    不愤不启不悱不发,王萌萌为了能够成功上研,开始刻苦背GRE单词,但是由于她过于刻苦,在背会英语单词的同时,把中文读音忘了.于是王萌萌又开始复习起中文发音,她先从数字开始复习起...  ...

  7. 校第十六届大学生程序设计竞赛暨2016省赛集训队选拔赛(Problem E)

    Problem E Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 32768/32768 K (Java/Others) Total ...

  8. K-序列(埃森哲杯第十六届上海大学程序设计联赛春季赛暨上海高校金马五校赛)

    题目描述 给一个数组 a,长度为 n,若某个子序列中的和为 K 的倍数,那么这个序列被称为“K 序列”.现在要你 对数组 a 求出最长的子序列的长度,满足这个序列是 K 序列.  输入描述: 第一行为 ...

  9. “纽劢科技杯”第十六届同济大学程序设计竞赛暨上海邀请赛同步赛 J-张老师的游戏

    传送门 题目描述     在空闲时间,张老师习惯性地和菜哭武玩起了取石子游戏,这次的游戏规则有些不同,在他们面前有n堆石子,其中,第i堆石子的个数为a[i],现在制定规则如下:     从张老师开始, ...

随机推荐

  1. D14 集合set 函数def

    把 字符串  元祖 变成集合的方法   因为列表是可变的所以不能变为集合 # s=set('hello')# print(s)## s=set(['alex','alex','sb'])# print ...

  2. 35. docker swarm dockerStack 部署 投票应用

    1. 编写 docker-compose.yml # docker-compose.yml version: "3" services: redis: image: redis:a ...

  3. css改变input输入框placeholder值颜色

    ::-webkit-input-placeholder { /* WebKit browsers */ color: #fff; } :-moz-placeholder { /* Mozilla Fi ...

  4. block内存篇

    本文目的:对Block内存问题更加了解 概念理解:一种数据类型或比较特殊的对象,相当于一个指向函数的指针,该指针指向一段封装代码,调用block块代码好比调用该指针指向的函数代码 block分类: N ...

  5. [原]调试实战——使用windbg调试DLL卸载时的死锁

    原调试debugwindbg死锁deadlock 前言 最近我们的程序在退出时会卡住,调查发现是在卸载dll时死锁了.大概流程是这样的:我们的dll在加载的时候会创建一个工作线程,在卸载的时候,会设置 ...

  6. Python KNN 学习曲线

    学习曲线的目的是选择更好的模型参数.以最近邻算法为例,选取最近的多少个数据点,才能达到最优.可以控制训练集不动,调整最近的点的个数,绘制学习曲线. import matplotlib.pyplot a ...

  7. 第二季第八天 part2

    for (let i = 0; i < 3; i++) { log(i) } log(i) // 结果是 undefined let和const的作用域只在花括号内 let和const不能重复声 ...

  8. 并发与高并发(二)-JAVA内存模型

    一.java内存模型(JMM)-同步操作与规则 它描述的是一组规则或规范,通过这组规范定义了程序中各个变量(包括实例字段,静态字段和构成数组对象的元素)的访问方式.一个线程如何和何时能看到其他线程共享 ...

  9. JVM(三)内存结构图

    JVM内存结构图:

  10. linux 下删除乱码的文件夹

    [keke.zhaokk@gw2.mpi2.cm10 /home/keke.zhaokk] $ls -i 85082119 dataMining 85082939 ????֦???-???idޢ??? ...