Percolator_百度百科 https://baike.baidu.com/item/Percolator/3772109

英 [ˈpɜ:kəleɪtə(r)]美 [ˈpɚkəˌletɚ]
n.过滤器,抽出器。
Percolator是由谷歌推出的,在海量数据(PB级)上实现增量计算的平台。它使得在已有的结果集上进行小粒度的更新(small updates)更加快速。
Percolator不是对现有的全量计算的替代;不能分解的计算应该由mapreduce处理,而不是由Percolator处理;Percolator适合处理的对一致性要求强烈的计算,否则bigtable就能处理;Percolator适合处理海量的数据,否则现有的DBMS就能处理。
google内部,使用到Percolator的产品有web indexing system 和 render pages into images。 [1] 
 
外文名
Percolator
性    质
平台
推出机构
谷歌
用    途
在海量数据(PB级)上实现增量计算

基本信息

编辑

Google在新一代内容索引系统中放弃了MapReduce,替代者是尚不为人知的分布式数据处理系统Percolator。  The Register报道,Percolator是一种增量处理平台,它能持续更新索引系统,无需从头重新处理一遍整个系统。Google的工程师计划在下个月举行的年度USENIX Symposium 会议上公布Percolator相关论文。为了提高效率,MapReduce和其它批量处理系统创造了大数据批量,因此无法处理单个小规模的数据更新。Percolator系统便是为了解决这一问题,它能对一个大数据集增量处理更新。用Percolator替代MapReduce,每天处理相同数量的文档,能在搜索结果中将文档平均年龄(average age)减少50%。

简介

编辑

Percolator是由谷歌推出的,在海量数据(PB级)上实现增量计算的平台。它使得在已有的结果集上进行小粒度的更新(small updates)更加快速。
Percolator不是对现有的全量计算的替代;不能分解的计算应该由mapreduce处理,而不是由Percolator处理;Percolator适合处理的对一致性要求强烈的计算,否则bigtable就能处理;Percolator适合处理海量的数据,否则现有的DBMS就能处理。
google内部,使用到Percolator的产品有web indexing system 和 render pages into images。

设计

编辑

Percolator是基于bigtable的。另外,Percolator还基于另外两个服务:提供严格递增的时间戳的timestamp oracle服务和提供分布式锁的chubby服务。
实现Percolator有两个要素。第一是事务,事务保证了数据的一致性。第二是observer(类似于DBMS中的触发器),observer扫描表中的数据并触发事务。 [1] 

事务

编辑

Percolator是通过快照隔离(Snapshot isolation)实现事务的,多版本数据是快照隔离的必要条件,幸运的是bigtable可以通过时间戳来支持多版本的数据。 [1] 

Percolator的更多相关文章

  1. Elasticsearch的javaAPI之percolator

    Elasticsearch的javaAPI之percolator percolator同意一个在index中注冊queries,然后发送包括doc的请求,返回得到在index中注冊过的而且匹配doc的 ...

  2. elasticsearch的percolator操作

    es的普通查询是通过某些条件来查询满足的文档,percolator则不同,先是注册一些条件,然后查询一条文档是否满足其中的某些条件. es的percolator特性在数据分类.数据路由.事件监控和预警 ...

  3. 分布式事务实现-Percolator

    Google为了解决网页索引的增量处理,以及维护数据表和索引表的一致性问题,基于BigTable实现了一个支持分布式事务的存储系统.这里重点讨论这个系统的分布式事务实现,不讨论percolator中为 ...

  4. Percolator模型及其在TiKV中的实现

    一.背景 Percolator是Google在2010年发表的论文<Large-scale Incremental Processing Using Distributed Transactio ...

  5. ES 学习总结

    ES 总结: es 是基于lucene的, 是java 实现的, 很多概念和lucene是相同的 索引-- 对应数据库的表,mongoDB中的集合 文档,由字段组成, 一个字段可以出现多次. 字段,其 ...

  6. Google 云计算中的 GFS 体系结构

          google 公司的很多业务具有数据量巨大的特点,为此,google 公司研发了云计算技术.google 云计 算结构中的 google 文件系统是其云计算技术中的三大法宝之一.本文主要介 ...

  7. RDD:基于内存的集群计算容错抽象(转)

    原文:http://shiyanjun.cn/archives/744.html 该论文来自Berkeley实验室,英文标题为:Resilient Distributed Datasets: A Fa ...

  8. 资源list:Github上关于大数据的开源项目、论文等合集

    Awesome Big Data A curated list of awesome big data frameworks, resources and other awesomeness. Ins ...

  9. 分布式学习材料Distributed System Prerequisite List

    接下的内容按几个大类来列:1. 文件系统a. GFS – The Google File Systemb. HDFS1) The Hadoop Distributed File System2) Th ...

随机推荐

  1. vue的组件(先学习其他的ES6知识,之后再看这个) (未完)

    https://blog.csdn.net/qq20004604/article/details/56965703

  2. excel增加上一列的数值(日期)

    =TEXT(D2-1,"m月d日") 有年的话就是 =TEXT(D2-1,"yyyy年m月d日") D2就是参照日期

  3. FPGA的图像处理技术

    最近一段时间一直在研究基于FPGA的图像处理,乘着EEPW这个机会和大家交流一下,自己也顺便总结一下.主要是为了大家对用FPGA做图像处理有个感性的认识,如果真要研究的话就得更加深入学习了.本人水平有 ...

  4. Android Studio编译的时候提示Gradle无法下载的解决方案

    首先,打开android studio项目 找到项目目录gradle\wrapper\gradle-wrapper.properties这个文件.内容如下:#Wed Apr 10 15:27:10 P ...

  5. 4.lists(双向链表)

    一.概述 是一个线性链表结构,它的数据由若干个节点构成,每一个节点都包括一个信息块(即实际存储的数据).一个前驱指针和一个后驱指针.它无需分配指定的内存大小且可以任意伸缩,这是因为它存储在非连续的内存 ...

  6. InnoDB:表

    数据在表中是如何进行组织存放的?下面我们就来看看: InnoDB引擎表的类型 InnoDB表都会有一个主键. 如果没有显示的指定主键,首先会去查找,看是否有非空的唯一索引, 如果有,则该列为主键:如果 ...

  7. HTML5自定义属性之data-index

    #使用jquery获取data-index的值 jquery 的版本最好高一些 #html <div id = 'div'><span data-field='demo'>&l ...

  8. 设置MATLAB中Current Folder的默认文件夹(转载)

    设置MATLAB中Current Folder的默认文件夹 在我们使用MATLAB的过程中,其Current Folder面板会给我们带来一定的便利性.但遗憾的是,MATLAB自身没有提供友好的设置界 ...

  9. apply 判定变量类型

    js 数据类型 6大类:object ,undefined,boolean,string,number,null,但是有时候我们经常要更准确的判断,比如,是数组,还是单例... 那么就用apply吧, ...

  10. 提高php编程效率的小结

    1.如果将类的方法定义为:static,它的执行效率将提升为近4倍 2.php中数组的元素调用,使用关联数组优于索引数组 3.使用each快于print. 4.尽量使用foreach()替代for() ...