Percolator

Percolator_百度百科 https://baike.baidu.com/item/Percolator/3772109

英 [ˈpɜ:kəleɪtə(r)]美 [ˈpɚkəˌletɚ]

n.过滤器，抽出器。

Percolator是由谷歌推出的，在海量数据(PB级)上实现增量计算的平台。它使得在已有的结果集上进行小粒度的更新(small updates)更加快速。

Percolator不是对现有的全量计算的替代；不能分解的计算应该由mapreduce处理，而不是由Percolator处理；Percolator适合处理的对一致性要求强烈的计算，否则bigtable就能处理；Percolator适合处理海量的数据，否则现有的DBMS就能处理。

在google内部，使用到Percolator的产品有web indexing system 和 render pages into images。 [1]

外文名: Percolator
性质: 平台

推出机构: 谷歌
用途: 在海量数据(PB级)上实现增量计算

基本信息

编辑

Google在新一代内容索引系统中放弃了MapReduce，替代者是尚不为人知的分布式数据处理系统Percolator。　The Register报道，Percolator是一种增量处理平台，它能持续更新索引系统，无需从头重新处理一遍整个系统。Google的工程师计划在下个月举行的年度USENIX Symposium 会议上公布Percolator相关论文。为了提高效率，MapReduce和其它批量处理系统创造了大数据批量，因此无法处理单个小规模的数据更新。Percolator系统便是为了解决这一问题，它能对一个大数据集增量处理更新。用Percolator替代MapReduce，每天处理相同数量的文档，能在搜索结果中将文档平均年龄（average age）减少50%。

简介

编辑

Percolator是由谷歌推出的，在海量数据(PB级)上实现增量计算的平台。它使得在已有的结果集上进行小粒度的更新(small updates)更加快速。

在google内部，使用到Percolator的产品有web indexing system 和 render pages into images。

设计

编辑

Percolator是基于bigtable的。另外，Percolator还基于另外两个服务：提供严格递增的时间戳的timestamp oracle服务和提供分布式锁的chubby服务。

实现Percolator有两个要素。第一是事务，事务保证了数据的一致性。第二是observer(类似于DBMS中的触发器)，observer扫描表中的数据并触发事务。 [1]

事务

编辑

Percolator是通过快照隔离(Snapshot isolation)实现事务的，多版本数据是快照隔离的必要条件，幸运的是bigtable可以通过时间戳来支持多版本的数据。 [1]

Percolator的更多相关文章

Elasticsearch的javaAPI之percolator
Elasticsearch的javaAPI之percolator percolator同意一个在index中注冊queries,然后发送包括doc的请求,返回得到在index中注冊过的而且匹配doc的 ...
elasticsearch的percolator操作
es的普通查询是通过某些条件来查询满足的文档,percolator则不同,先是注册一些条件,然后查询一条文档是否满足其中的某些条件. es的percolator特性在数据分类.数据路由.事件监控和预警 ...
分布式事务实现-Percolator
Google为了解决网页索引的增量处理,以及维护数据表和索引表的一致性问题,基于BigTable实现了一个支持分布式事务的存储系统.这里重点讨论这个系统的分布式事务实现,不讨论percolator中为 ...
Percolator模型及其在TiKV中的实现
一.背景 Percolator是Google在2010年发表的论文<Large-scale Incremental Processing Using Distributed Transactio ...
ES 学习总结
ES 总结: es 是基于lucene的, 是java 实现的, 很多概念和lucene是相同的索引-- 对应数据库的表,mongoDB中的集合文档,由字段组成, 一个字段可以出现多次. 字段,其 ...
Google 云计算中的 GFS 体系结构
google 公司的很多业务具有数据量巨大的特点,为此,google 公司研发了云计算技术.google 云计算结构中的 google 文件系统是其云计算技术中的三大法宝之一.本文主要介 ...
RDD：基于内存的集群计算容错抽象(转)
原文:http://shiyanjun.cn/archives/744.html 该论文来自Berkeley实验室,英文标题为:Resilient Distributed Datasets: A Fa ...
资源list：Github上关于大数据的开源项目、论文等合集
Awesome Big Data A curated list of awesome big data frameworks, resources and other awesomeness. Ins ...
分布式学习材料Distributed System Prerequisite List
接下的内容按几个大类来列:1. 文件系统a. GFS – The Google File Systemb. HDFS1) The Hadoop Distributed File System2) Th ...

随机推荐

ss - float浮动模块的高度问题解决方案
当一个Div中的子元素都是浮动元素时,该div是没有高度的.通常会带来很多困扰,解决方案如下: 低版本统配兼容: overflow: hidden; 下面是不支持低配浏览器,而且似乎该效果对 P 标签 ...
【转载】使用rman进行坏块修复（ORA-01578、ORA-01110）
[转自]http://blog.itpub.net/21256317/viewspace-1062055/ 使用rman进行坏块修复(ORA-01578.ORA-01110) 2012年的一天,处理的 ...
多线程-Thread，Runnable，Callable，Future，RunnableFuture，FutureTask
类图: 先看各自的源码: public interface Runnable { public abstract void run(); } public class Thread implement ...
SAP 经常使用T-CODE
Plant Maintenance (PM) IW32 - Change Plant Maintenance Order IW33 - Display Plant Maintenance Order ...
hdu1025 最大上升字串
Constructing Roads In JGShining's Kingdom Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65 ...
[原创]OpenERP 7.0 打印PDF报表中文乱码问题的解决方案。
网上的解决方案基本上以替换字体和安装上海先锋科技开发的软件包配置两种方案,替换字体的方案尝试了几次都么有成功,安装软件包的方案成功. 软件环境:Ubuntu Server 12.04 第一步:先到ht ...
PHP——smarty模板（做登录页面和主页面）
denglu.php <?php include "init.inc.php"; $smarty->assign("action","ma ...
SecureCRT超级终端使用说明
SecureCRT超级终端使用说明一.连接POS机 1.运行SecureCRT,选择‘文件’菜单,在下拉菜单中选择‘快速连接’菜单: 2.在弹出的对话框中按如下图选择参数: 3.POS端开机,且数据 ...
位集合类BitSet
位集合类中封装了有关一组二进制数据的操作. 我们先来看一下例8.6 BitSetApp.java. 例8.6 BitSetApp.java //import java.lang.*; import j ...
C#反射Assembly 详细说明，有项目例子
1.对C#反射机制的理解2.概念理解后,必须找到方法去完成,给出管理的主要语法3.最终给出实用的例子,反射出来dll中的方法反射是一个程序集发现及运行的过程,通过反射可以得到*.exe或*.dll等 ...

Percolator

基本信息

简介

设计

事务

Percolator的更多相关文章

随机推荐

热门专题