https://hashdatainc.github.io/bireme/ Bireme 是一个 Greenplum / HashData 数据仓库的增量同步工具.目前支持 MySQL.PostgreSQL 和 MongoDB 数据源. Greenplum 是一个高级,功能齐全的开源数据仓库,为PB级数据量提供强大而快速的分析.它独特地面向大数据分析,由世界上最先进的基于成本的查询优化器提供支持,可在大数据量上提供高分析查询性能. HashData 则是基于 Greenplum 构建弹性的云端数…
一.Canal介绍 1.应用场景 在前面的统计分析功能中,我们采取了服务调用获取统计数据,这样耦合度高,效率相对较低,目前我采取另一种实现方式,通过实时同步数据库表的方式实现,例如我们要统计每天注册与登录人数,我们只需把会员表同步到统计库中,实现本地统计就可以了,这样效率更高,耦合度更低,Canal就是一个很好的数据库同步工具.canal是阿里巴巴旗下的一款开源项目,纯Java开发.基于数据库增量日志解析,提供增量数据订阅&消费,目前主要支持了MySQL. 2.Canal环境搭建 canal的原…
一直没有对这个命令太有深入的理解 简介 rsync 即 remote sync,一个远程与本地文件同步工具.rsync 使用的算法能够最小化所需复制的数据,因为它只移动那些修改了的文件. rsync 是一个非常灵活的同步工具,它也是一种使用该工具的网络协议名称.本文中所说的 rsync 都是指同步工具,而非网络协议.由于它在类 Unix 系统中广为流行,它也是大多数 Linux 发行版的默认自带工具. 基本语法 rsync 的基本语法非常简单,类似于 ssh, scp 和 cp 命令的语法. 例…
简介 rsync 即 remote sync,一个远程与本地文件同步工具.rsync 使用的算法能够最小化所需复制的数据,因为它只移动那些修改了的文件. rsync 是一个非常灵活的同步工具,它也是一种使用该工具的网络协议名称.本文中所说的 rsync 都是指同步工具,而非网络协议.由于它在类 Unix 系统中广为流行,它也是大多数 Linux 发行版的默认自带工具. 基本语法 rsync 的基本语法非常简单,类似于 ssh, scp 和 cp 命令的语法. 例如我们创建两个目录和一些文件: c…
概念:CountDownLatch是多线程里面一个类似于计数器的高级同步工具,它的初始值代表线程的数量,当一个线程完成了任务后,CountDownLatch的值就减1,当值为0的时候,代表所有线程完成了任务,然后等待的线程可以开始自己的任务. 方法:这里主要涉及到两个核心的方法: await():线程响应中断,进入等待状态. countDown():减1操作,CountDownLatch的值减1. 示例: import java.util.Random; import java.util.con…
简介: GreenPlum是一个基于PostgreSQL数据库开发的MPP架构的数据库仓库,适用于OLAP系统,支持50PB(1PB=1000TB)级海量数据的存储和处理. 背景: 目前有一个业务是需要将Oracle数据库中的基础数据增量同步到GreenPlum数据仓库,便于进行数据分析和处理. 规模: 每天产生60G左右数据,最大的表每天新增上亿条数据. 解决方法: 1)历史数据通过抽取导入的方式进行初始化. 2)增量更新数据: 使用GoldenGate将Oracle日志解析,传给GreenP…
老刘是一名即将找工作的研二学生,写博客一方面是总结大数据开发的知识点,一方面是希望能够帮助伙伴让自学从此不求人.由于老刘是自学大数据开发,博客中肯定会存在一些不足,还希望大家能够批评指正,让我们一起进步! 背景 大数据领域数据源有业务库的数据,也有移动端埋点数据.服务器端产生的日志数据.我们在对数据进行采集时根据下游对数据的要求不同,我们可以使用不同的采集工具来进行.今天老刘给大家讲的是同步mysql增量数据的工具Canal,本篇文章的大纲如下: Canal 的概念 mysql 中主备复制实现原…
/** *@Desc 设计一个同步工具,同一时刻最多只有两个线程能访问,超过线程将被阻塞<br> * 思路分析: * 1.共享锁 两个线程及以内能成功获取到锁 * 2. *@Author zhangfengshi *@Date 2021/4/5 3:26 下午 *@Version 1.0 */ public class TwinsLock implements Lock { public Sync sync=new Sync(2); public static class Sync exten…
rsync同步工具 1.rsync介绍 rsync是一款开源的.快速的.多功能的.可实现全量及增量的本地或远程数据同步备份的优秀工具.rsync软件适用于unix/linux/windows等多种操作系统平台. rsync和ssh带的scp命令比较相似,但又优于scp命令的功能,scp每次都是全量拷贝,而rsync可以进行增量拷贝.当然,rsync还可以在本地主机的不同分区或目录之间全量及增量的复制数据,这又类似cp命令,但同样也优于cp命令,cp每次都是全量拷贝,而rsync可以增量拷贝.利用…
BT Sync介绍 BT 下载,相信大伙儿都知道的.今儿个要介绍的 BT Sync,跟 BT 下载一样,都是 BitTorrent 公司发明滴玩意儿,都是采用 P2P 协议来进行传输. 简而言之,BT sync 是一个文件同步工具,让你在几台不同的设备之间,同步文件. 既然是“文件同步工具”,那么最基本的“增量同步”功能,当然是必不可少的.另外,据俺测试:同步完成之后,如果在“发起端”对文件改名,但是文件内容不变,BT Sync [不会]重传文件内容——这算是比较智能的. 下载链接:https:…