简介 GoldenGate是一款可以实时投递数据到大数据平台的软件,针对apache cassandra,经过简单配置,即可实现从关系型数据将增量数据实时投递到Cassandra,以下介绍配置过程. Cassandra安装 解压apache-cassandra-3.11.1-bin.tar.gz到 /opt/cassandra sudo mkdir /var/lib/cassandra sudo mkdir /var/log/cassandra sudo chown hadoop /var/lo…
Oracle GoldenGate是Oracle公司的实时数据复制软件,支持关系型数据库和多种大数据平台.从GoldenGate 12.2开始,GoldenGate支持直接投递数据到Kafka等平台,而不用通过Java二次开发.在数据复制过程中,GoldenGate充当Kafka Producer的角色,从关系 型数据库解析增量数据,再实时往Kafka平台写入.当前最新的GoldenGate版本是12.3.1.1.1. 从下图可以看出,GoldenGate不仅支持Kafka投递,也支持其它大数据…
Apache Flume Flume NG是一个分布式.可靠.可用的系统,它能够将不同数据源的海量日志数据进行高效收集.聚合,最后存储到一个中心化数据存储系统中,方便进行数据分析.事实上flume也可以收集其他信息,不仅限于日志.包括端口数据.JMS.命令行等输出数据. 架构 Flume主要的组件包括source(数据源),数据中间存储(channel),sink数据目标存储. 可实现多种拓扑架构,如级联数据传输. 可以多对一做数据集中 也可以一对多做数据分发 Flume支持的组件 Source…
大数据介绍 什么是大数据以及有什么特点 大数据:是指无法在一定时间内用常规软件工具对其内容进行抓取.管理和处理的数据集合. 大数据是一种方法论:“一切都被记录,一切都被数字化,从数据中寻找需求,寻找知识,发掘价值”. 大数据技术:指从各种各样类型的数据中快速获得有价值信息的能力. 大数据的特点:数据体量巨大.数据类型繁多.价值密度低.产生和处理速度快 新的大数据处理平台: 开源:Hadoop.Spark(Apache).Atorm(Twitter).MongoDb 商用:IBM PureData…
一直觉得“大数据”这个名词离我很近,却又很遥远.最近不管是微博上,还是各种技术博客.论坛,碎碎念大数据概念的不胜枚举. 在我的理解里,从概念理解上来讲,大数据的目的在于更好的数据分析,否则如此大数据的存储便没有这么大的意义了.至于从技术上, 恰好之前在<淘宝技术这十年>的引言部分,读到一篇小文,觉得放在这个大数据的讨论下,也还很贴切: “据不可靠消息,在双十一当天高峰,淘宝的访问流量最巅峰达到871GB/S.这个数字意味着需要178万个4Mb带宽的家庭宽带才能负担的起, 也完全有能力拖垮一个中…
GoldenGate可以实时将RDBMS的数据投递到HDFS中,在前面的文章中,已经配置过投递到kafka, mongodb等数据平台,本文通过OGG for bigdata的介质中自带的示例演示实时将数据写入到HDFS文件系统. 安装hadoop 安装hadoop3.0.0,设置相应的环境变量 export HADOOP_HOME=/u01/hadoop export PATH=$PATH:$HADOOP_HOME/bin 启动hadoop bin/hadoop namenode -forma…
Apache Hbase安装及运行 安装hbase1.4,确保在这之前hadoop是正常运行的.设置相应的环境变量, export HADOOP_HOME=/u01/hadoop export HBASE_HOME=/u01/hbase export PATH=$PATH:$HADOOP_HOME/bin:$HBASE_HOME/bin 启动hbase ./start-hbase.sh 确保hadoop, hbase能正常启动,如有问题,可自行搜索文档解决. [oracle@ol66 bin]$…
ES 2.x ES 2.x安装 下载elasticSearch 2.4.5, https://www.elastic.co/downloads/elasticsearch 解压下载后的压缩包,启动ES ./elasticsearch [2017-12-26 11:46:31,662][INFO ][node ] [Doctor Dorcas] version[2.4.5], pid[4424], build[c849dd1/2017-04-24T16:18:17Z] [2017-12-26 11…
mongodb安装 安装 linux下可使用apt-get install mongodb-server 或 yum install mongodb-server 进行安装. 也可以在windows上安装mongodb,只要网络连通,数据就可以从关系型数据库投递到mongodb.详细安装文档可网络搜索. 启动mongodb 先创建一个数据目录 mkdir /opt/mongodb-data 然后启动DB服务, --rest是启动restful web mongod --dbpath /opt/m…
转载自http://www.ibm.com/developerworks/cn/opensource/os-twitterstorm/ 流式处理大数据简介 Storm 是一个开源的.大数据处理系统,与其他系统不同,它旨在用于分布式实时处理且与语言无关.了解 Twitter Storm.它的架构,以及批处理和流式处理解决方案的发展形势. Hadoop(大数据分析领域无可争辩的王者)专注于批处理.这种模型对许多情形(比如为网页建立索引)已经足够,但还存在其他一些使用模型,它们需要来自高度动态的来源的…