ETL from hadoop to vertica

【ETL from hadoop to vertica】的更多相关文章

ETL from hadoop to vertica

根据项目需要,我做了一个POC(proof of concept),XML TXT的数据从HADOOP 引入到VERTICA. 我采用的方案是pig,具体信息可以参加vertica官方的文档. Access hp vertica from pig: https://my.vertica.com/docs/6.1.x/HTML/index.htm#18525.htm 我用virtualbox 在本机搭建了一个hadoop集群(apache version) ,从vertica 官网下载了一个虚拟…

HP Vertica Analytics Platform 评測

1.vertica概念面向数据分析的数据仓库系统解决方式 2.vertica关键特性 Ø 标准的SQL接口:能够利用已有的BI.ETL.Hadoop/MapReduce和OLTP环境 Ø 高可用:内置的冗余也提升了查询速度 Ø 自己主动化数据库设计:数据库自己主动安装.优化.管理 Ø 高级压缩:十多种压缩算法最多可节省90%的空间 Ø 大规模并行处理:执行于低成本的x86型Linux节点上的原生DB感知集群 Ø 列式存储.混合模型:无磁盘I/O瓶颈,加载和查询同一时候进行 Ø 灵…

阿里封神谈hadoop学习之路

阿里封神谈hadoop学习之路封神 2016-04-14 16:03:51 浏览3283 评论3 发表于: 阿里云E-MapReduce >> 开源大数据周刊 hadoop 学生 spark 摘要: 在大数据时代,要想个性化实现业务的需求,还是得操纵各类的大数据软件,如:hadoop.hive.spark等.笔者(阿里封神)混迹Hadoop圈子多年,经历了云梯1.ODPS等项目,目前base在E-Mapreduce.在这,笔者尽可能梳理下hadoop的学习之路. 引言当前,越来越多的同…

使用flume的一个例子

新项目中需要使用到hadoop和vertica,使用flume把数据加载到hadoop中,我做了一个例子, 即监控一个sharefolder,如果里面有文件,则会文件load到hadoop. 开启Flume agent: ./flume-ng agent -n agent-1 -c conf -f /home/yaxiaohu/flumeconf/evantest.conf 以下内容是evantest.conf agent-1.channels = ch-1 agent-1.sources =…

帆软发布大数据直连引擎FineDirect，对焦大数据BI

摘要:近日,帆软官方正式发布大数据直连引擎FineDirect模块.通过该模块,企业在应用FineBI原有功能的基础上,可直接对接现有数据源,无论是传统的关系型数据库,还是Hadoop生态圈.Mpp构架,都可以直接自助取数分析. 当前,企业对数据的应用,一方面数据仓库和BI结合的方式仍占主导,另一方面越来越多的企业已逐渐引入大数据计算平台.个性化的方案.日益增长的数据,对BI工具的要求越来越高. Gartner也在2017年的BI报告中指出:未来5年,基于Hadoop/Spark,基于搜索和可视…

spark-sql使用笔记

如何使用hive的udf 可以使用spark-sql --jars /opt/hive/udf.jar,指定udf的路径还可以在spark-default.conf里指定spark.jars /opt/hive/udf.jar Truncated the string representation of a plan since it was too large 在spark-default.conf 里设置 spark.sql.debug.maxToStringFields 2000 spa…

Vertica系列:Vertica和Hadoop的互操作性

Vertica 8和 Hadoop 集群的互操作性已经很不错的, 但这块肯定是Vertica研发的重点, 将来可能还有较大的变动. Vertica 集群和 Hadoop 集群的两种布局方式集群布局描述许可证支持Vertica for SQL on Hadoop特性共享集群 Vertica 节点部署在 Hadoop 所有节点或部分节点上 Vertica for SQL on Hadoop 许可证支持分离集群 Vertica 集群和 Hadoop 分属不同的集群社区版或Premiu…

Hadoop,Vertica环境搭建

本打算使用mapr的虚拟机在里面进行开发,使用eclipse进行调试,它的问题是,有时候服务不能完全起来, 如jobtracker和tasktracker,cldb没有起来,重启服务有可能解决. 但另外一个问题是我使用eclipse和0.20.2的插件,无法连接DFS location,无法调试hadoop示例程序. 最后决定在Vertica的虚机中直接安装apache版的hadoop,然后在里面进行调试,还可以方便地连接Vertica. 在进行单点调试的时候,你会发现有些情况是无法处理的,譬如…

xml in hadoop ETL with pig summary

项目中需要把source为xml的文件通过flume放置到hdfs,然后通过MR导入到vertica中去,我之前做过简单的尝试,是通过pig的piggybank的xmlloader然后Regex_extract来提取结点属性做的,但问题是我之前只取了一层结点的属性,没有把不同层次结点关联起来,这有三四层,结构比较复杂,我需要重新整理思路. 这种方式很可能走不通,因为piggybank里面regex_extract的正则和传统的正则还是有些异同的.常常会因为正则写的不合适经常返回空元组. 我…

可用于Hadoop下的ETL工具——Kettle

看大家分享了好多hadoop相关的一些内容,我为大家介绍一款ETL工具——Kettle. Kettle是pentaho公司开源的一款ETL工具,跟hadoop一样,也是java实现,其目的就是做数据整合中时数据的抽取(Extract).转换(Transformat).加载(Load)工作.Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制.Transformation工作原理上采用并发流式处理…