ETL from hadoop to vertica】的更多相关文章

根据项目需要,我做了一个POC(proof of concept),XML TXT的数据从HADOOP 引入到VERTICA. 我采用的方案是pig,具体信息可以参加vertica官方的文档. Access hp vertica from pig: https://my.vertica.com/docs/6.1.x/HTML/index.htm#18525.htm 我用virtualbox 在本机搭建了一个hadoop集群(apache version) ,从vertica 官网下载了一个 虚拟…
1.vertica概念 面向数据分析的数据仓库系统解决方式 2.vertica关键特性 Ø  标准的SQL接口:能够利用已有的BI.ETL.Hadoop/MapReduce和OLTP环境 Ø  高可用:内置的冗余也提升了查询速度 Ø  自己主动化数据库设计:数据库自己主动安装.优化.管理 Ø  高级压缩:十多种压缩算法最多可节省90%的空间 Ø  大规模并行处理:执行于低成本的x86型Linux节点上的原生DB感知集群 Ø  列式存储.混合模型:无磁盘I/O瓶颈,加载和查询同一时候进行 Ø  灵…
阿里封神谈hadoop学习之路   封神 2016-04-14 16:03:51 浏览3283 评论3 发表于: 阿里云E-MapReduce >> 开源大数据周刊 hadoop 学生 spark 摘要: 在大数据时代,要想个性化实现业务的需求,还是得操纵各类的大数据软件,如:hadoop.hive.spark等.笔者(阿里封神)混迹Hadoop圈子多年,经历了云梯1.ODPS等项目,目前base在E-Mapreduce.在这,笔者尽可能梳理下hadoop的学习之路. 引言 当前,越来越多的同…
新项目中需要使用到hadoop和vertica,使用flume把数据加载到hadoop中,我做了一个例子, 即监控一个sharefolder,如果里面有文件,则会文件load到hadoop. 开启Flume agent: ./flume-ng agent -n agent-1  -c conf -f /home/yaxiaohu/flumeconf/evantest.conf 以下内容是evantest.conf agent-1.channels = ch-1 agent-1.sources =…
摘要:近日,帆软官方正式发布大数据直连引擎FineDirect模块.通过该模块,企业在应用FineBI原有功能的基础上,可直接对接现有数据源,无论是传统的关系型数据库,还是Hadoop生态圈.Mpp构架,都可以直接自助取数分析. 当前,企业对数据的应用,一方面数据仓库和BI结合的方式仍占主导,另一方面越来越多的企业已逐渐引入大数据计算平台.个性化的方案.日益增长的数据,对BI工具的要求越来越高. Gartner也在2017年的BI报告中指出:未来5年,基于Hadoop/Spark,基于搜索和可视…
如何使用hive的udf 可以使用spark-sql --jars /opt/hive/udf.jar,指定udf的路径 还可以在spark-default.conf里指定spark.jars /opt/hive/udf.jar Truncated the string representation of a plan since it was too large 在spark-default.conf 里设置 spark.sql.debug.maxToStringFields 2000 spa…
Vertica 8和 Hadoop 集群的互操作性已经很不错的, 但这块肯定是Vertica研发的重点, 将来可能还有较大的变动. Vertica 集群 和 Hadoop 集群的两种布局方式 集群布局 描述 许可证 支持Vertica for SQL on Hadoop特性 共享集群 Vertica 节点部署在 Hadoop 所有节点或部分节点上 Vertica for SQL on Hadoop 许可证 支持 分离集群 Vertica 集群和 Hadoop 分属不同的集群 社区版或Premiu…
本打算使用mapr的虚拟机在里面进行开发,使用eclipse进行调试,它的问题是,有时候服务不能完全起来, 如jobtracker和tasktracker,cldb没有起来,重启服务有可能解决. 但另外一个问题是我使用eclipse和0.20.2的插件,无法连接DFS location,无法调试hadoop示例程序. 最后决定在Vertica的虚机中直接安装apache版的hadoop,然后在里面进行调试,还可以方便地连接Vertica. 在进行单点调试的时候,你会发现有些情况是无法处理的,譬如…
项目中需要把source为xml的文件通过flume放置到hdfs,然后通过MR导入到vertica中去,我之前做过简单的 尝试,是通过pig的piggybank的xmlloader然后Regex_extract来提取结点属性做的,但问题是我之前只取了一 层结点的属性,没有把不同层次结点关联起来,这有三四层,结构比较复杂,我需要重新整理思路. 这种方式很可能走不通,因为piggybank里面regex_extract的正则和传统的正则还是有些异同的.常常会 因为正则写的不合适经常返回空元组. 我…
看大家分享了好多hadoop相关的一些内容,我为大家介绍一款ETL工具——Kettle.    Kettle是pentaho公司开源的一款ETL工具,跟hadoop一样,也是java实现,其目的就是做数据整合中时数据的抽取(Extract).转换(Transformat).加载(Load)工作.Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制.Transformation工作原理上采用并发流式处理…