昊合数据整合平台HHDI常见问题
Q: HaoheDI和Informatica PowerCenter、IBM DataStage的区别在哪里?
A: Informatica和DataStage是比较重量级的ETL平台,其自身就是比较复杂的数据处理引擎,一般是通过大量转换组件利用自身引擎的计算能力完成数据抽取、清洗、转换并最后加载到目标数据库中,主体为c/s架构,数据转换、作业流程、监控、管理等都由不同的软件部件完成,由于其包含大量的组件和功能,导致学习曲线较长,对开发和运维人员的技术水平要求较高,出现问题难以排错和性能调优,安装部署迁移等都非常复杂,且采购成本过高,反而给企业实施数据类项目带来较大障碍。相比而言,HaoheDI优势主要在于大大简化ETL实施过程的复杂度,产品采用B/S架构,0部署,实施方法论采用先将数据抽取到ODS,再利用数据库自身的SQL或存储过程来进行数据处理的ELT模式,因此对开发人员的要求较低,只需要掌握SQL开发即可上手,任务作业的开发、管理、执行监控、运维等各项操作均通过浏览器完成,使开发人员将更多的时间和精力用于数据业务逻辑的处理上,显著降低实施复杂度和成本。
Q: 系统能否支持从SAP ECC系统中的抽取数据?采用何种方式?
A: 可以通过2种方式从SAP ECC系统中抽取数据,一种是通过JCO驱动利用OPEN SQL来抽取透明表和簇表,支持表关联和条件查询,这种方式需要在SAP系统中创建自定义函数RFC,且只支持ECC6.0及以上版本;另外一种方式是使用专门的CDATA JDBC驱动进行连接,支持通常的SQL语句,可访问透明表和簇表,这种方式对于字段较多的表也需要创建RFC。
Q: 该产品数据抽取的速度如何?如何提高抽取的效率?
A: 以一个有10个字段,字段总长度在512个字节的表为例,异构数据库的数据抽取速度通常在每秒1-5万条,这主要取决于源和目标数据库的性能、驱动程序的性能、网络带宽、IO速度、字段类型等多方面因素制约。如果需要在短时间内倒入大批量数据,可以采用多张表并行抽取的方式,为了不给源和目标数据库服务器造成较大压力,建议控制在10个并发以下。
Q: 系统意外宕机导致本应自动调度的计划没有执行怎么办?
A: HaoheDI支持主备机模式,同时部署两套应用,一个为主机,一个为备机,两个应用共用一个资料库(hhdi.h2.db),在调度计划达到触发条件被自动调起时,备机会检测主机的服务是否还活着,如果主机活着,备机不做任何操作,如果主机无法探测到,则备机执行自动的调度计划。
Q: 能否执行Kettle(PDI)开发的转换和作业?是否需要在HaoheDI的服务器上安装Kettle?
A: 可以,包括直接调用文件和从文本资源库、数据库资源库中调用,可以传递变量,并在执行监控页面中可以看到Kettle的完整的执行信息,无需安装Kettle的程序,只需要将ktr、kjb文件或资源库拷贝到HaoheDI的服务器中,如果用到kettle插件的话,需要将其plugins目录下的插件目录拷贝到HaoheDI的应用目录下。
Q: 一个公司有100个子公司,每个子公司均部署有独立的业务系统,其数据库格式完全一致,只是服务器IP地址不同,如何从这100个相似的数据库中抽取数据到总部?
A: 如果每个子公司都配置单独的数据连接,这样工作量无疑是很大的,HaoheDI的数据连接配置项中有些内容是支持变量配置的,包括IP地址(机器名)、端口号、数据库/模式,可以将IP地址配置成变量,然后通过变量赋值任务、条件判断任务、子作业等组合成可循环执行的作业流程,按IP地址从小到大循环依次抽取到目标数据库中。
Q: 系统能否调用Java开发的类及其方法?
A: 可以通过执行JavaScript任务,写JavaScript语句来调用Java文件,使用手册中有示例,需要将要调用的Jar包或class文件上传到HaoheDI应用的Lib目录中。
Q: 产品是否可以支持自动建表?
A: 如果目标表不存在,数据抽取任务可以根据源表或SELECT语句的字段结构来创建目标表,建表语句可以修改。
Q: 产品对Hadoop的支持如何?
A: 可通过各种专门的JDBC驱动连接不同的SQL on Hadoop引擎,比如Hive/Spark、Hbase、Impala、Cassandra、Drill等,可以从这些系统中Select数据,也可以执行各种DDL或DML操作,如使用Load Data命令将文本中的数据导入Spark中。
Q: 数据库量级大了后效率会变慢吗?
A: 整合平台的速度不会变慢,没直接关系,当然由于数据库量级大了后,数据库的速度变慢以后,在整合平台里执行的任务也会变慢,但这是和数据库相关,不是和整合平台相关。
Q: 产品能否支持实时的数据采集?
A: 做实时的CDC数据采集通常是需要访问数据库日志的,且对数据库的归档模式有一定要求,能做这方面工作的工具比较少,常见的有Oracle的goldengate和Informatica PowerExchange,这类工具通知只实现数据实时采集,其它的ETL工作还需要借助其它工具完成,HaoheDI目前只能做到按批进行抽取,比如按时间戳或id号做定时的增加抽取,如果数据量不是特别大,可以将调度计划设为每分钟抽取一次增量数据,以实现准实时的效果,但是无时间戳的数据和修改删除的数据还是不容易实时获取,可搭配其它实时CDC工具来进行使用。
Q: 正式版产品的授权License是怎么计算的?
A: 产品按照一台服务器一个License进行授权,lic文件将绑定这台服务器的主板UUID,对cpu核数、操作系统、用户数、任务作业数都没有限制。
Q: 外部应用是否可以通过一个URL来调用系统中的作业的执行?
A: 可以通过http协议调用一个url来手工执行系统中的一个作业。
Q: 系统中的数据源、转换任务、作业流程、执行日志等内容都存放在什么地方?如何备份和迁移?
A: 系统中的所有对象和数据都存储在一个h2数据库文件中,备份和迁移只需要将此文件备份和复制到其它位置即可。
昊合数据整合平台HHDI常见问题的更多相关文章
- [转]ios平台内存常见问题
本文转自CocoaChina,说的满详细的: 链接地址:http://www.cocoachina.com/bbs/read.php?tid=94017&keyword=%C4%DA%B4%E ...
- 2012开源项目计划-WPF企业级应用整合平台
2012开源项目计划-WPF企业级应用整合平台 开篇 2012年,提前祝大家新年快乐,为了加快2012年的开发计划,特打算年前和大家分享一下2012年的开发计划和年后具体的实施计划,希望有兴趣或者有志 ...
- 东正王增涛浅析OA信息化整合平台系统在企业中的应用价值
王增涛说OA信息化整合平台系统作为企业管理中最基础的管理软件,已在企业成长道路上存在多年,它的应用开启了智能移动办公的先河,也让企业的办公流程管理更加的便捷.高效.流畅.省时.省力,它的使用不但让企业 ...
- Netsharp平台工具常见问题(FAQ)
1. 请问EntityId如何填? 回答:Netsharp中EntityId是经常需要输入的一个字段,因为Netsharp工具一般的源头是实体元数据,也就是一般常说的所谓模型驱动.所以很多工具都需要E ...
- 如何用SQL语句处理缓慢变化维(渐变维,拉链表)SCD-2?
假设有一张居民维表,需要记录居民状态的变更历史,根据Kimball建模理论,设计居民维表如下: 另外在ODS中有居民信息的每日快照表(每天都记录一份居民的全量信息):O_USERINFO 如何将ODS ...
- 基于两种架构的ETL实现及ETL工具选型策略
企业信息化建设过程中,业务系统各自为政.相互独立造成的"数据孤岛"现象尤为普遍,业务不集成.流程不互通.数据不共享--.这给企业进行数据的分析利用.报表开发等带来了巨大困难.在此情 ...
- HaoheDI让ETL变得简单
HaoheDI(昊合数据整合平台)http://www.haohedi.com,产品基于BS架构,开发运维均极为简单,可快速搭建ETL平台,广泛支持各种数据库.文本文件.SAP和Hadoop,开发数据 ...
- 在我的职业生涯中,没有一种技能比 SQL 更有用!
作者 | Craig Kerstiens 译者 | 阿拉丁 创业公司 CitusData(CitusData 是一家将 PostgreSQL 商业化的初创企业,也是 PostgreSQL 社区领导者, ...
- linux下apache和tomcat整合
一 Apache与Tomcat比较联系 apache支持静态页,tomcat支持动态的,比如servlet等. 一般使用apache+tomcat的话,apache只是作为一个转发,对jsp的处理是由 ...
随机推荐
- python shopping incomplete code
#shopping code#shopping.py#导入登录模块import login# shop car beginningsalary = input("请输入工资:\t" ...
- google离线小恐龙-备份
开启方法: 地址栏输入: chrome://dino 空格开始
- PHP | 别家网站都有的登录功能,你的网站也可以有!
如果说一个网站是一个独立的王国,那登录功能就相当于这个[王国]的大门.进出往来的人必须要通过这道[门]才能进出这个[王国],这样才能有效的达到对人流量和用户的有效监管,也可以进一步了解每个用户的喜好, ...
- 在IDEA中设置方法自动注释(带参数和返回值)
第一部分 设置 打开设置面板 新建 在线模板 新建自动添加规则,注意 这里触发的字符 不能随便写 必须为 * Template text 区域 看上去有点乱,但是是为了显示时的对齐,该区域的内容如下( ...
- [使用经验]cocostudio UI编辑器的裁剪
日志-2015/03/16 描述:在程序使用UI编辑器导出文件的时候,该panel中大于panel的部分都没有显示出来,例如人物,一些特效等 原因:UI编辑器panel都勾上了裁剪 解决:在编辑器中把 ...
- 如何理解 Learning to rank
转:http://hi.baidu.com/christole/item/23215e364d8418f896f88deb What is Rank? rank就是排序.IR中需要排序的问题很多,最常 ...
- 023re模块(正则)
之前我刚学的python知识点,没有题目进行熟悉,后面的知识点会有练习题,并且慢慢补充.看到很多都是很简单的练习,碰到复杂.需要运用的再补充吧#字符串中使用到正则表达式 s='hello world' ...
- 微信公众号支付IOS系统能够唤起,安卓系统不能唤起的问题解决
前言 之前系统内做过要给微信支付程序,只不过鉴于业务应用场景,大部分都是使用业务内的金币兑换产品,没有实际用到支付功能.后来运营小哥哥说他的手机不能唤起支付.于是乎我查询了一下资料,发现了这么个问题. ...
- 视图 b
- 关注磁盘的两个指标: IOPS 和传输带宽(吞吐量)
㈠ IOPS 磁盘的 IOPS.也就是每秒能进行多少次IO 那么.如何才算一次IO呢? 其实.这是个定义很混乱的问题 因为.系统 ...