数据源、数据集、同步任务、数据仓库、元数据、数据目录、主题、来源系统、标签、增量识别字段、修改同步、ES索引、HBase列族、元数据同步、
数据源、数据集、同步任务、数据仓库、元数据、数据目录、主题、来源系统、标签、
增量识别字段、修改同步、ES索引、HBase列族、元数据同步、DS、ODS、DW、DM、zk集群地址
==
数据源
数据源是指数据库应用程序所使用的数据库或者数据库服务器。
数据源(Data Source)顾名思义,数据的来源,
是提供某种所需要数据的器件或原始媒体。
在数据源中存储了所有建立数据库连接的信息。就像通过指定文件名称可以在文件系统中找到文件一样,
通过提供正确的数据源名称,你可以找到相应的数据库连接。
DBCP
C3P0
ODBC
数据仓库
每个数据库对应于数据目录下的一个目录。
在一个数据库中的表对应于数据目录下的文件。
数据目录也包含由服务器产生的几个状态文件,如日志文件。这些文件提供了关于服务器操作的重要信息。对管理特别在出了问题而试图确定问题原因时很有价值。例如,如果某个特定查询杀死服务器,你可以通过检查日志文件判别捣乱的查询。
数据源、数据集、同步任务、数据仓库、元数据、数据目录、主题、来源系统、标签、
增量识别字段、修改同步、ES索引、HBase列族、元数据同步、DS、ODS、DW、DM、zk集群地址
数据源:数据的载体,存储着数据的连接信息。可以是关系型数据库、文件系统等。
数据集:数据的集合。可以是一张表。
同步任务:完成数据的ETL(抽取、转换、加载)操作的任务。
元数据:描述数据的数据。 如数据库中字段的描述信息(是否主键、字段类型、长度) 为元数据。
数据目录:数据集的资源目录。一个数据集是一个目录。本产品主要指数据仓库中的表是一个目录,一个数据集。
主题:主题一般指大模块,专题。 如人员。可以作为一个主题。
来源系统:用来描述数据集的来源, 一般为数据源的名称。可以是一个系统平台,也可以是数仓的某一个层次(ODS、DW、DM)。 如"社区警务平台" 可以作为一个来源系统。 再如 "DW" ,可以作为一个来源系统。
标签:更细粒度的分类。如涉毒人员、涉稳人员、重点人员、在逃人员。都可以作为一个标签。
增量:增加的量。
全量:初始的量,为全量。
增量识别字段:通过一个字段,可以判断出数据有增加,这个字段,就是增量识别字段。一般为随数据增加而自增的字段。该字段用于实现同步任务新增数据的同步。
修改同步:同步任务中,修改了来源中的一条数据后,目标对应的数据也对应修改。这种就是修改同步。
ES索引:
HBase列族:
元数据同步:
DS:同ODS。 数据临时存储层。
ODS:数据临时存储层。
DW:核心数据层。
DM:数据集市层。
zk集群地址:
数仓标识:
SID:
==
==
数据源、数据集、同步任务、数据仓库、元数据、数据目录、主题、来源系统、标签、增量识别字段、修改同步、ES索引、HBase列族、元数据同步、的更多相关文章
- Mysql 到 Hbase 数据如何实时同步,强大的 Streamsets 告诉你
很多情况大数据集群需要获取业务数据,用于分析.通常有两种方式: 业务直接或间接写入的方式 业务的关系型数据库同步到大数据集群的方式 第一种可以是在业务中编写代码,将觉得需要发送的数据发送到消息队列,最 ...
- 数据仓库系列之ETL中常见的增量抽取方式
为了实现数据仓库中的更加高效的数据处理,今天和小黎子一起来探讨ETL系统中的增量抽取方式.增量抽取是数据仓库ETL(数据的抽取(extraction).转换(transformation)和装载(lo ...
- Hbase到Solr数据同步及Solr分离实战
1. 起因 由于历史原因,公司的数据是持久化在HBase中,查询是通过Solr来实现,这这样的设计必然涉及到要把Hbase中的数据实时同步到Solr,但所有的服务都在一个同一个集群及每台机子都安装了很 ...
- 在VS2005编程中,有的时候DataGridView数据源有几个表的联合查询,而系统又有限制为一个表,怎么办?
在VS2005编程中,有的时候DataGridView数据源有几个表的联合查询,而系统又有限制为一个表,怎么办? 解决方法:在SqlServer的企业管理器里增加一个视图吧!!!!!!!!(从来没用过 ...
- 九宫格 android:stretchMode="columnWidth",缩放与列宽大小同步
转载▼ <GridView android:id="@+store/grid" android:layout_width="wrap_content" ...
- 美团DB数据同步到数据仓库的架构与实践
背景 在数据仓库建模中,未经任何加工处理的原始业务层数据,我们称之为ODS(Operational Data Store)数据.在互联网企业中,常见的ODS数据有业务日志数据(Log)和业务DB数据( ...
- DB 数据同步到数据仓库的架构与实践
背景 在数据仓库建模中,未经任何加工处理的原始业务层数据,我们称之为ODS(Operational Data Store)数据.在互联网企业中,常见的ODS数据有业务日志数据(Log)和业务DB数据( ...
- linux->windows主动推送文件同步目录数据 linux-windows数据目录同步
1 .windows下安装openssh for windows工具,下载地址 https://www.mls-software.com/opensshd.html 2.修改openssh安装目录下e ...
- Linux-非结构化数据同步-Linux下Rsync+Rsync实现非结构化增量差异数据的同步2
说明: 操作系统:CentOS 5.X 源服务器:192.168.21.129 目标服务器:192.168.21.127,192.168.21.128 目的:把源服务器上/home/www.osyun ...
随机推荐
- Docker快速部署gitlab
环境: Centos7.5 安装Docker 1.移除旧版本: $ sudo yum remove docker \ docker-client \ docker-client-latest \ do ...
- jQuery核心方法
1.$(document.body).css( "background", "black" ); 2.$(myForm.elements).hide():隐藏表 ...
- Oracle索引(Index)介绍使用
1.什么是引 索引是建立在表的一列或多个列上的辅助对象,目的是加快访问表中的数据:Oracle存储索引的数据结构是B*树,位图索引也是如此,只不过是叶子节点不同B*数索引:索引由根节点.分支节点和叶子 ...
- ActiveSync 学习记录
协议就是一种规范.它是高效团队协作的依据.有的人可能不爱看团队规范之类的文档,一方面是个人意识问题,另外也和文档的组织.协作的效果相关. 写好文档: 看好文档. 1. 处理XML转码 抓包后,发现邮件 ...
- 步步为营102-Css样式加个版本
背景:当系统发布后修改了css样式,由于浏览器有缓存,所以会造成css样式无效.可通过在css中添加版本号来解决 1 修改css引用 <link rel="stylesheet&quo ...
- Tomcat使用
打开Tomcat官网 在浏览器地址栏输入: tomcat.apache.org,按回车 下载Tomcat 把目光移动至网页左边红匡处,点击Tomcat8 网页下移 点击箭头所指的链接 运行Tomcat ...
- 完美解决gradle下载慢的问题
修改项目根目录下的文件 build.gradle ,使用国内阿里云镜像仓库地址. buildscript { repositories { maven{ url 'http://maven.aliyu ...
- 加密算法之非对称加密RSA
一:非对称加密的由来 RSA公钥加密算法是1977年由Ron Rivest.Adi Shamirh和LenAdleman在(美国麻省理工学院)开发的.RSA取名来自开发他们三者的名字.RSA是目前最有 ...
- redis性能监控(一): Redis Info 命令 - 获取 Redis 服务器的各种信息和统计数值
https://blog.csdn.net/wmx3ng/article/details/82772891 https://blog.csdn.net/lxpbs8851/article/detail ...
- jquery源码 整体架构
一.对外提供接口 对外提供了jQuery. //可以通过jQuery或者$来找到jQuery (function(window,undefined){ //(21,94) 定义了一些变量和函数 jQu ...