作者：Syn良子出处：https://www.cnblogs.com/cssdongl/p/9885534.html 转载请注明出处

Druid的数据摄取任务类型

Druid支持很多种类型的数据摄取任务.任务通过CURL POST的方式提交到Overlord节点然后分配给middle manager运行.

Segment创建任务类型

本地批处理索引任务

本地批处理摄取任务

{

"type" : "index",

"spec" : {

"dataSchema" : {

  "dataSource" : "wikipedia",

  "parser" : {

    "type" : "string",

    "parseSpec" : {

      "format" : "json",

      "timestampSpec" : {

        "column" : "timestamp",

        "format" : "auto"

      },

      "dimensionsSpec" : {

        "dimensions": ["page","language","user","unpatrolled","newPage","robot","anonymous","namespace","continent","country","region","city"],

        "dimensionExclusions" : [],

        "spatialDimensions" : []

      }

    }

  },

  "metricsSpec" : [

    {

      "type" : "count",

      "name" : "count"

    },

    {

      "type" : "doubleSum",

      "name" : "added",

      "fieldName" : "added"

    },

    {

      "type" : "doubleSum",

      "name" : "deleted",

      "fieldName" : "deleted"

    },

    {

      "type" : "doubleSum",

      "name" : "delta",

      "fieldName" : "delta"

    }

  ],

  "granularitySpec" : {

    "type" : "uniform",

    "segmentGranularity" : "DAY",

    "queryGranularity" : "NONE",

    "intervals" : [ "2013-08-31/2013-09-01" ]

  }

},

"ioConfig" : {

  "type" : "index",

  "firehose" : {

    "type" : "local",

    "baseDir" : "examples/indexing/",

    "filter" : "wikipedia_data.json"

   }

},

"tuningConfig" : {

  "type" : "index",

  "targetPartitionSize" : 5000000,

  "maxRowsInMemory" : 75000

}

}

}

以上为本地索引任务的语法格式,注意type必须为"index",这个任务将本地examples/indexing/下的wikipedia_data.json文件摄取到druid的segment中去,可以通过CURL POST的方式提交到Overlord,并不需要额外的hadoop配置

Hadoop索引任务

{

"type" : "index_hadoop",

"spec" : {

"dataSchema" : {

  "dataSource" : "wikipedia",

  "parser" : {

    "type" : "hadoopyString",

    "parseSpec" : {

      "format" : "json",

      "timestampSpec" : {

        "column" : "timestamp",

        "format" : "auto"

      },

      "dimensionsSpec" : {

        "dimensions": ["page","language","user","unpatrolled","newPage","robot","anonymous","namespace","continent","country","region","city"],

        "dimensionExclusions" : [],

        "spatialDimensions" : []

      }

    }

  },

  "metricsSpec" : [

    {

      "type" : "count",

      "name" : "count"

    },

    {

      "type" : "doubleSum",

      "name" : "added",

      "fieldName" : "added"

    },

    {

      "type" : "doubleSum",

      "name" : "deleted",

      "fieldName" : "deleted"

    },

    {

      "type" : "doubleSum",

      "name" : "delta",

      "fieldName" : "delta"

    }

  ],

  "granularitySpec" : {

    "type" : "uniform",

    "segmentGranularity" : "DAY",

    "queryGranularity" : "NONE",

    "intervals" : [ "2013-08-31/2013-09-01" ]

  }

},

"ioConfig" : {

  "type" : "hadoop",

  "inputSpec" : {

    "type" : "static",

    "paths" : "/MyDirectory/example/wikipedia_data.json"

  }

},

"tuningConfig" : {

  "type": "hadoop"

}

},

"hadoopDependencyCoordinates": <my_hadoop_version>

}

以上为Hadoop索引任务的语法格式,注意type必须为"index_hadoop",这个任务将/MyDirectory/example/wikipedia_data.json文件摄取到druid的segment中去,注意这个路径是基于HDFS的,任务可以通过CURL POST的方式提交到Overlord,需要额外的hadoop已经配置好,因为最终会转化为MapReduce的方式来摄取

Kafka索引任务

{

"type": "kafka",

"dataSchema": {

"dataSource": "metrics-kafka",

"parser": {

  "type": "string",

  "parseSpec": {

    "format": "json",

    "timestampSpec": {

      "column": "timestamp",

      "format": "auto"

    },

    "dimensionsSpec": {

      "dimensions": [],

      "dimensionExclusions": [

        "timestamp",

        "value"

      ]

    }

  }

},

"metricsSpec": [

  {

    "name": "count",

    "type": "count"

  },

  {

    "name": "value_sum",

    "fieldName": "value",

    "type": "doubleSum"

  },

  {

    "name": "value_min",

    "fieldName": "value",

    "type": "doubleMin"

  },

  {

    "name": "value_max",

    "fieldName": "value",

    "type": "doubleMax"

  }

],

"granularitySpec": {

  "type": "uniform",

  "segmentGranularity": "HOUR",

  "queryGranularity": "NONE"

}

},

"tuningConfig": {

"type": "kafka",

"maxRowsPerSegment": 5000000

},

"ioConfig": {

"topic": "metrics",

"consumerProperties": {

  "bootstrap.servers": "localhost:9092"

},

"taskCount": 1,

"replicas": 1,

"taskDuration": "PT1H"

}

}

以上为Kafka索引任务的语法格式,注意type必须为"kafka",这个任务通过localhost:9092端口来消费kafka中的数据并摄取到druid的segment中去,注意这个kafka摄取的任务类型还在实验阶段并且需要kafka0.10的支持

流式Streaming push任务类型

这种任务类型是通过Tranquility来自动化的创建realtime任务类型提交到overlord来运行.Tranquility是什么？如下为其github地址

https://github.com/druid-io/tranquility

我们可以利用Tranquility消费实时数据并向Druid发送实时事件流,并无缝地处理分区,复制,提供服务发现等功能.我举个栗子,比如你可以通过storm或者sparkstreaming或者flink来集成Tranquility实时的消费kafka数据流并加载到druid的segments中去并且可以同时进行实时的数据查询.这种方案要写大量代码的但是相对来说比较成熟自由度较高.随后我会找时间单独详细讲解.

压缩任务类型

{

"type": "compact",

"id": <task_id>,

"dataSource": <task_datasource>,

"interval": <interval to specify segments to be merged>,

"dimensions" <custom dimensionsSpec>,

"tuningConfig" <index task tuningConfig>,

"context": <task context>

}

注意任务类型必须为compact,这个任务类型可以压缩指定时间段内的segments到一个新的segments并同时指定分区数和维度组合

参考资料:Druid的任务类型总览

Druid学习之路（五）Druid的数据摄取任务类型的更多相关文章

Druid学习之路（一）Druid初识
作者:Syn良子出处:https://www.cnblogs.com/cssdongl/p/9588079.html 转载请注明出处最近在学习和使用Druid.觉得一些章节有必要按照自己的理解翻译 ...
Druid学习之路（四）Druid的数据采集格式
作者:Syn良子出处:https://www.cnblogs.com/cssdongl/p/9715735.html 转载请注明出处 Druid的数据采集格式 Druid可以采集非标准化的数据诸如J ...
Druid学习之路（三）Druid的数据源和段
作者:Syn良子出处:https://www.cnblogs.com/cssdongl/p/9703204.html 转载请注明出处 Druid的数据源和分段 Druid的数据存储在"Da ...
Druid学习之路（二）Druid架构
作者:Syn良子出处:https://www.cnblogs.com/cssdongl/p/9608812.html 转载请注明出处 Druid架构 Druid原本就设计为一个容易操作的面向云的多进 ...
MongoDB学习之路(五)
MongoDB $type 操作符类型数字备注 Double 1 String 2 Object 3 Array 4 Binary data 5 Undefined 6 已废弃 Object i ...
Java学习之路(五)：常见的对象操作
Object对象我们先来介绍一下API API(Application Programming Interface):应用程序编程接口 Java API 就是Java提供给我们使用的类,这些类将底层 ...
redis——学习之路五(简单的C#使用redis)
redis官方推荐使用的客户端程序打星星表示推荐使用的客户端程序,一个笑脸表示最近6个月内有过正式活动的.http://redis.io/clients/#c 从这里我们可以判断官方推荐我们使用Se ...
嵌入式Linux驱动学习之路(五)u-boot启动流程分析
这里说的u-boot启动流程,值得是从上电开机执行u-boot,到u-boot,到u-boot加载操作系统的过程.这一过程可以分为两个过程,各个阶段的功能如下. 第一阶段的功能: 硬件设备初始化. 加 ...
zigbee学习之路(五):定时器1(查询方式)
一.前言今天,我们来学习几乎所有单片机都有的功能,定时器的使用,定时器对单片机来说是相当重要的,有了它,单片机就可以进行一些复杂的工作. 二.原理与分析谈到定时器的控制,我们最先想到的是要给它赋初 ...

随机推荐

剑指 offer set 21 圆圈中最后剩下的数字
思路 1. 经典解法是用环形链表模拟圆圈, 然后每次减少一个节点. 时间复杂度为 o(mn), 空间复杂度为 o(n) 2. 转化成数学问题, 递推公式决定下一个元素. 时间复杂度为 o(n), 空间 ...
Django学习笔记第十一篇--关于session
一.session和sessionid: sessionid是cookie的一个字段,sessionid一般如下: """请求报文""" & ...
deviceready has not fired after 5 seconds
deviceready has not fired after 5 seconds 建议用手机连上电脑,用真机进行调试:
java的list集合如何根据对象中的某个字段排序？
转自:http://blog.csdn.net/wangjuan_01/article/details/51351633 List集合按某个字段排序 package wjtest_01; import ...
CSS文本对齐text-align详解
1.语法 text-align具体参数如下: 语法:text-align : left | right | center | justify 说明:设定元素内文本的水平对齐方式. 参数:left : ...
Spring的AOP-----HelloWord
这里就一个计算器开发为例1搭建环境-搭配好Spring的AOP开发环境导入以下这些包:2建立好核心处理模块的类ArithmeticCalculator: package com.jeremy.spri ...
解决SecureCRT连接linux终端中文显示乱码
现象如下: 原因: SecureCRT的字符集编码不是Linux的默认编码:UTF-8 解决办法: 1.在“选项”找到“会话选项” 2.选择“外观”,设置字符编码为“UTF-8” 3.确定后,继续在终 ...
服务器端IO模型的简单介绍及实现
https://mp.weixin.qq.com/s?src=3&timestamp=1541726441&ver=1&signature=xPSye3v7miF7aVeLHb ...
python 将日期戳（五位数时间）转换为标准时间
5位数日期戳读取 .mat 文件处理里面数据时,发现里面的日期数据全部都是 “5位数” 数字,很不解: 后来查到可以在excel中通过设置单元格调回标准日期格式,如下: 选中日期戳,右键选择 “格式 ...
linux伙伴系统接口alloc_page分析1
在内核中分配内存,最后要通过伙伴系统接口进行实际物理页面的分配,一个重要的接口便是alloc_page.本文介绍下alloc_page的主要流程,各个部分的执行.主要包含正常分配流程,当页面不足的时候 ...

Druid学习之路 （五）Druid的数据摄取任务类型