基于docker构建flink大数据处理平台

https://www.cnblogs.com/1ssqq1lxr/p/10417005.html

由于公司业务需求，需要搭建一套实时处理数据平台，基于多方面调研选择了Flink.

初始化Swarm环境(也可以选择k8s)

　　部署zookeeper集群基于docker-compose ,使用 docker stack 部署在容器中,由于zookeeper存在数据持久化存储，这块后面可以考虑共享存储方案.

services:

  zoo1:

    image: zookeeper

    restart: always

    hostname: zoo1

    ports:

      - :

    environment:

      ZOO_MY_ID:

      ZOO_SERVERS: server.=0.0.0.0:: server.=zoo2:: server.=zoo3::

  zoo2:

    image: zookeeper

    restart: always

    hostname: zoo2

    ports:

      - :

    environment:

      ZOO_MY_ID:

      ZOO_SERVERS: server.=zoo1:: server.=0.0.0.0:: server.=zoo3::

  zoo3:

    image: zookeeper

    restart: always

    hostname: zoo3

    ports:

      - :

    environment:

      ZOO_MY_ID:

      ZOO_SERVERS: server.=zoo1:: server.=zoo2:: server.=0.0.0.0::

部署flink镜像

version: ""

services:

  jobmanager:

    image: flink:1.7.-scala_2.-alpine

    ports:

      - "8081:8081"

    command: jobmanager

    environment:

      - JOB_MANAGER_RPC_ADDRESS=jobmanager

  taskmanager:

    image: flink:1.7.-scala_2.-alpine

    command: taskmanager

    environment:

      - JOB_MANAGER_RPC_ADDRESS=jobmanager

此时只是一个jobmanager 存在单机问题，可以考虑将容器内部的 fluentd.conf 挂载出来,配置zookeeper HA。

对于扩充 TaskManager直接　docker　service　scala　　TaskManager－NAME＝３即可

Flink案例demo,采用读取kafka中数据实时处理，然后将结果存储到influxDb中展示

// 实时流main

public class SportRealTimeJob {

    public static void main(String[] args) throws Exception {

        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        env.setStreamTimeCharacteristic(TimeCharacteristic.ProcessingTime);

        KafkaConnector connector = new KafkaConnector("192.168.30.60:9092","big-data");

        env

                .addSource(connector.getConsumerConnector(Lists.newArrayList("test0")))

                .<MessageBody>flatMap((sentence,out)->{

                    MessageBody body=JSON.parseObject(sentence, MessageBody.class);

                    out.collect(body);

                })

                .shuffle()

                .keyBy(messageBody -> messageBody.getPhone()+messageBody.getUserId())

                .timeWindow(Time.seconds())

                .reduce((t0, t1) -> new MessageBody(t0.getUserId(),t0.getPhone(),t0.getValue()+t1.getValue()))

                .addSink(new InfluxWriter())

                .setParallelism();

        env.execute("Window WordCount");

    }

}

// 数据处理实体类demo

@Data

@Measurement(name = "sport")

public class MessageBody {

    @Column(name = "userId",tag = true)

    private String userId;

    @Column(name = "phone",tag = true)

    private String phone;

    @Column(name = "value")

    private int value;

    public MessageBody() {

    }

    public MessageBody(String userId, String phone, int value) {

        this.userId = userId;

        this.phone = phone;

        this.value = value;

    }

}

// 自定义数据输出源

public class InfluxWriter extends RichSinkFunction<MessageBody> {

    private InfluxTemplate template;

    @Override

    public void open(Configuration parameters) throws Exception {

        InfluxBean bean= InfluxBean.builder().dbName("game")

                .url("http://localhost:8086")

                .username("admin")

                .password("admin")

                .build();

        template = new SimpleInfluxTemplate(bean);

    }

    @Override

    public void close() throws Exception {

        template.close();

    }

    @Override

    public void invoke(MessageBody value, Context context) throws Exception {

        template.write(Point.measurement("sport")

                .addField("value",value.getValue())

                .tag("userId",String.valueOf(value.getUserId()))

                .tag("phone",value.getPhone())

                .time(context.currentProcessingTime(), TimeUnit.MILLISECONDS).build());

    }

}

// influxDb操作类

public class SimpleInfluxTemplate implements InfluxTemplate {

    private final InfluxDB db;

    public SimpleInfluxTemplate(InfluxBean bean){

        this.db= InfluxDBFactory.connect(bean.getUrl(), bean.getUsername(), bean.getPassword());

        db.setDatabase(bean.getDbName());

        db.enableBatch(BatchOptions.DEFAULTS.exceptionHandler(

                (failedPoints, throwable) -> {

                    /* custom error handling here */ })

                .consistency(InfluxDB.ConsistencyLevel.ALL)

                .bufferLimit()

        );

    }

    @Override

    public void write(Point point) {

        db.write(point);

    }

    @Override

    public void bentchWrite(BatchPoints points) {

        db.write(points);

    }

    @Override

    public <T> List<T> query(Query query, Class<T> tClass) {

        QueryResult result=db.query(query);

        InfluxDBResultMapper resultMapper = new InfluxDBResultMapper(); // thread-safe - can be reused

        return resultMapper.toPOJO(result, tClass);

    }

    @Override

    public void close() {

        db.close();

    }

public interface InfluxTemplate {

    void write(Point point);

    void bentchWrite(BatchPoints points);

    <T> List<T> query(Query query, Class<T> tClass);

    void close();

}

@ToString

@Getter

@Setter

@Builder

public class InfluxBean {

    private String url;

    private String username;

    private String password;

    private String dbName;

}

基于docker构建flink大数据处理平台的更多相关文章

视频私有云实战：基于Docker构建点播私有云平台
私有云是为一个客户单独使用而构建的,因而提供对数据.安全性和服务质量的最有效控制.前置条件是客户拥有基础设施,并可以使用基础设施在其上部署应用程序.其核心属性是专有的资源.本篇文章将会结合网易云信的实 ...
DevOps实践之一:基于Docker构建企业Jenkins CI平台
基于Docker构建企业Jenkins CI平台一．什么是CI 持续集成(Continuous integration)是一种软件开发实践,每次集成都通过自动化的构建(包括编译,发布,自动化测试)来 ...
基于 Docker 构建企业 Jenkins CI平台
持续集成(Continuous Integration,CI):代码合并.构建.部署.测试都在一起,不断地执行这个过程,并对结果反馈. 持续部署(Continuous Deployment,CD):部 ...
基于Docker构建企业Jenkins CI平台
【docker构建】基于docker构建wordpress博客网站平台
WordPress是使用PHP语言开发的博客平台,用户可以在支持PHP和MySQL数据库的服务器上架设属于自己的网站.也可以把 WordPress当作一个内容管理系统(CMS)来使用. WordPre ...
【原创】基于Docker的CaaS容器云平台架构设计及市场分析
基于Docker的CaaS容器云平台架构设计及市场分析 ---转载请注明出处,多谢!--- 1 项目背景---概述: “在移动互联网时代,企业需要寻找新的软件交付流程和IT架构,从而实现架构平台化,交 ...
hadoop大数据处理平台与案例
大数据可以说是从搜索引擎诞生之处就有了,我们熟悉的搜索引擎,如百度搜索引擎.360搜索引擎等可以说是大数据技处理技术的最早的也是比较基础的一种应用.大概在2015年大数据都还不是非常火爆,2015年可 ...
互联网大规模数据分析技术（自主模式）第五章大数据平台与技术第10讲大数据处理平台Hadoop
大规模的数据计算对于数据挖掘领域当中的作用.两大主要挑战:第一.如何实现分布式的计算第二.分布式并行编程.Hadoop平台以及Map-reduce的编程方式解决了上面的几个问题.这是谷歌的一个最基本 ...
如何基于Go搭建一个大数据平台
如何基于Go搭建一个大数据平台 - Go中国 - CSDN博客 https://blog.csdn.net/ra681t58cjxsgckj31/article/details/78333775 01 ...

随机推荐

Gvim打造python编辑器,附自己的配置文件
一. Gvim简介 Gvim的G指的是GUI,也就是图形化界面.相当于在vim包了一层图形化界面,相比之下gvim拥有更丰富的颜色和字体,还有菜单和滚动条,以及更友好的鼠标操作等,除此之外和vim并无 ...
go实现多聊天并发服务端
package main import ( "fmt" "net" "time")type Client struct { ch chan ...
Hibernate的关联关系映射
技术分析之Hibernate的关联关系映射之一对多映射(重点) 1. JavaWEB中一对多的设计及其建表原则 2. 先导入SQL的建表语句 ...
Hdfs的HA高可用
1.Hdfs的HA高可用:保证Hdfs高可用,其实就是保证namenode的高可用,保证namenode的高可用的机制有两个,editlog共享机制+ZKFC.ZKFC就是ZookeeperFailO ...
Zookeeper选举（fastleaderelection算法）
1.选举相关概念: 选票:(myid,zxid,当前节点选取轮次,被推举服务器选举轮次,状态(looking)). 选举发生情况:启动时选举,运行时选举. 外部投票:其他服务器发送来的投票. 内部投票 ...
JQuery通过click事件获取当前点击对象的id,name,value属性等
$(".test").click(function () { var val=$(this).attr("id"); })
man、whatis、apropos命令
man命令类似于Linux的帮助文档. 1.man1提供给普通用户的可执行命令说明: 输入man 1 ls 后,结果如下: 结果分析: (1)NAME:命令的名称: (2)SYNOPSIS:参数的使用 ...
【CSS3】新增属性
一. box-shadow(阴影效果) 使用: box-shadow: 20px 10px 0 #000; -moz-box-shadow: 20px 10px 0 #000; -webkit-box ...
2017.10.5 国庆清北 D5T1 拼不出的数
题目描述 3 个元素的集合{5,1,2}的所有子集的和分别是0,1,2,3,5,6,7,8.发现最小的不能由该集合子集拼出的数字是4. 现在给你一个n个元素的集合,问你最小的不能由该集合子集拼出的数字 ...
leetcode 63 简单题
题目很水... 直接放代码了 int uniquePathsWithObstacles(int** obstacleGrid, int obstacleGridRowSize, int obstacl ...

基于docker构建flink大数据处理平台

基于docker构建flink大数据处理平台的更多相关文章

随机推荐

热门专题