Flink的分布式缓存

分布式缓存

Flink提供了一个分布式缓存，类似于hadoop，可以使用户在并行函数中很方便的读取本地文件，并把它放在taskmanager节点中，防止task重复拉取。
此缓存的工作机制如下：程序注册一个文件或者目录(本地或者远程文件系统，例如hdfs或者s3)，通过ExecutionEnvironment注册缓存文件并为它起一个名称。
当程序执行，Flink自动将文件或者目录复制到所有taskmanager节点的本地文件系统，仅会执行一次。用户可以通过这个指定的名称查找文件或者目录，然后从taskmanager节点的本地文件系统访问它。

示例

在ExecutionEnvironment中注册一个文件：

//获取运行环境

ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();

//1：注册一个文件,可以使用hdfs上的文件 也可以是本地文件进行测试

env.registerCachedFile("/Users/wangzhiwu/WorkSpace/quickstart/text","a.txt");

在用户函数中访问缓存文件或者目录(这里是一个map函数)。这个函数必须继承RichFunction,因为它需要使用RuntimeContext读取数据:

DataSet<String> result = data.map(new RichMapFunction<String, String>() {

            private ArrayList<String> dataList = new ArrayList<String>();

            @Override

            public void open(Configuration parameters) throws Exception {

                super.open(parameters);

                //2：使用文件

                File myFile = getRuntimeContext().getDistributedCache().getFile("a.txt");

                List<String> lines = FileUtils.readLines(myFile);

                for (String line : lines) {

                    this.dataList.add(line);

                    System.err.println("分布式缓存为:" + line);

                }

            }

            @Override

            public String map(String value) throws Exception {

                //在这里就可以使用dataList

                System.err.println("使用datalist：" + dataList + "------------" +value);

                //业务逻辑

                return dataList +"：" +  value;

            }

        });

        result.printToErr();

    }

完整代码如下,仔细看注释：



public class DisCacheTest {

    public static void main(String[] args) throws Exception{

        //获取运行环境

        ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();

        //1：注册一个文件,可以使用hdfs上的文件 也可以是本地文件进行测试

      //text 中有4个单词:hello flink hello FLINK env.registerCachedFile("/Users/wangzhiwu/WorkSpace/quickstart/text","a.txt");

        DataSource<String> data = env.fromElements("a", "b", "c", "d");

        DataSet<String> result = data.map(new RichMapFunction<String, String>() {

            private ArrayList<String> dataList = new ArrayList<String>();

            @Override

            public void open(Configuration parameters) throws Exception {

                super.open(parameters);

                //2：使用文件

                File myFile = getRuntimeContext().getDistributedCache().getFile("a.txt");

                List<String> lines = FileUtils.readLines(myFile);

                for (String line : lines) {

                    this.dataList.add(line);

                    System.err.println("分布式缓存为:" + line);

                }

            }

            @Override

            public String map(String value) throws Exception {

                //在这里就可以使用dataList

                System.err.println("使用datalist：" + dataList + "------------" +value);

                //业务逻辑

                return dataList +"：" +  value;

            }

        });

        result.printToErr();

    }

}//

输出结果如下：

[hello, flink, hello, FLINK]：a

[hello, flink, hello, FLINK]：b

[hello, flink, hello, FLINK]：c

[hello, flink, hello, FLINK]：d

公众号推荐

全网唯一一个从0开始帮助Java开发者转做大数据领域的公众号~
海量【java和大数据的面试题+视频资料】整理在公众号，关注后可以下载~
更多大数据技术欢迎和作者一起探讨~

image

Flink的分布式缓存的更多相关文章

Flink分布式缓存Distributed Cache
1 分布式缓存 Flink提供了一个分布式缓存,类似于hadoop,可以使用户在并行函数中很方便的读取本地文件,并把它放在taskmanager节点中,防止task重复拉取. 此缓存的工作机制如下:程 ...
7-Flink的分布式缓存
分布式缓存 Flink提供了一个分布式缓存,类似于hadoop,可以使用户在并行函数中很方便的读取本地文件,并把它放在taskmanager节点中,防止task重复拉取. 此缓存的工作机制如下:程序注 ...
.net 分布式架构之分布式缓存中间件
开源git地址: http://git.oschina.net/chejiangyi/XXF.BaseService.DistributedCache 分布式缓存中间件方便实现缓存的分布式,集群, ...
CRL快速开发框架系列教程六(分布式缓存解决方案)
本系列目录 CRL快速开发框架系列教程一(Code First数据表不需再关心) CRL快速开发框架系列教程二(基于Lambda表达式查询) CRL快速开发框架系列教程三(更新数据) CRL快速开发框 ...
一个技术汪的开源梦 —— 公共组件缓存之分布式缓存 Redis 实现篇
Redis 安装 & 配置本测试环境将在 CentOS 7 x64 上安装最新版本的 Redis. 1. 运行以下命令安装 Redis $ wget http://download.redi ...
ASP.Net MVC4+Memcached+CodeFirst实现分布式缓存
ASP.Net MVC4+Memcached+CodeFirst实现分布式缓存 part 1:给我点时间,允许我感慨一下2016年正好有时间,总结一下最近使用的一些技术,也算是为2016年画上一个完 ...
CYQ.Data V5 分布式缓存Redis应用开发及实现算法原理介绍
前言: 自从CYQ.Data框架出了数据库读写分离.分布式缓存MemCache.自动缓存等大功能之后,就进入了频繁的细节打磨优化阶段. 从以下的更新列表就可以看出来了,3个月更新了100条次功能: 3 ...
CYQ.Data V5 分布式缓存MemCached应用开发介绍
前言今天大伙还在热议关于.NET Core的东西,我只想说一句:在.NET 跨平台叫了这么多年间,其实人们期待的是一个知名的跨平台案例,而不是一堆能跨平台的消息. 好,回头说说框架: 在框架完成数据 ...
C# Azure 存储-分布式缓存Redis在session中的配置
1. 开始对于分布式的缓存,平常的session的处理是一个用户对应一台分布式的机器,如果这台机器中途挂机或者不能处理这个用户session的情况发生,则此用户的session会丢失,会发生不可预知 ...

随机推荐

heartbeat.go
body: %s", resp.StatusCode, body) } return nil }
BZOJ_1009_[HNOI2008]GT考试_KMP+矩阵乘法
BZOJ_1009_[HNOI2008]GT考试_KMP+矩阵乘法 Description 阿申准备报名参加GT考试,准考证号为N位数X1X2....Xn(0<=Xi<=9),他不希望准考 ...
BZOJ_1827_[Usaco2010 Mar]gather 奶牛大集会_树形DP
BZOJ_1827_[Usaco2010 Mar]gather 奶牛大集会_树形DP 题意:Bessie正在计划一年一度的奶牛大集会,来自全国各地的奶牛将来参加这一次集会.当然,她会选择最方便的地点来 ...
Python爬虫入门教程 64-100 反爬教科书级别的网站-汽车之家，字体反爬之二
说说这个网站汽车之家,反爬神一般的存在,字体反爬的鼻祖网站,这个网站的开发团队,一定擅长前端吧,2019年4月19日开始写这篇博客,不保证这个代码可以存活到月底,希望后来爬虫coder,继续和汽车之 ...
使用vue开发项目需要注意的问题和可能踩到的坑
最近,在公司给一些刚刚使用vue进行开发的同学做了一次分享, 其中包括一些vue开发中需要注意的点, 以及一些可能会踩到的坑.具体内容如下: 一.生命钩子使用需要注意的地方 1.beforeCreat ...
Python基础面试，看这篇文章画重点吧，Python面试题No1
为什么有这个系列的文章一直想写一些更加基础的文章,但是总是想不到好的点子,最近到了就业季,一大堆学生面临就业了,正好,从Python的面试题出发,分析和解答一些常见的面试题,并且总结一些文字. 每一 ...
[Hyperledger] Fabric系统中 peer模块的 gossip服务详解
最近一直在看fabric系统中的核心模块之一——peer模块.在看peer的配置文件core.yaml的信息时,对其中的gossip配置选项很感兴趣.看了一上午,还是不能明白这个选项到底什么意思呢?表 ...
es6学习笔记-class之继承
继承上一篇学习了class的概念,在es5时,对象的继承有好几种,原型链继承,借用构造函数继承,组合继承,原型式继承,寄生式继承以及寄生组合式继承,都是按照函数的形式去集成的,现在class也有它的 ...
已实现乐观锁功能，FreeSql.DbContext 准备起航
上回说到 FreeSql.DbContext 的规则,以及演示它的执行过程,可惜当时还不支持"乐观锁",对于更新数据来讲并不安全. FreeSql 核心库 v0.3.27 已提供乐 ...
如何在CentOS上创建Kubernetes集群
欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文由编程男孩发表于云+社区专栏介绍 Kubernetes(常简称为K8s)是用于自动部署.扩展和管理容器化(containerized ...

Flink的分布式缓存

分布式缓存

示例

公众号推荐

Flink的分布式缓存的更多相关文章

随机推荐

热门专题