[Flink]Flink三种运行模式安装部署以及实现WordCount

前言

Flink三种运行方式：Local、Standalone、On Yarn。成功部署后分别用Scala和Java实现wordcount

环境

版本：Flink 1.6.2
集群环境：Hadoop2.6
开发工具: IntelliJ IDEA

一.Local模式

解压：tar -zxvf flink-1.6.2-bin-hadoop26-scala_2.11.tgz
cd flink-1.6.2
启动：./bin/start-cluster.sh
停止：./bin/stop-cluster.sh

可以通过master：8081监控集群状态

二.Standalone模式

集群安装
1：修改conf/flink-conf.yaml
jobmanager.rpc.address: hadoop100
2：修改conf/slaves
hadoop101
hadoop102
3：拷贝到其他节点
scp -rq /usr/local/flink-1.6.2 hadoop101:/usr/local
scp -rq /usr/local/flink-1.6.2 hadoop102:/usr/local
4：在hadoop100(master)节点启动
bin/start-cluster.sh
5：访问http://hadoop100:8081

三.Flink On Yarn模式

On Yarn实现逻辑

第一种【yarn-session.sh(开辟资源)+flink run(提交任务)】

启动一个一直运行的flink集群
./bin/yarn-session.sh -n 2 -jm 1024 -tm 1024 [-d]
附着到一个已存在的flink yarn session
./bin/yarn-session.sh -id application_1463870264508_0029
执行任务
./bin/flink run ./examples/batch/WordCount.jar -input hdfs://hadoop100:9000/LICENSE -output hdfs://hadoop100:9000/wordcount-result.txt
停止任务【web界面或者命令行执行cancel命令】

第二种【flink run -m yarn-cluster(开辟资源+提交任务)】

启动集群，执行任务
./bin/flink run -m yarn-cluster -yn 2 -yjm 1024 -ytm 1024 ./examples/batch/WordCount.jar
注意：client端必须要设置YARN_CONF_DIR或者HADOOP_CONF_DIR或者HADOOP_HOME环境变量，通过这个环境变量来读取YARN和HDFS的配置信息，否则启动会失败

四.WordCount

代码

Scala实现代码

package com.skyell

import org.apache.flink.api.java.utils.ParameterTool

import org.apache.flink.streaming.api.scala.StreamExecutionEnvironment

import org.apache.flink.streaming.api.windowing.time.Time

/**

  * 滑动窗口计算

  *

  * 每隔1秒统计最近2秒数据，打印到控制台

  */

object SocketWindowWordCountScala {

  def main(args: Array[String]): Unit = {

    // 获取socket端口号

    val port: Int = try{

      ParameterTool.fromArgs(args).getInt("port")

    }catch {

      case e: Exception => {

        System.err.println("No port set use default port 9002--scala")

      }

        9002

    }

    // 获取运行环境

    val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment

    // 连接socket获取数据

    val text = env.socketTextStream("master", port, '\n')

    //添加隐式转换,否则会报错

    import org.apache.flink.api.scala._

    // 解析数据(把数据打平），分组,窗口计算，并且聚合求sum

    val windowCount = text.flatMap(line => line.split("\\s"))

      .map(w => WordWithCount(w, 1))

      .keyBy("word") // 针对相同word进行分组

      .timeWindow(Time.seconds(2), Time.seconds(1))// 窗口时间函数

      .sum("count")

    windowCount.print().setParallelism(1)  // 设置并行度为1

    env.execute("Socket window count")

  }

  // case 定义的类可以直接调用，不用new

  case class WordWithCount(word:String,count: Long)

}

Java实现代码

package com.skyell;

import org.apache.flink.api.common.functions.FlatMapFunction;

import org.apache.flink.api.java.DataSet;

import org.apache.flink.api.java.ExecutionEnvironment;

import org.apache.flink.api.java.operators.DataSource;

import org.apache.flink.api.java.tuple.Tuple2;

import org.apache.flink.util.Collector;

public class BatchWordCountJava {

    public static void main(String[] args) throws Exception{

        String inputPath = "D:\\DATA\\file";

        String outPath = "D:\\DATA\\result";

        // 获取运行环境

        ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();

        // 读取本地文件中内容

        DataSource<String> text = env.readTextFile(inputPath);

        // groupBy(0):从0聚合  sum(1):以第二个字段加和计算

        DataSet<Tuple2<String, Integer>> counts = text.flatMap(new Tokenizer()).groupBy(0).sum(1);

        counts.writeAsCsv(outPath, "\n", " ").setParallelism(1);

        env.execute("batch word count");

    }

    public static class Tokenizer implements FlatMapFunction<String, Tuple2<String,Integer>>{

        public void flatMap(String value, Collector<Tuple2<String, Integer>> out) throws Exception {

            String[] tokens = value.toLowerCase().split("\\W+");

            for (String token: tokens

                 ) {

                if(token.length()>0){

                    out.collect(new Tuple2<String, Integer>(token, 1));

                }

            }

        }

    }

}

pom依赖配置

    <dependency>

            <groupId>org.apache.flink</groupId>

            <artifactId>flink-java</artifactId>

            <version>1.6.2</version>

            <scope>provided</scope>

        </dependency>

        <dependency>

            <groupId>org.apache.flink</groupId>

            <artifactId>flink-streaming-java_2.11</artifactId>

            <version>1.6.2</version>

            <scope>provided</scope>

        </dependency>

        <dependency>

            <groupId>org.apache.flink</groupId>

            <artifactId>flink-scala_2.11</artifactId>

            <version>1.6.2</version>

            <scope>provided</scope>

        </dependency>

        <dependency>

            <groupId>org.apache.flink</groupId>

            <artifactId>flink-streaming-scala_2.11</artifactId>

            <version>1.6.2</version>

            <scope>provided</scope>

        </dependency>

hadoop记录-[Flink]Flink三种运行模式安装部署以及实现WordCount（转载）的更多相关文章

[Flink]Flink1.6三种运行模式安装部署以及实现WordCount
前言 Flink三种运行方式:Local.Standalone.On Yarn.成功部署后分别用Scala和Java实现wordcount 环境版本:Flink 1.6.2 集群环境:Hadoop2 ...
ubuntu上Hadoop三种运行模式的部署
Hadoop集群支持三种运行模式:单机模式.伪分布式模式,全分布式模式,下面介绍下在Ubuntu下的部署 (1)单机模式默认情况下,Hadoop被配置成一个以非分布式模式运行的独立JAVA进程,适合 ...
hadoop集群的三种运行模式
单机(本地)模式: 这种模式在一台单机上运行,没有分布式文件系统,而是直接读写本地操作系统的文件系统.在单机模式(standalone)中不会存在守护进程,所有东西都运行在一个JVM上.这里同样没有D ...
PHP语言学习之php-fpm 三种运行模式
本文主要向大家介绍了PHP语言学习之php-fpm 三种运行模式,通过具体的内容向大家展示,希望对大家学习php语言有所帮助. php-fpm配置配置文件:php-fpm.conf 开启慢日志功能的 ...
Tomcat Connector的三种运行模式
详情参考: http://tomcat.apache.org/tomcat-7.0-doc/apr.html http://www.365mini.com/page/tomcat-connector- ...
【Tomcat】Tomcat Connector的三种运行模式【bio、nio、apr】
Tomcat Connector(Tomcat连接器)有bio.nio.apr三种运行模式 bio bio(blocking I/O,阻塞式I/O操作),表示Tomcat使用的是传统的Java I/O ...
Tomcat Connector三种运行模式（BIO, NIO, APR）的比较和优化
Tomcat Connector的三种不同的运行模式性能相差很大,有人测试过的结果如下: 这三种模式的不同之处如下: BIO: 一个线程处理一个请求.缺点:并发量高时,线程数较多,浪费资源. Tomc ...
php-fpm 三种运行模式
php-fpm配置配置文件:php-fpm.conf 开启慢日志功能的: slowlog = /usr/local/var/log/php-fpm.log.slowrequest_slowlog_t ...
php-fpm三种运行模式
php-fpm配置配置文件:php-fpm.conf 开启慢日志功能的: slowlog = /usr/local/var/log/php-fpm.log.slowrequest_slowlog_t ...

随机推荐

（java）selenium webdriver学习，选择模块，点击下一页，获取当前url
selenium webdriver学习,选择模块,点击下一页,获取当前url 查找下一页有多种方法,这里列举两种: isSelected()函数用于判断是否点击选中,返回Boolean类型 impo ...
RabbitMQ交换机、RabbitMQ整合springCloud
目标 1.交换机 2.RabbitMQ整合springCloud 交换机蓝色区域===生产者红色区域===Server:又称Broker,接受客户端的连接,实现AMQP实体服务绿色区域===消费 ...
Logstash 安装配置使用
一.Windows下安装运行官网下载,下载与elasticSearch同一个版本,zip格式.Logstash占用内存较大,我在使用的时候cpu一般都是冲到90% 1.CMD直接运行创建一个基本的 ...
Matlab中矩阵的数据结构
在Matlab中,矩阵默认的数据类型是double, 并不是integer. 而且奇怪的是,矩阵乘法默认按照浮点数类型进行, 整数矩阵相乘会报错.另外,可以用a= int16(A)这种形式实现数据类型 ...
大数据技术之kettle（2）——练习三个基本操作
一.同一数据库两表数据关联更新实现效果:把stu1的数据按id同步到stu2,stu2有相同id则更新数据步骤: 1.在mysql中创建两张表: mysql>create database ...
深度学习面试题16：小卷积核级联卷积VS大卷积核卷积
目录感受野多个小卷积核连续卷积和单个大卷积核卷积的作用相同小卷积核的优势参考资料感受野在卷积神经网络中,感受野(Receptive Field)的定义是卷积神经网络每一层输出的特征图(fe ...
gisoracle做windows界面
import tkinter as tk from tkinter import messagebox # 设置窗口居中 def window_info(): ws = window.winfo_sc ...
屏幕录制 -- web前端
前端使用html5.ffmpeg实现录屏摄像等功能 https://tong-h.github.io/2018/11/06/streamcapture/ JSCapture – 基于 HTML5 实现 ...
第2课第2节_Java面向对象编程_封装性_P【学习笔记】
摘要:韦东山android视频学习笔记面向对象程序的三大特性之封装性:把属性和方法封装在一个整体,同时添加权限访问. 1.封装性的简单程序如下,看一下第19行,如果我们不对age变量进行权限的管控 ...
微信小程序-收货地址左滑删除
我参照了其中的部分代码,如:bindtouchstart,bindtouchmove,bindtouchend事件多数组中偏移值的更改, 在结合微信 movable-area 和 movable-vi ...

hadoop记录-[Flink]Flink三种运行模式安装部署以及实现WordCount（转载）