概述：Apache Beam WordCount编程实战及源码解读,并通过intellij IDEA和terminal两种方式调试运行WordCount程序，Apache Beam对大数据的批处理和流处理，提供一套先进的统一的编程模型，并可以运行大数据处理引擎上。完整项目Github源码

负责公司大数据处理相关架构，但是具有多样性，极大的增加了开发成本，急需统一编程处理，Apache Beam，一处编程，处处运行，故将折腾成果分享出来。

1.Apache Beam编程实战–前言，Apache Beam的特点与关键概念。

Apache Beam 于2017年1月10日成为Apache新的顶级项目。

1.1.Apache Beam 特点：

统一：对于批处理和流媒体用例使用单个编程模型。
方便：支持多个pipelines环境运行，包括：Apache Apex, Apache Flink, Apache Spark, 和 Google Cloud Dataflow。
可扩展：编写和分享新的SDKs，IO连接器和transformation库

部分翻译摘自官网：Apacher Beam 官网

1.2.Apache Beam关键概念：

1.2.1.Apache Beam SDKs

主要是开发API，为批处理和流处理提供统一的编程模型。目前(2017)支持JAVA语言，而Python正在紧张开发中。

1.2.2. Apache Beam Pipeline Runners(Beam的执行器/执行者们)，支持Apache Apex，Apache Flink，Apache Spark，Google Cloud Dataflow多个大数据计算框架。可谓是一处Apache Beam编程，多计算框架运行。

1.2.3. 他们的对如下的支持情况详见

2.Apache Beam编程实战–Apache Beam源码解读

基于maven,intellij IDEA，pom.xm查看 完整项目Github源码 。直接通过IDEA的项目导入功能即可导入完整项目，等待MAVEN下载依赖包，然后按照如下解读步骤即可顺利运行。

2.1.源码解析-Apache Beam 数据流处理原理解析：

关键步骤：

创建Pipeline
将转换应用于Pipeline
读取输入文件
应用ParDo转换
应用SDK提供的转换（例如：Count）
写出输出
运行Pipeline

2.2.源码解析，完整项目Github源码,附WordCount，pom.xml等

/**

 * MIT.

 * Author: wangxiaolei(王小雷).

 * Date:17-2-20.

 * Project:ApacheBeamWordCount.

 */

import org.apache.beam.sdk.Pipeline;

import org.apache.beam.sdk.io.TextIO;

import org.apache.beam.sdk.options.Default;

import org.apache.beam.sdk.options.Description;

import org.apache.beam.sdk.options.PipelineOptions;

import org.apache.beam.sdk.options.PipelineOptionsFactory;

import org.apache.beam.sdk.options.Validation.Required;

import org.apache.beam.sdk.transforms.Aggregator;

import org.apache.beam.sdk.transforms.Count;

import org.apache.beam.sdk.transforms.DoFn;

import org.apache.beam.sdk.transforms.MapElements;

import org.apache.beam.sdk.transforms.PTransform;

import org.apache.beam.sdk.transforms.ParDo;

import org.apache.beam.sdk.transforms.SimpleFunction;

import org.apache.beam.sdk.transforms.Sum;

import org.apache.beam.sdk.values.KV;

import org.apache.beam.sdk.values.PCollection;

public class WordCount {

    /**

     *1.a.通过Dofn编程Pipeline使得代码很简洁。b.对输入的文本做单词划分，输出。

     */

    static class ExtractWordsFn extends DoFn<String, String> {

        private final Aggregator<Long, Long> emptyLines =

                createAggregator("emptyLines", Sum.ofLongs());

        @ProcessElement

        public void processElement(ProcessContext c) {

            if (c.element().trim().isEmpty()) {

                emptyLines.addValue(1L);

            }

            // 将文本行划分为单词

            String[] words = c.element().split("[^a-zA-Z']+");

            // 输出PCollection中的单词

            for (String word : words) {

                if (!word.isEmpty()) {

                    c.output(word);

                }

            }

        }

    }

    /**

     *2.格式化输入的文本数据，将转换单词为并计数的打印字符串。

     */

    public static class FormatAsTextFn extends SimpleFunction<KV<String, Long>, String> {

        @Override

        public String apply(KV<String, Long> input) {

            return input.getKey() + ": " + input.getValue();

        }

    }

    /**

     *3.单词计数，PTransform(PCollection Transform)将PCollection的文本行转换成格式化的可计数单词。

     */

    public static class CountWords extends PTransform<PCollection<String>,

            PCollection<KV<String, Long>>> {

        @Override

        public PCollection<KV<String, Long>> expand(PCollection<String> lines) {

            // 将文本行转换成单个单词

            PCollection<String> words = lines.apply(

                    ParDo.of(new ExtractWordsFn()));

            // 计算每个单词次数

            PCollection<KV<String, Long>> wordCounts =

                    words.apply(Count.<String>perElement());

            return wordCounts;

        }

    }

    /**

     *4.可以自定义一些选项（Options），比如文件输入输出路径

     */

    public interface WordCountOptions extends PipelineOptions {

        /**

         * 文件输入选项，可以通过命令行传入路径参数，路径默认为gs://apache-beam-samples/shakespeare/kinglear.txt

         */

        @Description("Path of the file to read from")

        @Default.String("gs://apache-beam-samples/shakespeare/kinglear.txt")

        String getInputFile();

        void setInputFile(String value);

        /**

         * 设置结果文件输出路径,在intellij IDEA的运行设置选项中或者在命令行中指定输出文件路径，如./pom.xml

         */

        @Description("Path of the file to write to")

        @Required

        String getOutput();

        void setOutput(String value);

    }

    /**

     * 5.运行程序

     */

    public static void main(String[] args) {

        WordCountOptions options = PipelineOptionsFactory.fromArgs(args).withValidation()

                .as(WordCountOptions.class);

        Pipeline p = Pipeline.create(options);

        p.apply("ReadLines", TextIO.Read.from(options.getInputFile()))

                .apply(new CountWords())

                .apply(MapElements.via(new FormatAsTextFn()))

                .apply("WriteCounts", TextIO.Write.to(options.getOutput()));

        p.run().waitUntilFinish();

    }

}

3.支持Spark，Flink，Apex等大数据数据框架来运行该WordCount程序。完整项目Github源码（推荐，注意`pom.xml`模块加载是否成功，在工具中开发大数据程序，利于调试，开发体验较好）

3.1.intellij IDEA（社区版）中Spark大数据框架运行Pipeline计算程序

Spark运行
- 设置VM options
```
-DPapex-runner
```
- 设置Programe arguments
```
--inputFile=pom.xml --output=counts
```

3.2.intellij IDEA（社区版）中Apex，Flink等支持的大数据框架均可运行WordCount的Pipeline计算程序,完整项目Github源码

Apex运行
- 设置VM options
```
-DPapex-runner
```
- 设置Programe arguments
```
--inputFile=pom.xml --output=counts
```
Flink运行等等
- 设置VM options
```
-DPflink-runner
```
- 设置Programe arguments
```
--inputFile=pom.xml --output=counts
```

4.终端运行（Terminal）（不推荐，第一次下载过程很慢，开发体验较差）

4.1.以下命令是下载官方示例源码，第一次运行下载较慢，如果失败了就多运行几次，（推荐下载，完整项目Github源码）直接用上述解读在intellij IDEA中运行。

mvn archetype:generate       -DarchetypeRepository=https://repository.apache.org/content/groups/snapshots       -DarchetypeGroupId=org.apache.beam       -DarchetypeArtifactId=beam-sdks-java-maven-archetypes-examples       -DarchetypeVersion=LATEST       -DgroupId=org.example       -DartifactId=word-count-beam       -Dversion="0.1"       -Dpackage=org.apache.beam.examples       -DinteractiveMode=false

4.2.打包并运行

mvn compile exec:java -Dexec.mainClass=org.apache.beam.examples.WordCount      -Dexec.args="--runner=SparkRunner --inputFile=pom.xml --output=counts" -Pspark-runner

4.3.成功运行结果

4.3.1.显示运行成功

4.3.2.WordCount输出计算结果

Apache Beam WordCount编程实战及源码解读的更多相关文章

Apache Beam WordCount编程实战及源代码解读
概述:Apache Beam WordCount编程实战及源代码解读,并通过intellij IDEA和terminal两种方式调试执行WordCount程序,Apache Beam对大数据的批处理和 ...
【Android编程实战】源码级免杀_Dex动态加载技术_Metasploit安卓载荷傀儡机代码复现
/文章作者:MG193.7 CNBLOG博客ID:ALDYS4 QQ:3496925334/ 在读者阅读本文章前,建议先阅读笔者之前写的一篇对安卓载荷的分析文章 [逆向&编程实战]Metasp ...
从flink-example分析flink组件(1)WordCount batch实战及源码分析
上一章<windows下flink示例程序的执行> 简单介绍了一下flink在windows下如何通过flink-webui运行已经打包完成的示例程序(jar),那么我们为什么要使用fli ...
并发编程实战-ConcurrentHashMap源码解析
jdk8之前的实现原理 jdk1.7中采用的数据结构是Segment + HashEntry 的方式进行实现.主要的结构如下图: ConcurrentHashMap 并不是将每个方法都在同一个锁上同步 ...
Beam编程系列之Apache Beam WordCount Examples（MinimalWordCount example、WordCount example、Debugging WordCount example、WindowedWordCount example）（官网的推荐步骤）
不多说,直接上干货! https://beam.apache.org/get-started/wordcount-example/ 来自官网的: The WordCount examples demo ...
从flink-example分析flink组件(3)WordCount 流式实战及源码分析
前面介绍了批量处理的WorkCount是如何执行的 <从flink-example分析flink组件(1)WordCount batch实战及源码分析> <从flink-exampl ...
Java生鲜电商平台-电商中海量搜索ElasticSearch架构设计实战与源码解析
Java生鲜电商平台-电商中海量搜索ElasticSearch架构设计实战与源码解析生鲜电商搜索引擎的特点众所周知,标准的搜索引擎主要分成三个大的部分,第一步是爬虫系统,第二步是数据分析,第三步才 ...
cesium编程中级(二)源码编译
cesium编程中级(二)源码编译有些情况下,比如我们自己从Github下载了最新的代码,或者自己临时修改了一点代码,想要编译后的Build文件夹的内容,需要自行编译源码,这里介绍一下编译的方法下 ...
【Java实战】源码解析Java SPI（Service Provider Interface ）机制原理
一.背景知识在阅读开源框架源码时,发现许多框架都支持SPI(Service Provider Interface ),前面有篇文章JDBC对Driver的加载时应用了SPI,参考[Hibernate ...

随机推荐

SpringBoot中集成redis
转载:https://www.cnblogs.com/zeng1994/p/03303c805731afc9aa9c60dbbd32a323.html 不是使用注解而是代码调用需要在springbo ...
odoo开发笔记--form视图自定义
form视图自定义的两种场景: 1. 自己重写form视图样式文件 2. form视图,嵌入第三方的系统.
odoo开发笔记 -- self详解
python中一切皆对象! odoo基于python开发,那么odoo中也可以理解成一切皆对象. 我们在python中定义类的时候,一般会用到self,用来表示当前对象自己. 那么odoo中的self ...
ionic2 关于启动后白屏问题跟app启动慢的问题
问题描述: 在ionic2下创建的项目打包生成apk,运行在真机上,进入启动页然后有5秒左右的白屏情况才进入首页,在真实项目中更严重,启动画面后更有时候十几秒都是白屏,体验性非常差. 在各种搜索之下, ...
linux定时任务执行没结果，手动执行有结果问题总结
今天写了个脚本手动执行有结果,但是放到系统定时任务跑却没结果,之前也遇到这种问题解决了没记录后面又懵逼了一次~~~ 如下图: 手动执行有结果放到定时任务中每五分钟执行一次解决方法: 脚本中加载系统 ...
【转】vmware 安装 osx 无法登录 appstore 的解决办法 (伪造smbios设备信息)
伪造smbios设备信息原文网址:http://www.insanelymac.com/forum/topic/292170-how-to-spoof-real-mac-in-vmware/page ...
iOS逆向开发（1）：基础工具 | ssh | scp | socat
小白:小程,我一直想问,什么是逆向来着?是逆向行驶吗? 小程:理解为逆向行驶也没错.一般的项目是从无到有,而逆向是从已有的状态入手,分析出已有的流程与结构的手段. iOS上的逆向开发,是一件有趣的事情 ...
spring-boot(八) springboot整合shiro-登录认证和权限管理
学习文章:springboot(十四):springboot整合shiro-登录认证和权限管理 Apache Shiro What is Apache Shiro? Apache Shiro是一个功能 ...
Jmeter连接Redis，获取Redis数据集
Redis(REmote DIctionary Server)是一个开源的内存数据结构存储,用作数据库,缓存和消息代理. 本博文是分享jmeter怎么连接使用Redis数据库. 安装Redis数据集J ...
Centos-7修改yum源为国内的yum源
以centos7为例 ,以修改为阿里的yum源 1. 备份本地yum源 [root@localhost yum.repos.d]# cp CentOS-Base.repo CentOS-Base.r ...

Apache Beam WordCount编程实战及源码解读