spark本地开发环境搭建及打包配置

在idea中新建工程

删除新项目的src,创建moudle

在父pom中添加spark和scala依赖,我们项目中用scala开发模型，建议scala，开发体验会更好（java、python也可以）

<?xml version="1.0" encoding="UTF-8"?>

<project xmlns="http://maven.apache.org/POM/4.0.0"

         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">

    <modelVersion>4.0.0</modelVersion>

    <groupId>com.shaozhiqi.bigdata</groupId>

    <artifactId>spark-demo01</artifactId>

    <packaging>pom</packaging>

    <version>1.0-SNAPSHOT</version>

    <modules>

        <module>spark-core</module>

    </modules>

    <properties>

        <maven.compiler.source>1.8</maven.compiler.source>

        <maven.compiler.target>1.8</maven.compiler.target>

        <scala.version>2.11.7</scala.version>

        <spark.version>2.4.3</spark.version>

        <encoding>UTF-8</encoding>

    </properties>

    <dependencies>

        <dependency>

            <groupId>org.scala-lang</groupId>

            <artifactId>scala-library</artifactId>

            <version>${scala.version}</version>

        </dependency>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-core_2.11</artifactId>

            <version>${spark.version}</version>

        </dependency>

    </dependencies>

</project>

在我们Moudle中配置打包插件

<?xml version="1.0" encoding="UTF-8"?>

<project xmlns="http://maven.apache.org/POM/4.0.0"

         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">

    <parent>

        <artifactId>spark-demo01</artifactId>

        <groupId>com.shaozhiqi.bigdata</groupId>

        <version>1.0-SNAPSHOT</version>

    </parent>

    <modelVersion>4.0.0</modelVersion>

    <artifactId>spark-core</artifactId>

    <build>

        <pluginManagement>

            <plugins>

                <!-- 编译scala的插件 -->

                <plugin>

                    <groupId>net.alchim31.maven</groupId>

                    <artifactId>scala-maven-plugin</artifactId>

                    <version>3.2.2</version>

                </plugin>

            </plugins>

        </pluginManagement>

        <plugins>

            <plugin>

                <groupId>net.alchim31.maven</groupId>

                <artifactId>scala-maven-plugin</artifactId>

                <executions>

                    <execution>

                        <id>scala-compile-first</id>

                        <phase>process-resources</phase>

                        <goals>

                            <goal>add-source</goal>

                            <goal>compile</goal>

                        </goals>

                    </execution>

                    <execution>

                        <id>scala-test-compile</id>

                        <phase>process-test-resources</phase>

                        <goals>

                            <goal>testCompile</goal>

                        </goals>

                    </execution>

                </executions>

            </plugin>

            <plugin>

                <groupId>org.apache.maven.plugins</groupId>

                <artifactId>maven-compiler-plugin</artifactId>

                <executions>

                    <execution>

                        <phase>compile</phase>

                        <goals>

                            <goal>compile</goal>

                        </goals>

                    </execution>

                </executions>

            </plugin>

            <!-- 打包插件 -->

            <plugin>

                <groupId>org.apache.maven.plugins</groupId>

                <artifactId>maven-shade-plugin</artifactId>

                <version>3.2.1</version>

                <configuration>

                    <transformers>

                        <!-- add Main-Class to manifest file -->

                        <transformer implementation="org.apache.maven.plugins.shade.resource.ManifestResourceTransformer">

                            <!--you can add you want to need   the main class--><!---->

                            <mainClass>com.shaozhiqi.bigdata.spark.WordCount</mainClass>

                        </transformer>

                    </transformers>

                    <createDependencyReducedPom>false</createDependencyReducedPom>

                </configuration>

                <executions>

                    <execution>

                        <phase>package</phase>

                        <goals>

                            <goal>shade</goal>

                        </goals>

                        <configuration>

                            <filters>

                                <filter>

                                    <artifact>*:*</artifact>

                                    <excludes>

                                        <exclude>META-INF/*.SF</exclude>

                                        <exclude>META-INF/*.DSA</exclude>

                                        <exclude>META-INF/*.RSA</exclude>

                                    </excludes>

                                </filter>

                            </filters>

                        </configuration>

                    </execution>

                </executions>

            </plugin>

        </plugins>

    </build>

</project>

安装scala开发插件到idea

安装后重启

设置scalasdk,选我们新建的moudle

image.png

新建scala对象

编写代码：

 def main(args: Array[String]): Unit = {

    //1.创建配置信息

    val conf =new SparkConf().setAppName("wordcount").setMaster("local[*]")

    //2.创建sparkcontext

    val sc= new SparkContext(conf)

    //3.处理业务数据，我们统计每个单词的个数

    // 我们要在集群上尝试所以就将textFile的参数参数化，如果在本地执行则写本地的绝对路径

    val lines=sc.textFile("G:\\temp\\input.txt")

    val words=lines.flatMap(_.split(" "))

    val keyMap=words.map((_, 1))

    val result =keyMap.reduceByKey(_+_)

    result.foreach(println)

    //4.关闭连接

    sc.stop()

  }

本地调测试

(1233,1)

(llll,1)

(hhh,1)

(ddd,2)

(55,2)

(,1)

(kkkk,1)

(jjj,1)

spark本地开发环境搭建及打包配置的更多相关文章

spark-windows（含eclipse配置）下本地开发环境搭建
spark-windows(含eclipse配置)下本地开发环境搭建 >>>>>>注意:这里忽略JDK的安装,JDK要求是1.8及以上版本,请通过 java ...
spark JAVA 开发环境搭建及远程调试
spark JAVA 开发环境搭建及远程调试以后要在项目中使用Spark 用户昵称文本做一下聚类分析,找出一些违规的昵称信息.以前折腾过Hadoop,于是看了下Spark官网的文档以及 github ...
手把手教你 Apache DolphinScheduler 本地开发环境搭建 | 中英文视频教程
点击上方蓝字关注我们最近,一些小伙伴反馈对小海豚的本地开发环境搭建过程不太了解,这不就有活跃的贡献者送来新鲜的视频教程!在此感谢@Tianqi-Dotes 的细致讲解贡献者还贴心地录制了中英文两 ...
【OpenStack】OpenStack系列1之OpenStack本地开发环境搭建&&向社区贡献代码
加入OpenStack社区 https://launchpad.net/,注册用户(597092663@qq.com/Admin@123) 修改个人信息,配置SSH keys.OpenPGP keys ...
Windows下基于eclipse的Spark应用开发环境搭建
原创文章,转载请注明: 转载自www.cnblogs.com/tovin/p/3822985.html 一.软件下载 maven下载安装 :http://10.100.209.243/share/so ...
本地开发环境搭建(windows)
一.虚拟器安装 1.概念・为什么要搭建搭建模拟环境在租借服务器前用手中的PC模拟一个服务器的环境,可以打包与团队人员分享・什么是Vagrant https://segmentfault.com/ ...
使用wifi网卡笔记1----网卡选型、开发环境搭建、内核配置
1.wifi的STA模式和AP模式 Ap(Access Point)模式指的是可以将网卡设置为路由器用来共享流量或有线网络给别人使用, sta模式指的是当做网卡连接路由器上网 (1):AP也就是无线接 ...
Linux巩固记录（1） J2EE开发环境搭建及网络配置
由于要近期使用hadoop等进行相关任务执行,操作linux时候就多了以前只在linux上配置J2EE项目执行环境,无非配置下jdk,部署tomcat,再通过docker或者jenkins自动部署上 ...
Spark程序开发-环境搭建-程序编写-Debug调试-项目提交
1,使用IDEA软件进行开发. 在idea中新建scala project, File-->New-->Project.选择Scala-->Scala 2,在编辑窗口中完成Word ...

随机推荐

什么是yarn,如何使用yarn安装项目依赖
一.yarn的简介: Yarn是facebook发布的一款取代npm的包管理工具. 二.yarn的特点: 1.速度超快. Yarn 缓存了每个下载过的包,所以再次使用时无需重复下载. 同时利用并行下载 ...
测试必知必会系列- Linux常用命令 - ps（重点）
21篇测试必备的Linux常用命令,每天敲一篇,每次敲三遍,每月一循环,全都可记住!! https://www.cnblogs.com/poloyy/category/1672457.html 查看所 ...
SQL常见错误总结
目录语法错误标点错漏重命名数据拼接 null值逻辑顺序函数错误参数的数量参数的格式逻辑错误数据重复无效筛选标签重叠时间错位 SQL是数据分析中最高频的操作之一,本文梳理常见的 ...
给 ABP vNext 应用安装私信模块
在上一节五分钟完成 ABP vNext 通讯录 App 开发中,我们用完成了通讯录 App 的基础开发. 这本章节,我们会给通讯录 App 安装私信模块,使不同用户能够通过相互发送消息,并接收新私信 ...
P1361 小M的作物【网络流】【最小割】
题目描述小M在MC里开辟了两块巨大的耕地A和B(你可以认为容量是无穷),现在,小P有n中作物的种子,每种作物的种子有1个(就是可以种一棵作物)(用1...n编号). 现在,第i种作物种植在A中种植可 ...
题解 P3205 【[HNOI2010]合唱队】
讲讲我的做法看了题目发现要用区间\(dp\),为什么? 我们发现区间\(dp\)有一个性质--大区间包涵小区间,这道题就符合这样的一个性质所以我们要用区间\(dp\)来解决这道题. 如何设计状态 ...
python-神奇的下划线
2019-12-16 22:45:29 python中下划线有各种各样的作用,本章就来分别介绍一下各种下划线的功能. 一.开头单下划线 _VAR 开头单下划线还是挺常用的,在类中表示为保护变量/保护函 ...
junit Mockito使用入门
junit Mockito使用入门准备在我们进一步讨论之前,让我们探索几种不同的方法来启用Mockito测试中注释的使用. 方式一 MockitoJUnitRunner 我们拥有的第一个选择是使用 ...
effective-java学习笔记---优先使用泛型方法30
泛型类型比需要在客户端代码中强制转换的类型更安全,更易于使用. 当你设计新的类型时,确保它们可以在没有这种强制转换的情况下使用. 这通常意味着使类型泛型化. 如果你有任何现有的类型,应该是泛型的但实际 ...
学界！关于GAN的灵魂七问
根据一些指标显示,关于生成对抗网络(GAN)的研究在过去两年间取得了本质的进步.在图像合成模型实践中的进步快到几乎无法跟上. 但是,根据其他指标来看,实质性的改进还是较少.例如,在应如何评价生成对抗网 ...

spark本地开发环境搭建及打包配置

在idea中新建工程

删除新项目的src,创建moudle

在父pom中添加spark和scala依赖,我们项目中用scala开发模型，建议scala，开发体验会更好（java、python也可以）

在我们Moudle中配置打包插件

安装scala开发插件到idea

安装后重启

新建scala对象

编写代码：

本地调测试

spark本地开发环境搭建及打包配置的更多相关文章

随机推荐

热门专题