首先在Linux环境安装spark:

可以从如下地址下载最新版本的spark:

https://spark.apache.org/downloads.html  

这个下载下来后是个tgz的压缩包,解压后spark环境就安装好了

或者从github上下载:

#git clone git://github.com/apache/spark.git  

安装好后,进入到spark的根目录,就可以通过spark提供的一些脚本命令行来用spark进行计算了,一个例子

./bin/spark-submit examples/src/main/python/pi.py 10  

这个例子是,可以给脚本命令传入python脚本参数来计算,当然也可以传入Java的jar包参数来计算,即如何计算是通过传入python脚本或者Java类来定义的,

python脚本用spark提供的python api编写,入口是main函数

java类用spark提供的java api来编写,入口也是main函数,要将java类及其依赖的jar包打成jar

下面主要说下在IntelliJ idea中用Java在本地进行spark计算(单线程)

首先需要在pom文件中引入如下两个依赖:

<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.11</artifactId>
<version>2.2.0</version>
</dependency> <dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-sql_2.11</artifactId>
<version>2.2.0</version>
</dependency>

Java测试类如下:

功能:分别计算testfile.txt文件中包含字符a和b的行数

package com.sogou.baike;  

import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.SparkSession; /**
* Hello world!
*
*/
public class SimpleApp {
public static void main( String[] args ) {
System.setProperty("hadoop.home.dir", "D:\\software\\hadoop-home\\");
String logFile = "D:\\testfile.txt";
SparkSession spark = SparkSession.builder().master("local").appName("Simple Application").getOrCreate();
Dataset<String> logData = spark.read().textFile(logFile).cache();
long numAs = logData.filter(s->s.contains("a")).count();
long numBs = logData.filter(s->s.contains("b")).count();
System.out.println("a: " + numAs + ", b: " + numBs);
spark.stop();
}
}

上面是我已经完全配置好的代码,我最开始运行的过程中遇到了四个错误

第一个错误:

idea不支持java8的新特性lambda表达式

解决办法:参考我的另外一篇博客:

http://blog.csdn.net/u011734144/article/details/77867697  

第二个错误:

Could not locate executable null\bin\winutils.exe in the Hadoop binaries  

解决办法:

到如下地址下载winutils.exe文件, http://public-repo-1.hortonworks.com/hdp-win-alpha/winutils.exe

并保存到如下路径(自行保存路径):

D:\\software\\hadoop-home\\  

然后在代码中加上这行:

System.setProperty("hadoop.home.dir", "D:\\software\\hadoop-home\\"); 

这是配置winutils.exe文件的路径,但是要把winutils.exe文件放到上述目录下的bin/目录中

第三个错误:(这个错误是没有配置spark的集群地址)

org.apache.spark.SparkException: A master URL must be set in your configuration

解决办法:

可以通过修改idea的配置来解决,实际就是添加jvm的参数配置:

点击idea的Edit Configuration, 在VM options中输入

-Dspark.master=local  

也可以通过修改这行代码:

SparkSession spark = SparkSession.builder().master("local").appName("Simple Application").getOrCreate();  

上面是修改后的,即加上master("local") 就不会报这个错误了,这个表示spark计算访问的是本地spark,而不是远程spark集群

第四个错误:

Exception in thread "main" java.lang.IllegalArgumentException: System memory 259522560 must be at least 471859200. Please increase heap size using the --driver-memory option or spark.driver.memory in Spark configuration.
at org.apache.spark.memory.UnifiedMemoryManager$.getMaxMemory(UnifiedMemoryManager.scala:217)
at org.apache.spark.memory.UnifiedMemoryManager$.apply(UnifiedMemoryManager.scala:199)
at org.apache.spark.SparkEnv$.create(SparkEnv.scala:332)
at org.apache.spark.SparkEnv$.createDriverEnv(SparkEnv.scala:175)
at org.apache.spark.SparkContext.createSparkEnv(SparkContext.scala:257)
at org.apache.spark.SparkContext.<init>(SparkContext.scala:432)
at org.apache.spark.SparkContext$.getOrCreate(SparkContext.scala:2509)
at org.apache.spark.sql.SparkSession$Builder$$anonfun$6.apply(SparkSession.scala:909)
at org.apache.spark.sql.SparkSession$Builder$$anonfun$6.apply(SparkSession.scala:901)
at scala.Option.getOrElse(Option.scala:121)
at org.apache.spark.sql.SparkSession$Builder.getOrCreate(SparkSession.scala:901)
at com.sogou.baike.SimpleApp.main(SimpleApp.java:14)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:497)
at com.intellij.rt.execution.application.AppMain.main(AppMain.java:147)

这个说的是项目需要的堆空间太小,所以需要配置java 虚拟机的参数

解决办法:如上,在VM options中添加配置初始堆和最大堆的大小:

-Xms1024m -Xmx1024m  

所以最终的java虚拟机的参数内容为:

-Dspark.master=local  -Xms1024m -Xmx1024m  

上面这种方式的spark计算是在本地执行的,是单线程的

我们其实可以将上述java代码打包成jar包,然后用上面安装好的spark的命令./bin/spark-shell 来执行spark计算,并且可以用该命令将计算提交到集群上计算,加快速度

注意spark命令要运行必须配置JAVA_HOME为java8

Java进行spark计算的更多相关文章

  1. 在IntelliJ IDEA中创建和运行java/scala/spark程序

    本文将分两部分来介绍如何在IntelliJ IDEA中运行Java/Scala/Spark程序: 基本概念介绍 在IntelliJ IDEA中创建和运行java/scala/spark程序 基本概念介 ...

  2. 【Java】Float计算不准确

    大家可能都遇到过,float在计算某些值时,会有不准确的情况. 比如如下情况: > 计算不准确 package com.nicchagil.study.java.demo.No10float计算 ...

  3. java+hadoop+spark+hbase+scala+kafka+zookeeper配置环境变量记录备忘

    java+hadoop+spark+hbase+scala 在/etc/profile 下面加上如下环境变量 export JAVA_HOME=/usr/java/jdk1.8.0_102 expor ...

  4. Spark计算模型

    [TOC] Spark计算模型 Spark程序模型 一个经典的示例模型 SparkContext中的textFile函数从HDFS读取日志文件,输出变量file var file = sc.textF ...

  5. spark计算两个DataFrame的差集、交集、合集

    spark 计算两个dataframe 的差集.交集.合集,只选择某一列来对比比较好.新建两个 dataframe : import org.apache.spark.{SparkConf, Spar ...

  6. 【原创 Hadoop&Spark 动手实践 7】Spark 计算引擎剖析与动手实践

    [原创 Hadoop&Spark 动手实践 7]Spark计算引擎剖析与动手实践 目标: 1. 理解Spark计算引擎的理论知识 2. 动手实践更深入的理解Spark计算引擎的细节 3. 通过 ...

  7. 【Spark深入学习 -13】Spark计算引擎剖析

    ----本节内容------- 1.遗留问题解答 2.Spark核心概念 2.1 RDD及RDD操作 2.2 Transformation和Action 2.3 Spark程序架构 2.4 Spark ...

  8. Java闰年的计算,Calendar的用法

    Java闰年的计算,Calendar的用法 代码如下: package com.aaa.zuoye; import java.text.ParseException; import java.util ...

  9. Java基础-时间复杂度计算方式

    Java基础-时间复杂度计算方式 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任.   时间复杂度通常是衡量算法的优劣的,衡量算法的时间严格来讲是很难衡量的,由于不同的机器性能不用环境 ...

随机推荐

  1. 从头到尾测地理解KMP算法【转】

    本文转载自:http://blog.csdn.net/v_july_v/article/details/7041827 1. 引言 本KMP原文最初写于2年多前的2011年12月,因当时初次接触KMP ...

  2. Matlab绘图基础——利用axes(坐标系图形对象)绘制重叠图像 及 一图多轴(一幅图绘制多个坐标轴)

    描述 axes在当前窗口中创建一个包含默认属性坐标系 axes('PropertyName',propertyvalue,...)创建坐标系时,同时指定它的一些属性,没有指定的使用DefaultAxe ...

  3. Codeforces Round #419 (Div. 2) A. Karen and Morning(模拟)

    http://codeforces.com/contest/816/problem/A 题意: 给出一个时间,问最少过多少时间后是回文串. 思路: 模拟,先把小时的逆串计算出来: ① 如果逆串=分钟, ...

  4. 使用javascript模拟常见数据结构(三)

    六.字典和散列表 我们已经知道,集合表示一组互不相同的元素(不重复元素).在字典中,存储的是键值对,其中键值是用来查询特定的元素的.字典和集合是很相似的,集合采用[值,值]的方式存储,而字典则是以[键 ...

  5. BZOJ 2876 【NOI2012】 骑行川藏

    题目链接:骑行川藏 听说这道题需要一些高数知识 于是膜了一发dalao的题解……然后就没了…… 不要吐槽我的精度TAT……eps设太小了就TLE,大了就Wa……我二分的边界是对着数据卡的…… 下面贴代 ...

  6. window下rabbitmq环境安装

    最近项目想用个MQ来做业务分离,看了市面上众多产品,最后选了rabbitmq,理由很简单,对window的支持很到位(其实是公司的系列产品都是.net的). 安装方法什么的就不说了,直接到官网下载双击 ...

  7. 缓存cache(5.2新:redis): gem faker (6600✨) 命令行工具curl(系统内置,可在git上看到文档)

    ⚠️本章节记录缓存的一些方法的用法案例,配合这篇博客一起阅读:https://i.cnblogs.com/EditPosts.aspx?postid=8776632  前置种子 https://git ...

  8. createjs记录坑

    1.使用preloadjs加载资源: manifest = [ {src: "block.png", id: "ground"}, {src: "re ...

  9. 浅析使用vue-router实现前端路由的两种方式

    关于vue-router 由于最近的项目中一直在使用vue,所以前端路由方案也是使用的官方路由vue-router,之前在angularJS项目中也是用过UI-router,感觉大同小异,不过很显然v ...

  10. halcon之屌炸天的自标定(1)

      本次先对halcon的自标定做个整体介绍,了解屌炸天的自标定在实际应用中的应用与实现方法,具体的编程细节将在后续的文章中介绍. halcon提供了一种自标定的算子,它可以在不用标定板的情况下,标定 ...