昨晚和同事一起看一个scala写的程序,程序都写完了,且在idea上debug运行是ok的.但我们不能调试的方式部署在客户机器上,于是打包吧.打包时,我们是采用把外部引入的五个包(spark-assembly-1.5.1-hadoop2.6.0.jar.commons-logging.jar.fastjson-1.2.10.jar.sqljdbc4.jar.log4j.jar)打包到我们的jar包中.好了,一切都好了...在java -jar demo.jar方式运行,以及把它拷贝到spark集…
创建一个文件aa.txt,随便写点内容: hello world! aa aa d d dg g 登录HDFS文件系统: [root@node1 ~]# su hdfs 在HDFS文件系统中创建文件目录保存要上传的数据: bash-4.2$ hdfs dfs -mkdir -p /user/cf 然后将CentOS文件系统上的aa.txt文件上传到HDFS文件系统中: bash-4.2$ hdfs dfs -put /home/cf/aa.txt /user/cf 执行以下命令,进入spark-…
1:spark shell仅在测试和验证我们的程序时使用的较多,在生产环境中,通常会在IDE中编制程序,然后打成jar包,然后提交到集群,最常用的是创建一个Maven项目,利用Maven来管理jar包的依赖. 2:配置Maven的pom.xml: <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xm…
[大数据从入门到放弃系列教程]第一个spark分析程序 原文链接:http://www.cnblogs.com/blog5277/p/8580007.html 原文作者:博客园--曲高终和寡 *********************分割线********************** 由于新入职了一家公司,准备把我放进大数据的组里面 我此前对大数据,仅仅停留在听说过这个名词上,那么这次很快就要进入项目,一边我自己在学习,一边也把教程分享出来,避免后来之人踩我所踩过的坑 *************…
使用Scala编写Spark程序求基站下移动用户停留时长TopN 1. 需求:根据手机基站日志计算停留时长的TopN 我们的手机之所以能够实现移动通信,是因为在全国各地有许许多多的基站,只要手机一开机,就会和附近的基站尝试建立连接,而每一次建立连接和断开连接都会被记录到移动运营商的基站服务器的日志中. 虽然我们不知道手机用户所在的具体位置,但是根据基站的位置就可以大致判断手机用户的所处的地理范围,然后商家就可以根据用户的位置信息来做一些推荐广告. 为了便于理解,我们简单模拟了基站上的一些移动用户…
在做spark项目时,我们常常面临如何在本地将其打包,上传至装有spark服务器上运行的问题.下面是我在项目中尝试的两种方案,也踩了不少坑,两者相比,方案一比较简单,本博客提供的jar包适用于spark版本2.0以下的,如果jar包和版本不对应会出现找不到类或方法等错误提示信息,它主要借助于eclipse和现成的jar包进行打包应用,只能从官网上下载对应的jar包,局限很大.方案二是借助于IntelliJ + maven方式,它只要配置好pom.xml文件,在文件中写明自己的运行环境即可,通用(…
spark 是目前非常流行的大数据计算框架. spark 生态 Spark core:包含 spark 的基本功能,定义了 RDD 的 API,其他 spark 库都基于 RDD 和 spark core SparkSQL:像 sql 一样操作数据 SparkStreaming:实时数据处理,像操作普通 RDD 一样处理流数据 Mlib:机器学习库,算法被实现为对 RDD 的操作 GraphX:控制图.并行图操作和计算的一组算法和工具的集合 spark 特点 快速:基于内存计算,官方数据表明,如…
一.安装JDK(具体安装省略) 二.安装Scala(具体安装省略) 三.安装IDEA 1.打开后会看到如下,然后点击OK…
一.下载专门开发的Scala的Eclipse 1.下载地址:http://scala-ide.org/download/sdk.html,或链接:http://pan.baidu.com/s/1hrexmx2 密码:x0za 2.打开后新建一个名为WordCount的工程(这个应该都知道吧File-->New-->Scala Project),会发现有个Scala Library container[2.11.7],因为这个不是我们需要的版本,需要改一下:即右击WordCount-->P…
spark之JDBC开发(连接数据库测试) 以下操作属于本地模式操作: 1.在Eclipse4.5中建立工程RDDToJDBC,并创建一个文件夹lib用于放置第三方驱动包 [hadoop@CloudDeskTop software]$ cd /project/RDDToJDBC/[hadoop@CloudDeskTop RDDToJDBC]$ mkdir -p lib[hadoop@CloudDeskTop RDDToJDBC]$ lsbin lib src 2.添加必要的环境 2.1.将MyS…