spark-assembly-1.5.2-hadoop2.6.0.jar

http://blog.csdn.net/ronaldo4511/article/details/53035494

http://doc.okbase.net/qindongliang1922/archive/172752.html

  1. name := "spark-hello"
  2.  
  3. version := "1.0"
  4.  
  5. scalaVersion := "2.11.7"
  6. //使用公司的私服
  7. resolvers += "Local Maven Repository" at "http://dev.bizbook-inc.com:8083/nexus/content/groups/public/"
  8. //使用内部仓储
  9. externalResolvers := Resolver.withDefaultResolvers(resolvers.value, mavenCentral = false)
  10. //Hadoop的依赖
  11. libraryDependencies += "org.apache.hadoop" % "hadoop-client" % "2.7.1"
  12. //Spark的依赖
  13. libraryDependencies += "org.apache.spark" % "spark-core_2.11" % "1.4.1"
  14. //Spark SQL 依赖
  15. libraryDependencies += "org.apache.spark" % "spark-sql_2.11" % "1.4.1"
  16. //java servlet 依赖
  17. libraryDependencies += "javax.servlet" % "javax.servlet-api" % "3.0.1"

demo1:使用Scala读取HDFS的数据:

  1. /** *
  2. * Spark读取来自HDFS的数据
  3. */
  4. def readDataFromHDFS(): Unit ={
  5. //以standalone方式运行,提交到远程的spark集群上面
  6. val conf = new SparkConf().setMaster("spark://h1:7077").setAppName("load hdfs data")
  7. conf.setJars(Seq(jarPaths));
  8. //得到一个Sprak上下文
  9. val sc = new SparkContext(conf)
  10. val textFile=sc.textFile("hdfs://h1:8020/user/webmaster/crawldb/etl_monitor/part-m-00000")
  11. //获取第一条数据
  12. //val data=textFile.first()
  13. // println(data)
  14. //遍历打印
  15. /**

libraryDependencies+="org.apache.spark"%"spark-sql_2.11"%"2.1.0"%"provided"

libraryDependencies+="org.apache.spark"%"spark-mllib_2.11"%"2.1.0"%"provided"

libraryDependencies+="org.apache.spark"%"spark-graphx_2.11"%"2.1.0"%"provided"

libraryDependencies+="org.apache.spark"%"spark-streaming_2.11"%"2.1.0"%"provided"

libraryDependencies+="com.github.scopt"%"scopt_2.11"%"3.5.0"

libraryDependencies+="org.apache.spark"%"spark-streaming-kafka-0-8_2.11"%"2.1.0"

libraryDependencies+="org.apache.spark"%"spark-streaming-flume_2.11"%"2.1.0"

spark包的更多相关文章

  1. eclispe集成Scalas环境后,导入外部Spark包报错:object apache is not a member of package org

    在Eclipse中集成scala环境后,发现导入的Spark包报错,提示是:object apache is not a member of package org,网上说了一大推,其实问题很简单: ...

  2. sparklyr包:实现Spark与R的接口+sparklyr 0.5

    本文转载于雪晴数据网 相关内容: sparklyr包:实现Spark与R的接口,会用dplyr就能玩Spark Sparklyr与Docker的推荐系统实战 R语言︱H2o深度学习的一些R语言实践-- ...

  3. 在 Azure HDInsight 中安装和使用 Spark

    Spark本身用Scala语言编写,运行于Java虚拟机(JVM).只要在安装了Java 6以上版本的便携式计算机或者集群上都可以运行spark.如果您想使用Python API需要安装Python解 ...

  4. spark伪分布式安装

    一,在官网下载对应的版本http://spark.apache.org/downloads.html 二在linux中解压下来的spark包   三:配置环境变量     (1)在/etc/profi ...

  5. Spark 2.6.1 源代码在 eclipse 的配置

    本文地址:http://www.cnblogs.com/jying/p/3671767.html 这么个问题又耗费了偶一天时间,真是羞愧.. 上午从官网svn地址下载最新的 spark 包,总是下载失 ...

  6. Spark排错与优化

    一. 运维 1. Master挂掉,standby重启也失效 Master默认使用512M内存,当集群中运行的任务特别多时,就会挂掉,原因是master会读取每个task的event log日志去生成 ...

  7. Spark on Mesos部署

    一.Mesos的安装和部署 1.下载mesos源码和依赖包 部署环境 centOS 6.6 mesos-0.21.0 spark-1.4.1 因为mesos官方只提供源码,所以必须要自己进行编译安装使 ...

  8. 提交jar作业到spark上运行

    1.引入spark包:spark-assembly-1.4.0-hadoop2.6.0,在spark的lib目录下 File-->project structure 2.用IDEA建立一个sca ...

  9. 使用Intellij IDEA构建spark开发环境

    近期开始研究学习spark,开发环境有多种,由于习惯使用STS的maven项目,但是按照许多资料的方法尝试以后并没有成功,也可能是我环境问题:也可以是用scala中自带的eclipse,但是不太习惯, ...

随机推荐

  1. Android 使用URL访问网络资源

    1.介绍 2.使用方法 3.java后台代码 package com.lucky.test51url; import android.annotation.SuppressLint; import a ...

  2. Android Activity实例应用(选择QQ头像)

    1.效果图 点击button,跳转到页面2 选择需要的头像,自动返回 3.XML文件布局 页面1 <?xml version="1.0" encoding="utf ...

  3. php 页面压缩---

    网站优化中,页面压缩是很有效的一种方法,可以明显提升页面访问速度. 页面压缩也有很多的方法,有PHP自带的zlib的gzip压缩,还有清除html页面中不必要的字符,空格,注释,换行符等. 第一种打开 ...

  4. 最近研究了一个.NET的DHT网络搜索引擎,顺便重新整理了下引擎思路,供大家分享讨论下。

    最近研究了一个.NET的DHT网络搜索引擎,顺便重新整理了下引擎思路,供大家分享讨论下.

  5. P2056 [ZJOI2007]捉迷藏

    传送门 如果没有修改显然就直接点分治 有修改那就动态点分治 动态点分治就是在点分树上维护一些东西,查询时也在点分树上查 因为点分树深度是$log$的所以可以保证时间复杂度 此题我们需要在点分树上维护 ...

  6. HDU 6336 (规律 + 二维矩阵的前缀和妙用)

    题目 给出长度为n 的A矩阵 , 按 int cursor = 0; for (int i = 0; ; ++i) { for (int j = 0; j <= i; ++j) { M[j][i ...

  7. HDU - 2089 数位DP 初步

    中文题目,不要62和4 从高位往低位DP,注意有界标志limit的传递 dp2记忆有界情况下的计数结果,据说用处不大 我所参考的入门文章就是半搜索(有界)半记忆(无界)的 进阶指南中提出dfs维度有多 ...

  8. C# Autofac 的 BeanFactory

    using Autofac; using Microsoft.Practices.ServiceLocation; namespace Core.Common { /// <summary> ...

  9. 基于docker+redis++urlib/request的分布式爬虫原理

    一.整体思路及中心节点的配置 1.首先在虚拟机中运行一个docker,docker中运行的是一个linux系统,里面有我们所有需要的东西,linux系统,python,mysql,redis以及一些p ...

  10. Nginx + Lua搭建文件上传下载服务

    收录待用,修改转载已取得腾讯云授权 最新腾讯云技术公开课直播,提问腾讯W3C代表,如何从小白成为技术专家?点击了解活动详情 作者 | 庄进发 编辑 | 迷鹿 庄进发,信息安全部后台开发工程师,主要负责 ...