spark调用hdfsAPI

spark 调用 hdfs API 查询文件名字.删除文件: 获取HDFS上面某个路径下的所有文件的名字 import org.apache.hadoop.conf.Configuration import org.apache.hadoop.fs.{FileUtil, Path} val configuration = new Configuration() val output = new Path(filePath) val hdfs = output.getFileSystem(conf…

Spark调用Linux命令实现解压和压缩功能

一.应用场景在Spark程序中调用Linux命令,实现一些程序难以实现的功能,例如:发送模拟邮件.文件打包或解压等等二.代码实现 package big.data.analyse.linux import org.apache.log4j.{Level, Logger} import org.apache.spark.sql.SparkSession import scala.sys.process._ /** * Created by zhen on 2019/10/10. */ obje…

scala spark 调用hivecontext

import org.apache.spark.rdd.RDD def save(data: RDD[ModelReplay], modelKey: String, dt: String): Unit = { val tableName = s"tmp.model_replay_${modelKey}_di" val hiveContext = new org.apache.spark.sql.hive.HiveContext(data.sparkContext) import hiv…

Spark 2.6.1 源代码在 eclipse 的配置

本文地址:http://www.cnblogs.com/jying/p/3671767.html 这么个问题又耗费了偶一天时间,真是羞愧.. 上午从官网svn地址下载最新的 spark 包,总是下载失败,而且下载速度超慢...于是从群友那里要来一份 2.6.3版,配置到 ant 设置的时候总是报错,灰常不爽!根据报的错各种尝试,各种失败,灰常受打击...就这样耗了半天时间毫无进展,临下班的时候,决定赌一把,从官网重新下载 2.5.8 版,因为网上的源码配置教程都是关于 2.5.8 版的(嗯,就是…

Scala 深入浅出实战经典第48讲：Scala类型约束代码实战及其在Spark中的应用源码解析

王家林亲授<DT大数据梦工厂>大数据实战视频 Scala 深入浅出实战经典(1-64讲)完整视频.PPT.代码下载:百度云盘:http://pan.baidu.com/s/1c0noOt6 腾讯微云:http://url.cn/TnGbdC 360云盘:http://yunpan.cn/cQ4c2UALDjSKy 访问密码 45e2 技术爱好者尤其是大数据爱好者可以加DT大数据梦工厂的qq群 DT大数据梦工厂① :462923555 DT大数据梦工厂②:437123764 DT大数据梦工厂③…

zhihu spark集群,书籍,论文

spark集群中的节点可以只处理自身独立数据库里的数据,然后汇总吗? 修改我将spark搭建在两台机器上,其中一台既是master又是slave,另一台是slave,两台机器上均装有独立的mongodb数据库.我是否可以让它们只统计自身数据库的内容,然后将结果汇总到一台服务器上的数据库里?目前我的代码如下,但是最终只统计了master里的数据,另一个worker没有统计上. val config = new Configuration() //以下代码表示只统计本机数据库上的数据,猜测问题可能…

基于spark实现并行化Apriori算法

详细代码我已上传到github:click me 一. 实验要求在 Spark2.3 平台上实现 Apriori 频繁项集挖掘的并行化算法.要求程序利用 Spark 进行并行计算. 二.算法设计 2.1 设计思路变量定义 D为数据集,设Lk是k项频繁项集,Ck是k项候选集,每一行数据定义为一笔交易(transaction),交易中的每个商品为项item. 支持度: support, 即该项集在数据集D中出现的次数算法流程单机Apriori算法的主要步骤如下: 获取输入数据…

Spark SQL -- Hive

使用Saprk SQL 操作Hive的数据前提准备: 1.启动Hdfs,hive的数据存储在hdfs中; 2.启动hive -service metastore,元数据存储在远端,可以远程访问; 3.在spark的conf目录下增加hive-site.xml配置文件,文件内容: <configuration> <property> <name>hive.metastore.uris</name> <value>thrift://node1:90…

Spark记录-spark编程介绍

Spark核心编程 Spark 核心是整个项目的基础.它提供了分布式任务调度,调度和基本的 I/O 功能.Spark 使用一种称为RDD(弹性分布式数据集)一个专门的基础数据结构,是整个机器分区数据的逻辑集合.RDDS可以用两种方法来创建的;一个是在外部存储系统引用的数据集,第二个是通过应用转换(如map, filter, reducer, join)在现有RDDS. RDD抽象通过语言集成API公开.这简化了编程的复杂性,因为应用程序的处理RDDS方式类似于操纵的本地集合数据. Spark S…

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十五）Spark编写UDF、UDAF、Agg函数

Spark Sql提供了丰富的内置函数让开发者来使用,但实际开发业务场景可能很复杂,内置函数不能够满足业务需求,因此spark sql提供了可扩展的内置函数. UDF:是普通函数,输入一个或多个参数,返回一个值.比如:len(),isnull() UDAF:是聚合函数,输入一组值,返回一个聚合结果.比如:max(),avg(),sum() Spark编写UDF函数下边的例子是在spark2.0之前的示例:例子中展示只有一个参数输入,和一个参数输出的UDF. package com.dx.str…

Spark编程指南V1.4.0(翻译)

Spark编程指南V1.4.0 · 简单介绍 · 接入Spark · Spark初始化 · 使用Shell · 在集群上部署代码 · 弹性分布式数据集 · 并行集合(Parallelized Collections) · 其它数据集 · RDD的操作 · 基础操作 · 向Spark传递函数 · 处理键值对 · 转换…

Spark学习之基础相关组件（1）

Spark学习之基础相关组件(1) 1. Spark是一个用来实现快速而通用的集群计算的平台. 2. Spark的一个主要特点是能够在内存中进行计算,因而更快. 3. RDD(resilient distributed dataset弹性分布式数据集)表示分布在多个计算节点上可以并行操作的元素的集合,是Spark的主要编程抽象. 4. Spark是一个大一统的软件栈: 4.1 Spark core实现了Spark的基本功能,包括任务调度.内存管理.错误恢复.与存储系统交互等模块.Spark Co…

小白学习Spark系列一：Spark简介

由于最近在工作中刚接触到scala和Spark,并且作为python中毒者,爬行过程很是艰难,所以这一系列分为几个部分记录下学习<Spark快速大数据分析>的知识点以及自己在工程中遇到的小问题,以下阶段也是我循序了解Spark的一个历程. 先抛出几个问题: 什么是Spark? Spark内部是怎么实现集群调度的? 如何调用Spark? 如何打包一个Spark独立应用? 一.Spark是什么 Spark是一个用来实现快速而通用的集群计算平台.它一个主要特点是能够在内存中进行计算,并且提供了基于P…

[Spark] 05 - Spark SQL

关于Spark SQL,首先会想到一个问题:Apache Hive vs Apache Spark SQL – 13 Amazing Differences Hive has been known to be the component of Big data ecosystem where legacy mappers and reducers are needed to process data from HDFS whereas Spark SQL is known to be the c…

Spark 调优之数据倾斜

什么是数据倾斜? Spark 的计算抽象如下数据倾斜指的是:并行处理的数据集中,某一部分(如 Spark 或 Kafka 的一个 Partition)的数据显著多于其它部分,从而使得该部分的处理速度成为整个数据集处理的瓶颈. 如果数据倾斜不能解决,其他的优化手段再逆天都白搭,如同短板效应,任务完成的效率不是看最快的task,而是最慢的那一个. 数据倾导致的后果: 数据倾斜直接可能会导致一种情况:Out Of Memory 或者GC 超时. 任务不一定失败,但是极端慢.(但是目前我遇到的数据倾斜…

spark系列-3、缓存、共享变量

一.persist 和 unpersist 1.1.persist() : 用来设置RDD的存储级别存储级别意义 MEMORY_ONLY 将RDD作为反序列化的的对象存储JVM中.如果RDD不能被内存装下,一些分区将不会被缓存,并且在需要的时候被重新计算.这是是默认的级别 MEMORY_AND_DISK 将RDD作为反序列化的的对象存储在JVM中.如果RDD不能被与内存装下,超出的分区将被保存在硬盘上,并且在需要时被读取 MEMORY_ONLY_SER 将RDD作为序列化的的对象进行存储(…

Spark Connector Reader 原理与实践

本文主要讲述如何利用 Spark Connector 进行 Nebula Graph 数据的读取. Spark Connector 简介 Spark Connector 是一个 Spark 的数据连接器,可以通过该连接器进行外部数据系统的读写操作,Spark Connector 包含两部分,分别是 Reader 和 Writer,而本文侧重介绍 Spark Connector Reader,Writer 部分将在下篇和大家详聊. Spark Connector Reader 原理 Spark C…

cdh 安装记录

安装文件准备 CDH 下载地址:http://archive.cloudera.com/cdh5/parcels/latest/ 下载操作系统对应的版本: 1．CDH-5.3.0-1.cdh5.3.0.p0.30-e17.parcel 2．CDH-5.3.0-1.cdh5.3.0.p0.30-e17.parcel.sha1 3．Manifest.json Cloudera Manager 下载地址:http://archive-primary.cloudera.com/cm5/cm/5/ 下载操…

geotrellis使用（二十九）迁移geotrellis至1.1.1版

目录前言升级过程总结一.前言由于忙着安装OpenStack等等各种事情,有半年的时间没有再亲密的接触geotrellis,甚至有半年的时间没能畅快的写代码.近来OpenStack折腾的稍见成效,历经九九八十一Failure后成功的在16台服务器上搭建了云平台,于是干了一见疯狂的事情--在OpenStack上创建建立几台虚拟机,并用他们搭建了Hadoop集群,完事将之前的geotrellis代码运行在集群上.一切看似很顺利,但是我是个有强迫症的人,一看geotrellis已…

day28Spark

PS:因为Spark是用内存运行的,非常快 PS: 1.下面就是将conf的spark-env.template改变成spark-env.sh,并添加红色部分 2.修改slaves文件添加从设备启动程序 PS:ui 端口是8080 1. 执行Spark程序 PS:如果不指定内核和内存,默认会全部占用 1.1. 执行第一个spark程序 /usr/local/spark-1.5.2-bin-hadoop2.6/bin/spark-submit --class org.apache.spark.…

Scala_对象

对象单例对象 Scala并没有提供Java那样的静态方法或静态字段,但是,可以采用 object关键字实现单例对象,具备和Java静态方法同样的功能. 可以看出,单例对象的定义和类的定义很相似,明显的区分是,用object 关键字,而不是用class关键字 object Person{ private var lastId = 0 def newPersonId()={ lastId += 1 lastId }} printf("The first person id is %…

Scala语法（二）

(1)类,对象 //定义类(属性.方法),实例化对象 class counter{ *//主构造器 class counter(name:String,mode:Int){ ... } 实例化:val mycoun = new counter("mycoun",3) private var privatevalue = 0 private var name = " " private var mode = 1 def value = privatevalue def…

黑马毕向东Java基础知识总结

Java基础知识总结(超级经典) 转自:百度文库黑马毕向东JAVA基础总结笔记侵删! 写代码: 1,明确需求.我要做什么? 2,分析思路.我要怎么做?1,2,3. 3,确定步骤.每一个思路部分用到哪些语句,方法,和对象. 4,代码实现.用具体的java语言代码把思路体现出来. 学习新技术的四点: 1,该技术是什么? 2,该技术有什么特点(使用注意): 3,该技术怎么使用.demo 4,该技术什么时候用?test. ------------------------------------…

《果壳中的C# C# 5.0 权威指南》 - 学习笔记

<果壳中的C# C# 5.0 权威指南> ========== ========== ==========[作者] (美) Joseph Albahari (美) Ben Albahari[译者] (中) 陈昇管学理曾少宁杨庆川[出版] 中国水利水电出版社[版次] 2013年08月第1版[印次] 2013年08月第1次印刷[定价] 118.00元========== ========== ========== [前言] C# 5.0 是微软旗舰编程语言的第4次重大升级. C# 5.…

Spark Pipe使用方法（外部程序调用方法）

写在前面: 1.我们使用的是Hadoop2.2.0,Spark 1.0. 2.这里使用的样例是经典的求pai程序来演示这个开发过程. 3.我们暂时使用java程序来开发,按照需要后面改用scala来开发. 4.我们使用的IDE是IntelliJ IDEA,采用maven来做项目管理. 一.项目创建 1.1 运行IDE,通过下面命令 ~/idea-IC-133.696/idea.sh 1.2 创建一个maven项目. 1.2 新建的项目添加库文件. 1) scala中lib的安装路径,如我们的路径…

3 分钟学会调用 Apache Spark MLlib KMeans

Apache Spark MLlib是Apache Spark体系中重要的一块拼图:提供了机器学习的模块.只是,眼下对此网上介绍的文章不是非常多.拿KMeans来说,网上有些文章提供了一些演示样例程序,而这些程序基本和Apache Spark 官网上的程序片断类似:在得到训练模型后,差点儿都没有展示怎样使用该模型.程序运行流程.结果展示以及举例測试数据等部分. 笔者依据Apache Spark官网上的程序片断.写了一个完整的调用MLlib KMeans库的測试程序,并成功在Spark 1.0 +…