spark 基本操作整理】的更多相关文章

关于spark 的详细操作请参照spark官网 scala 版本:2.11.8 1.添加spark maven依赖,如需访问hdfs,则添加hdfs依赖 groupId = org.apache.spark artifactId = spark-core_2. version = groupId = org.apache.hadoop artifactId = hadoop-client version = <your-hdfs-version> 2.sparkcontext 的创建 val…
Spark 的配置有很多,这里一方面总结一下官方文档中的内容,一方面将网上查到的资料中用到的针对特定问题的配置整理一下. 先看一下官网的配置:http://spark.apache.org/docs/latest/configuration.html spark 配置可分为三层: spark properties.environment variables.还有logging   spark properties 是由用户自己设置的,在任务中通过 SparkConf 类设置: val conf …
1.dataframe 基本操作 def main(args: Array[String]): Unit = { val spark = SparkSession.builder() .appName("test") .master("local[*]") .getOrCreate() import spark.implicits._ val people = spark.read.format("json").load("people…
1.第一个概念:RDD RDD(Resilient DistributedDatasets) ,弹性分布式数据集,是分布式内存的一个抽象概念,RDD提供了一种高度受限的共享内存模型,即RDD是只读的记录分区的集合,只能通过在其他RDD执行 确定的转换操作(如map.join和group by)而创建,然而这些限制使得实现容错的开销很低. 对开发者而言,RDD可以看作是Spark的一个对象,它本身运行于内存中,如读文件是一个RDD, 对文件计算是一个RDD,结果集也是一个RDD ,不同的分片.数据…
1. RDD是什么RDD:Spark的核心概念是RDD (resilient distributed dataset),指的是一个只读的,可分区的弹性分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间可重复使用. 2. 为什么会产生RDD? (1)传统的MapReduce虽然具有自动容错.平衡负载和可拓展性的优点,但是其最大缺点是采用非循环式的数据流模型,使得在迭代计算式中要进行大量的磁盘IO操作.RDD正是解决这一缺点的抽象方法. (2)RDD是一种有容错机制的特殊集合,可以分…
读取文件的数据 使用的数据:https://codeload.github.com/xsankar/fdps-v3/zip/master 读取单个文件的数据 case class Employee(EmployeeID: String, LastName: String, FirstName: String, Title: String, BirthDate: String, HireDate: String, City: String, State: String, Zip: String,…
参考资料: Spark和RDD模型研究:http://itindex.net/detail/51871-spark-rdd-模型 理解Spark的核心RDD:http://www.infoq.com/cn/articles/spark-core-rdd/ Spark RDD详解:http://f.dataguru.cn/thread-475874-1-1.html http://developer.51cto.com/art/201309/410276_1.htm…
一.ceph基本操作: 启动osd.mon进程: start ceph-osd id=X start ceph-mon id=YYY 关闭osd.mon进程: stop  ceph-osd id=X stop  ceph-mon id=YYY 查看osd的状态: status ceph-osd  id=X 二.ceph更换硬盘流程: scale up:(同一节点上增加osd) scale out:(同一集群内增加节点) 1.删除OSD: a.停止osd  daemon stop  ceph-os…
1.登录数据库 格式: mysql -h主机地址 -u用户名 -p用户密码 –P端口 –D数据库 –e “SQL 内容”>mysql -uroot -p 数据库名称~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 2.修改密码 格式:mysqladmin -u用户名 -p旧密码 password 新密码Mysqladmin  -uroot  -password ab12注:因为开始时root没有密码,所以-p旧密码一项就可以省略了.例2:再将root的密码改为djg345.my…