区别: repartition底层调用的是coalesce方法,默认shuffle def repartition(numPartitions: Int)(implicit ord: Ordering[T] = null): RDD[T] = withScope { coalesce(numPartitions, shuffle = true) } coalesce方法的shuffle参数默认为false,默认不shuffle def coalesce(numPartitions: Int, s…
一.spark 分区 partition的理解: spark中是以vcore级别调度task的. 如果读取的是hdfs,那么有多少个block,就有多少个partition 举例来说:sparksql 要读表T, 如果表T有1w个小文件,那么就有1w个partition 这时候读取效率会较低.假设设置资源为 --executor-memory 2g --executor-cores 2 --num-executors 5. 步骤是拿出1-10号10个小文件(也就是10个partition) 分别…
Spark TempView和GlobalTempView的区别 TempView和GlobalTempView在spark的Dataframe中经常使用,两者的区别和应用场景有什么不同. 我们以下面的例子比较下两者的不同. from pyspark.sql import SparkSession import numpy as np import pandas as pd spark = SparkSession.builder.getOrCreate() d = np.random.rand…
list与Set.Map区别及适用场景   1.List,Set都是继承自Collection接口,Map则不是 2.List特点:元素有放入顺序,元素可重复 ,Set特点:元素无放入顺序,元素不可重复,重复元素会覆盖掉,(注意:元素虽然无放入顺序,但是元素在set中的位置是有该元素的HashCode决定的,其位置其实是固定的,加入Set 的Object必须定义equals()方法 ,另外list支持for循环,也就是通过下标来遍历,也可以用迭代器,但是set只能用迭代,因为他无序,无法用下标来…
session,cookie,sessionStorage,localStorage的区别及应用场景 浏览器的缓存机制提供了可以将用户数据存储在客户端上的方式,可以利用cookie,session等跟服务端进行数据交互. 一.cookie和session cookie和session都是用来跟踪浏览器用户身份的会话方式. 区别: 1.保持状态:cookie保存在浏览器端,session保存在服务器端 2.使用方式: (1)cookie机制:如果不在浏览器中设置过期时间,cookie被保存在内存中…
注意:变量指基本数据类型非对象,局部变量不能被静态修饰 1.(静态)成员变量存放在data segment区(数据区),字符串常量也存放在该区 2.非静态变量,new出来的对象存放在堆内存,所有局部变量和引用地址存放在栈内存 3.方法(包括静态方法)存放在code segment(方法块),存放代码片段,且只存放一次 public class Cat { //private static int sid = 0; private int sid = 0; private String name;…
ArrayList 优点:ArrayList是实现了基于动态数组的数据结构,因为地址连续,一旦数据存储好了,查询操作效率会比较高(在内存里是连着放的). 缺点:因为地址连续,当要插入和删除时,Arraylist要移动数据,所以插入和删除操作效率比较低. LinkedList 优点:LinkedList是基于链表的数据结构,地址是任意的,所以在开辟内存空间时不需要等一个连续的地址,对于新增和删除操作add和remove,LinkedList比较占优势. 缺点:因为LinkedList要移动指针,所…
转载>>C# Invoke和BeginInvoke区别和使用场景 一.为什么Control类提供了Invoke和BeginInvoke机制? 关于这个问题的最主要的原因已经是dotnet程序员众所周知的,我在此费点笔墨再次记录到自己的日志,以便日后提醒一下自己. 1.windows程序消息机制 Windows GUI程序是基于消息机制的,有个主线程维护着一个消息泵.这个消息泵让windows程序生生不息. Windows GUI程序的消息循环 Windows程序有个消息队列,窗体上的所有消息是…
 转载请备注出自于:http://blog.csdn.net/qq_22118507/article/details/51576319                  list与Set.Map区别及适用场景 1.List,Set都是继承自Collection接口,Map则不是 2.List特点:元素有放入顺序,元素可重复 ,Set特点:元素无放入顺序,元素不可重复,重复元素会覆盖掉,(注意:元素虽然无放入顺序,但是元素在set中的位置是有该元素的HashCode决定的,其位置其实是固定的,加入…
mybatis 与 hibernate 的区别和应用场景(转) 1    Hibernate : 标准的ORM(对象关系映射) 框架: 不要用写sql, sql 自动语句生成: 使用Hibernate 对sql 进行优化,修改比较困难 应用场景: 试用需求,变化固定中小型项目:ERP,ORM,OA 2   mybatis: 程序员自己编写sql, sql 修改,优化比较自由. mybatis 是一个不完全的ORM 框架(部分), mybatis 存在 映射关系(输入,输出映射): 应用场景: 除…
 4.11 总结 4.11.1 parameterType 在映射文件中通过parameterType指定输入参数的类型.mybatis通过ognl从输入对象中获取参数值拼接在sql中. 4.11.2 resultType 在映射文件中通过resultType指定输出结果的类型.mybatis将sql查询结果的一行记录数据映射为resultType指定类型的对象. 4.11.3 #{}和${} #{}表示一个占位符号,#{}接收输入参数,类型可以是简单类型,pojo.hashmap. 如果par…
Innodb与Myisam引擎的区别与应用场景 http://www.cnblogs.com/changna1314/p/6878900.html https://www.cnblogs.com/hoxis/p/10117674.html 区别: (1)事务处理: MyISAM是非事务安全型的,而InnoDB是事务安全型的(支持事务处理等高级处理): (2)锁机制不同: MyISAM是表级锁,而InnoDB是行级锁: (3)select ,update ,insert ,delete 操作: M…
本文主要讲解String.StringBuilder.StringBuffer区别和应用场景 本文以jdk1.8为例 1 String 操作过程:每次赋值时新建一个String对象. 2 StringBuilder 所在路径:rt.jar  java.lang 实现抽象类AbstractStringBuilder 操作过程:字符串变量追加 3 StringBuffer线程安全 实现抽象类AbstractStringBuilder 实现append和toString方法时,使用关键字synchro…
svn和git的区别及适用场景 来源 https://blog.csdn.net/wz947324/article/details/80104621 svn的优势: 优异的跨平台支持,对windows平台支持非常友好. 简单易用,安装后稍微培训下就知道怎么操作. 代码,需求,文档,涉及稿都可以用svn进行管理,适合不同部门的技术非技术的同事协作. git的优势: 去中心化:Git是没有中心服务器的,每个人机器上都是一个完整的库,我们平时开发代码时的中央服务器其实和我们自己机器上的库内容是完全一样…
NoSQL | Redis.Memcache.MongoDB特点.区别以及应用场景 2017-12-12 康哥 码神联盟 本篇文章主要介绍Nosql的一些东西,以及Nosql中比较火的三个数据库Redis.Memcache.MongoDB特点.区别以及应用场景. Nosql介绍 Nosql的全称是Not Only Sql,这个概念早起就有人提出,在09年的时候比较火.Nosql指的是非关系型数据库,而我们常用的都是关系型数据库.就像我们常用的mysql,oralce.sqlserver等一样,这…
Collection接口是集合类的根接口,Java中没有提供这个接口的直接的实现类,但是却让其被继承产生了两个接口,就是Set和List.Set中不能包含重复的元素.List是一个有序的集合,可以包含重复的元素,提供了按索引访问的方式. Map是Java.util包中的另一个接口,它和collection接口没有关系,是相互独立的.但都是属于集合类的一部分.Map包含了key-value对.Map不能包含重复的key,但是可以包含相同的value Iterator,所有的集合类,都实现了Iter…
Redis和MongoDB的区别以及应用场景 项目中用的是MongoDB,但是为什么用其实当时选型的时候也没有太多考虑,只是认为数据量比较大,所以采用MongoDB. 最近又想起为什么用MongoDB,就查阅一下,汇总汇总: 之前也用过redis,当时是用来存储一些热数据,量也不大,但是操作很频繁.现在项目中用的是MongoDB,目前是百万级的数据,将来会有千万级.亿级. 就Redis和MongoDB来说,大家一般称之为Redis缓存.MongoDB数据库.这也是有道有理有根据的, Redis主…
Android Support v4.v7.v13.v14.v17的区别和应用场景   本文链接:https://blog.csdn.net/Aquarius_Seven/article/details/51160299 在我刚开始学习Android的时候,我是不清楚这几个包是拿来干嘛的,于是到网上找答案,发现基本上说的是v4.v7.v13的. 剩下的v14和v17到底是啥?不知道. 于是就一直没理会,因为开发的时候也没用到. 但是其实这个问题一直在心里,今天心血来潮,到网上查啊查啊,终于发现了…
原创文章首发于公众号:「码农富哥」,欢迎收藏和关注,如转载请注明出处! 上一篇聊完 一文彻底搞懂 TCP三次握手.四次挥手过程及原理 这次聊聊TCP和UDP的区别和场景 TCP/IP 中有两个具有代表性的传输层协议,分别是 TCP 和 UDP. 来看看传输层位于OSI七层协议和TCP/IP四层协议的位置: 那么TCP和UDP的区别和使用场景分别是怎样的? 我们用一个图来对比一下UDP和TCP: TCP TCP 是面向连接的.可靠的流协议.流就是指不间断的数据结构,当应用程序采用 TCP 发送消息…
并发队列ConcurrentLinkedQueue.阻塞队列AraayBlockingQueue.阻塞队列LinkedBlockingQueue 区别 和  使用场景总结 分类: Java2013-09-12 20:23 1717人阅读 评论(0) 收藏 举报   三者区别与联系: 联系,三者 都是线程安全的.区别,就是 并发  和 阻塞,前者为并发队列,因为采用cas算法,所以能够高并发的处理:后2者采用锁机制,所以是阻塞的.注意点就是前者由于采用cas算法,虽然能高并发,但cas的特点造成操…
我们知道 RDD 是分区的,但有时候我们需要重新设置分区数量,增大还是减少需要结合实际场景,还有可以通过设置 RDD 分区数来指定生成的文件的数量 重新分区有两种方法:repartition and coalesce 先看源代码 def repartition(self, numPartitions): """ Return a new RDD that has exactly numPartitions partitions. Can increase or decreas…
coalesce和repartition--Transformation类算子 代码示例…
在spark中,map与mapPartitions两个函数都是比较常用,这里使用代码来解释一下两者区别 import org.apache.spark.{SparkConf, SparkContext} import scala.collection.mutable.ArrayBuffer object MapAndPartitions { def main(args: Array[String]): Unit = { val sc = new SparkContext(new SparkCon…
[groupByKey & reduceBykey 的区别] 在都能实现相同功能的情况下优先使用 reduceBykey Combine 是为了减少网络负载 1. groupByKey 是没有 Combine 过程,可以改变 V 的类型 List[] combineByKeyWithClassTag[CompactBuffer[V]](createCombiner, mergeValue, mergeCombiners, partitioner, mapSideCombine = false)…
spark读取kafka数据流提供了两种方式createDstream和createDirectStream. 两者区别如下: 1.KafkaUtils.createDstream 构造函数为KafkaUtils.createDstream(ssc, [zk], [consumer group id], [per-topic,partitions] ) 使用了receivers来接收数据,利用的是Kafka高层次的消费者api,对于所有的receivers接收到的数据将会保存在Spark exe…
mr的shuffle mapShuffle 数据存到hdfs中是以块进行存储的,每一个块对应一个分片,maptask就是从分片中获取数据的 在某个节点上启动了map Task,map Task读取是通过k-v来读取的,读取的数据会放到环形缓存区,这样做的目的是为了防止IO的访问次数,然后环形缓存区的内存达到一定的阀值的 时候会把文件益写到磁盘,溢出的各种小文件会合并成一个大文件,这个合并的过程中会进行排序,这个排序叫做归并排序 map阶段会涉及到 1.sort排序(默认按字典排序) 2.合并(c…
map()是将函数用于RDD中的每个元素,将返回值构成新的RDD. flatmap()是将函数应用于RDD中的每个元素,将返回的迭代器的所有内容构成新的RDD,这样就得到了一个由各列表中的元素组成的RDD,而不是一个列表组成的RDD. 新建person.txt: 1 lisi 182 liwu 203 liyang 454 liming 305 lizhao 44 测试代码: object Test extends App { Logger.getLogger("org.apache.spark…
package dayo1 import org.apache.spark.{SparkConf, SparkContext} import scala.collection.mutable.ArrayBuffer object MapAndPartitions { def main(args: Array[String]): Unit = { val cof = new SparkConf ().setAppName ( this.getClass.getSimpleName ).setMas…
从源码看: reduceBykey与groupbykey: 都调用函数combineByKeyWithClassTag[V]((v: V) => v, func, func, partitioner)reduceBykey的map端进行聚合combine操作mapSideCombine = true groupbykey的mapSideCombine = false…
当下Swift项目已经越来越多,可能会经常见到  str as NSString 或者 str as String 字符串在这两者之间的来回切换,因为有些操作用OC字符串比较方便,而有些操作则相反,熟练掌握这两种字符串的特点对项目的开发必然有利.本文是一些自己的理解,借鉴了官方文档,如有理解偏差之处也欢迎指点. 如果你不是在董铂然博客园看到本文,请点击查看原文. 首先说下共同点,就是String保留了大部分NSString的api比如 .hasPrefix .lowercaseString .c…