Scala——的并行集合】的更多相关文章

当出现Kafka单个分区数据量很大,但每个分区的数据量很平均的情况时,我们往往采用下面两种方案增加并行度: l  增加Kafka分区数量 l  对拉取过来的数据执行repartition 但是针对这种情况,前者的改动直接影响所有使用消费队列的模型性能,后者则存在一个shuffle的性能消耗.有没有既不会发生shuffle,又能成倍提升性能的方法呢? /* 推荐使用Scala的并行集合: 在上述场景中存在的情况是,单核数据量很大,但是又由于分区数量限制导致多核无法分配到数据.因此如果使用forea…
1 流 Stream stream是一个集合.这个集合,可以用于存放无穷多个元素,但是这无穷个元素并不会一次性生产出来,而是需要用到多大的区间,就会动态的生产,末尾元素遵循lazy规则(即:要使用结果才进行计算的) . 创建Stream对象 def numsForm(n: BigInt) : Stream[BigInt] = n #:: numsForm(n + 1) val stream1 = numsForm(1) 说明 Stream 集合存放的数据类型是BigInt numsForm 是自…
1. 函数 函数就是一个非常灵活的运算逻辑,可以灵活的将函数传入方法中,前提是方法中接收的是类型一致的函数类型 函数式编程的好处:想要做什么就调用相应的方法(fliter.map.groupBy.sortBy),想要具体怎么做,就传入相应的函数 函数式编程的特点之一就是支持链式编程(不停的函数调用函数) 1.1 一种更加简洁的定义函数的方式(_) 以前的形式 简洁的形式  "_" 相当于一个占位符,将遍历出来的值赋给这个占位符 该占位符号出现两次,其会认为出现两个参数,由于此处就是一个…
11.1 集合元素的映射-map映射操作 11.1.1 看一个实际需求 要求:请将List(3,5,8)中所有的元素都*2,将其结果放到一个新的集合中返回,即返回一个新的List(6,10,16),请编写程序实现 11.1.2 map映射操作    11.1.3 使用传统方法 -案例演示 object boke_demo01 { def main(args: Array[String]): Unit = { /* 请将List(3,5,8) 中的所有元素都 * 2 , 将其结果放到一个新的集合中…
一.本章要点 所有集合都扩展自Iterable特质; 集合有三大类,分别为序列,集和映射; 对于几乎所有集合类,Scala都同时提供可变和不可变的版本; Scala列表要么是空的,要么拥有一头一尾,其中尾部本身是一个列表; 集是无小猴次序的集合; 用LinkedHashSet来保留插入顺序,或者用SortedSet来顺序进行迭代; +将元素添加到无先后次序的集合中;+:和:+向前或向后追加到序列;++将两个集合串接在一起;-和--移除元素; Iterable和Seq特质有数十个用于常见操作的方法…
本章主要介绍Scala中的集合类型,主要包括:Array, ListBuffer, Arraybuffer, Set, Map和Tuple. 一.序列 序列类型的对象中包含多个按顺序排列好的元素,可以访问其中特定位置的元素.序列类型主要包括List,Array, ListBuffer, ArrayBuffer . 1.List List在前一章已经介绍过,略. 2.Array 数组在很多编程语言中都会用到.下面代码中包括了如何定义一个Array类型变量,如何在定义Array变量时赋初始值,以及如…
一.在使用scala集合时有几个概念必须知道: 1.谓词是什么? 谓词就是一个方法,一个函数或者一个匿名函数,接受一个或多个函数,返回一个Boolean值. 例如:下面方法返回true或者false,所以它是一个谓词. scala> def isEven(i: Int) = if(i % 2 ==0) true else false isEven: (i: Int)Boolean 2.匿名函数是什么? 匿名函数也被称作函数自变量,作为变量传入把函数作为参数的方法中,或者赋值给一个变量. scal…
并行集合 对于并行任务,与其相关紧密的就是对一些共享资源,数据结构的并行访问.经常要做的就是对一些队列进行加锁-解锁,然后执行类似插入,删除等等互斥操作. .NET4提供了一些封装好的支持并行操作数据容器,可以减少并行编程的复杂程度. 并行集合的命名空间:System.Collections.Concurrent 并行容器: ConcurrentQueue ConcurrentStack ConcurrentBag: 一个无序的数据结构集,当不考虑顺序时非常有用. BlockingCollect…
一.集合操作1 1.Scala的集合体系结构 // Scala中的集合体系主要包括:Iterable.Seq.Set.Map.其中Iterable是所有集合trait的根trai.这个结构与Java的集合体系非常相似. // Scala中的集合是分成可变和不可变两类集合的,其中可变集合就是说,集合的元素可以动态修改,而不可变集合的元素在初始化之后,就无法修改了.分别对应scala.collection.mutable和scala.collection.immutable两个包. // Seq下包…
并行集合 对于并行任务,与其相关紧密的就是对一些共享资源,数据结构的并行訪问.常常要做的就是对一些队列进行加锁-解锁,然后运行类似插入,删除等等相互排斥操作. .NET4提供了一些封装好的支持并行操作数据容器,能够降低并行编程的复杂程度. 并行集合的命名空间:System.Collections.Concurrent 并行容器: ConcurrentQueue ConcurrentStack ConcurrentBag: 一个无序的数据结构集,当不考虑顺序时很实用. BlockingCollec…
10.1 数据结构特点 10.1.1 Scala集合基本介绍 uml => 统一建模语言 1) Scala同时支持不可变集合和可变集合,不可变集合可以安全的并发访问 两个主要的包 不可变集合:scala.collection.immutable 可变集合:scala.collection.mutable 2) Scala默认采用不可变集合,对于几乎所有的集合类,Scala都同时提供了可变(mutable)和不可变(immutable)的版本 3) Scala的集合有三大类:序列Seq(有序的,L…
原文地址 本文内容 并行数组(Parallel Array) 并行向量(Parallel Vector) 并行范围(Parallel Range) 并行哈希表(Parallel Hash Tables) 并行散列 Tries(Parallel Hash Tries) 并行并发 Tries(Parallel Concurrent Tries) 参考资料 并行数组(Parallel Array) 一个 ParArray 序列包含线性.连续的元素数组.这意味着,通过修改底层数组,可以高效地访问和修改元…
scala> (1 to 5).foreach(println(_)) 1 2 3 4 5 scala> (1 to 5).par.foreach(println(_)) 3 1 4 2 5 以下代码获取到参与并行计算的线程: scala> (0 to 10000).collect{case _ => Thread.currentThread.getName}.distinct res53: scala.collection.immutable.IndexedSeq[java.la…
引言 在学习Scala的过程中,我发现其在构建大规模分布式计算系统上有与生俱来的特质. 其丰富的类型系统能够帮助编程设计提供非常好的信息隐藏和抽象,其monoids和monads概念利用Scala高阶函数实现计算并行和数据处理流水线,其Actor系统帮助编写可伸缩性的应用程序,事实上现特定领域语言的优势帮助开发用户非常好克服不同语言的障碍. 尽管以上Scala长处说起来不会感同身受,但这能够作为我学习的一大动力.让我開始尝试编写并行机器学习系统. 在学习过程中,我主要參考<Scala for M…
为了让共享的数组,集合能够被多线程更新,我们现在(.net4.0之后)可以使用并发集合来实现这个功能.而System.Collections和System.Collections.Generic命名空间中所提供的经典列表,集合和数组都不是线程安全的,如果要使用,还需要添加代码来同步. 先看一个例子,通过并行循环向一个List<string>集合添加元素.因为List不是线程安全的,所以必须对Add方法加锁来串行化. 任务开始: ; static void Main(string[] args)…
变长数组:数组缓冲 Scala中对于那种长度会变的数组的数据结构为ArrayBuffer. import scala.collection.mutable.ArrayBuffer; // 一个空的数组缓冲,准备存放整数 val array_buffer = ArrayBuffer[Int](); // 或者 new ArrayBuffer[Int] array_buffer += 1; // 结果为:ArrayBuffer(1) // 用+=在尾端添加元素 array_buffer += (1,…
补充知识:http://www.importnew.com/4543.html 正文开始 scala.collection.immutable scala.collection.mutable 队列Queue val emp = scala.collection.immutable.Queue[Int](); val has1 = emp.enqueue(1) val has123=has1.enqueue(List(2,3)) println(has1) //Queue(1) println(…
Scala是数据挖掘算法领域最有力的编程语言之一,语言本身是面向函数,这也符合了数据挖掘算法的常用场景:在原始数据集上应用一系列的变换,语言本身也对集合操作提供了众多强大的函数,本文将以List类型为例子,介绍常见的集合变换操作. 一.常用操作符(操作符其实也是函数) ++ ++[B](that: GenTraversableOnce[B]): List[B] 从列表的尾部添加另外一个列表++: ++:[B >: A, That](that: collection.Traversable[B])…
1.创建映射 1)创建不可变的映射 scala> val status = Map(1 -> "a",2 -> "b") status: scala.collection.immutable.Map[Int,String] = Map(1 -> a, 2 -> b) scala> val status = Map((1,"a"),(2,"b")) status: scala.collecti…
1.创建和更新数组的不同方式 1)定义一个数组的初始大小和类型,随后填充值. scala> val array = new Array[String](3) array: Array[String] = Array(null, null, null) scala> array(0) = "abc" scala> array(1) = "def" scala> array(2) = "hij" scala> array…
1.List列表的创建和添加元素 1)最常见的创建list的方式之一. scala> val list = 1 :: 2 :: 3 :: Nil list: List[Int] = List(1, 2, 3) 2)最常见的创建list的方式之一. scala> val list = List(1,2,3) list: List[Int] = List(1, 2, 3) 3)集合混合类型组成. scala> val list = List(1,2.0,33D,4000L) list: Li…
遍历集合的方法 1.用foreach循环遍历一个集合 foreach接收一个函数作为参数.定义的函数应该接收一个元素作为输入参数,然后不要返回任何的东西.输入的参数的类型应该匹配集合中的类型.随着foreach的执行,它每次都会把一个元素传给你的函数,直到集合中最后一个元素. foreach常用的就是输出信息: scala> val x = Vector(1,2,3) x: scala.collection.immutable.Vector[Int] = Vector(1, 2, 3) scal…
一.常用的集合方法 1.可遍历集合的常用方法 下表列出了Traverable在所有集合常用的方法.接下来的符号: c代表一个集合 f代表一个函数 p代表一个谓词 n代表一个数字 op代表一个简单的操作(通常是一个简单的函数) 2.可变的集合方法 下表里的是可变集合常用的操作符: 3.不可变的集合方法 注意不可变集合不可被修改,所以在第一行的每个表达式的结果必须赋给一个新变量. 操作符 描述 c1 ++ c2 把c2集合的元素附加到c1里创造一个新的集合 scala> val c1 = Vecto…
一.scala数组 数组定义1: var arr = new Array[String](3) String:存储的元素类型 3:存储3个元素 添加元素: arr(1) = "hello" 数组定义2: val arr1 = Array[Int](1,2,3,4,5,6) 改变内容:arr1(1) = 18 添加元素:arr1 += 22 长度不可以改变 二.数组方法 1.map(映射) 映射: 2 4 6 映射关系:f(x) = x*5 对应映射关系:10 20 30 例: scal…
1.Scala的集合体系结构 2.List 3.LikedList 4.Set 5.集合的函数式编程 6.函数式编程综合案例:统计单词总数 1.Scala的集合体系结构 Scala中集合体系主要包括:Iterable.Seq.Set.Map.其中Iterable是所有集合trait的根trai. Scala中集合分为可变集合和不可变集合两类,其中可变集合就是说集合的元素可以动态修改,而不可变集合的元素在初始化之后,就无法修改了.分别对应scala.collection.mutable和scala…
1.scala集合的null 是nil 而不是null 2.set的三个方法union,intersect,diff union--合并去重 intersect--交集 diff--a减去(a和b交集的部分) 注意::和:::的区别,::是向前追加元素的合并,是右边开始向左结合. 3.map和flatMap(扁平化) 4.scala的流…
import scala.collection.mutable /** * Map集合的简单使用 */ object MapUse { def main(args: Array[String]): Unit = { // 创建一个空的map -- 注意:这里要用实现类,因为Map是抽象类,使用时需要声明具体实现类 val emptyMap = new mutable.HashMap[String,Int]() println(emptyMap) // Map() // 不可变Map val im…
目录 映射Map 不可变Map 概述 操作实例 可变Map 概述 操作实例 Map的遍历 for循环遍历 格式 操作实例 模式匹配遍历 格式 操作实例 Tuple 元祖 概述 定义格式 获取元素方法 元祖遍历 操作实例 List 列表 不可变List 概述 相关方法 相关操作 操作实例 可变List 概述 相关方法 相关操作 操作实例 Set 集合 格式 特点 相关操作 操作实例 映射Map Map可以分为可变Map和不可变Map,默认情况是不可变Map.两者之间的定义格式完全相同,区别在于导包…
目录 一.集合属性 size length contains mkString 二.集合方法 drop.dropRight distinct:去重 head.last:获取第一个.最后一个元素 tail.init:去除第一个元素剩余的所有元素.去除最后一个元素剩余的所有元素. isEmpty:是否为空 intersect.diff.union:交集.差集.并集 max.min:最大.最小值 sum:求和 reverse:反转 sliding(窗口长度,滑动步长) tail:除开最后一个元素,返回…
目录 一.Array 二. List 三.Set 四.Tuple 五.Map 一.Array package com.bigdata.scala.day01 /** * @description: 不可变数组&&可变数组 * @author: HaoWu * @create: 2020/7/24 */ object $10_Array { def main(args: Array[String]): Unit = { //**************************不可变数组***…