大数据技术是数据的集合以及对数据集合的操作技术的统称,具体来说:

  1、数据集合:会涉及数据的搜集、存储等,搜集会有很多技术,存储技术现在比较经典方案是使用Hadoop,不过也很多方案采用Kafka。 
  2、对数据集合的操作技术,目前全球最火爆的是Spark。 
  Spark的框架实现是语言是Scala,首选应用程序开发语言也是Scala,所以Scala对集合以及集合操作的支持就非常重要且非常强大,因此Spark中对很多数据操作算子和Scala中对集合的操作是一样的。 
  Scala中数据的创建与操作: 
  1、最原始的创建数据的方式是形如:val array = new ArrayInt,指定数组的类型是Int且其固定长度是5个元素; 
  2、数据的索引下标是从0开始;对数组元素访问的时候下标的范围在0到length-1的长度,超过length-1会出现java.lang.ArrayIndexOutOfBoundsException异常; 
  3、最常用和经典的创建数组的方式是形如:val array = ArrayInt,直接通过Array类名并传入参数的方式来创建数组实例;在背后的实现是调用Array的 
  工厂方法模式apply来构建出数组及数组的内容; 
  4、可以省略[Int]这个泛型类型,是因为Scala有类型推导能力,已经传入了当前数组的值,所以可以根据值来推导出类型; 
  5、形如“val names = Array(“Scala”, “Kafka”, “Spark”)”,关于Array本身在底层的实现是借助了JVM平台上的Java语言的数组实现,是不可变的; 
  6、如果想使用可变数组,首先需导入“import
scala.collection.mutable.ArrayBuffer”
,然后使用ArrayBuffer这个可变数组; 
  7、关于ArrayBuffer增加元素默认情况下都是在ArrayBuffer末尾增加元素的,效率非常高; 
  8、当需要多线程并发操作的时候,把ArrayBuffer转换成为Array就非常重要,其实,即使是Array,其本身虽然不可变动(元素不可删减),但是可以修改Array中每个元素的内容,所以多线程操作的时候,还是必须考虑; 
  9、如果想在已经有的数组的基础上通过作用于每个元素来生成新的元素构成新的数组,则可以通过“yield”语法来完成,这在大数据中意义重大: 
  第一点:它是在不修改已经有的Array的内容的基础上完成的,非常适合于大数据的处理; 
  第二点:在大数据处理中,例如Spark中业务操作的核心思想就类似于“yield”,来通过使用function对每个元素操作获得新的元素构成的新集合,其实就是新的RDD,例如MapPartitionsRDD 
  10、集合的操作往往可以通过丰富的操作算子,例如filter来过滤需要条件的元素,例如map来进行每一个元素的加工; 
  以下是示例代码 
  

  1. object HelloArrayOps {
  2.  
  3. def main(args: Array[String]): Unit = {
  4.  
  5. //最原始创建数组array1的方式,这个数组包含5个Int类型元素,5个元素初始化为0
  6.  
  7. val array1 = new Array[Int](5)
  8.  
  9. //创建一个数组array2,用(1 2 3 4 5)5个Int型数据进行初始化
  10.  
  11. val array2 = Array[Int](1,2,3,4,5)
  12.  
  13. //可以省略[Int]这个泛型类型,是因为Scala有类型推导能力,已经传进了当前数组的值,所以可以根据值来推导出类型;
  14.  
  15. val array3 = Array(1,2,3,4,5)
  16.  
  17. //以下创建数组方法与val array2 = Array(1,2,3,4,5)等价
  18.  
  19. val array4 = Array.apply(1,2,3,4,5)
  20.  
  21. //虽然array4是用val定义的,但数组元素的值是可以被再次赋值,第一个元素的值被修改为10
  22.  
  23. array4(0) = 10
  24.  
  25. //通过for循环打印array4所有元素
  26.  
  27. for(item <- array4) println(item)
  28.  
  29. //定义一个有3个字符串类型Array数组names
  30.  
  31. val names = Array("Scala", "Kafka", "Spark")
  32.  
  33. for(item <- names) println(item)
  34.  
  35. //导入包scala.collection.mutable.ArrayBuffer
  36.  
  37. import scala.collection.mutable.ArrayBuffer
  38.  
  39. //定义一个Int类型的ArrayBuffer
  40.  
  41. val arrayBuffer = ArrayBuffer[Int]()
  42.  
  43. //向数组arrayBuffer中追加一个元素
  44.  
  45. arrayBuffer += 1
  46.  
  47. arrayBuffer += 2
  48.  
  49. arrayBuffer += 3
  50.  
  51. //将序列(4 5 6 7 8 9 10)追加到数组arrayBuffer中
  52.  
  53. arrayBuffer += (4,5,6,7,8,9,10)
  54.  
  55. //将一个Array数组追加到arrayBuffer中
  56.  
  57. arrayBuffer ++= Array(1,2,3)
  58.  
  59. //通过insert方法在arrayBuffer数组中length-1的位置插入指定元素,以下是插入两个元素100,1000
  60.  
  61. //此时arrayBuffer的值为:1 2 3 4 5 6 7 8 9 10 1 2 100 1000 3
  62.  
  63. arrayBuffer.insert(arrayBuffer.length - 1, 100,1000)
  64.  
  65. //通过remove方法删除arrayBuffer中指定位置的元素
  66.  
  67. //此时arrayBuffer的值为:1 2 3 4 5 6 7 8 9 10 1 2 100 3
  68.  
  69. arrayBuffer.remove(arrayBuffer.length - 2)
  70.  
  71. //当需要多线程并发操作的时候,把ArrayBuffer转换成为Array就非常重要;
  72.  
  73. arrayBuffer.toArray
  74.  
  75. for(item <- arrayBuffer) println(item)
  76.  
  77. val array5 = Array(1,2,3,4,5)
  78.  
  79. print("array5-1: ")
  80.  
  81. for(i <- 0 until array5.length) print(array5(i) + " ")
  82.  
  83. //打印array5-1: 1 2 3 4 5
  84.  
  85. println
  86.  
  87. print("array5-2: ")
  88.  
  89. //以step等于2的方式遍历array5数组元素
  90.  
  91. for(i <- 0 until (array5.length, 2)) print(array5(i) + " ")
  92.  
  93. //打印array5-2: 1 3 5
  94.  
  95. println
  96.  
  97. print("array5-3: ")
  98.  
  99. //以反序方式从数组末尾到数组头遍历元素
  100.  
  101. for(i <- (0 until array5.length).reverse) print(array5(i) + " ")
  102.  
  103. //打印array5-3: 5 4 3 2 1
  104.  
  105. println
  106.  
  107. //数组求各
  108.  
  109. println("array5 Sum = " + array5.sum)
  110.  
  111. //打印array5 Sum = 15
  112.  
  113. //数组求最大数
  114.  
  115. println("array5 Max = " + array5.max)
  116.  
  117. //打印array5 Max = 5
  118.  
  119. val array6 = arrayBuffer.toArray
  120.  
  121. //array6的值:1 2 3 4 5 6 7 8 9 10 1 2 100 3
  122.  
  123. //对数组进行升序排序
  124.  
  125. scala.util.Sorting.quickSort(array6)
  126.  
  127. print("array6-1: ")
  128.  
  129. for(i <- 0 until array6.length) print(array6(i) + " ")
  130.  
  131. //排序后打印array6-1: 1 1 2 2 3 3 4 5 6 7 8 9 10 100
  132.  
  133. println
  134.  
  135. print("array6-2: ")
  136.  
  137. println(array6.mkString(","))
  138.  
  139. //打印array6-2: 1,1,2,2,3,3,4,5,6,7,8,9,10,100
  140.  
  141. print("array6-3: ")
  142.  
  143. println(array6.mkString("****", ",", "****"))
  144.  
  145. //打印array6-3: ****1,1,2,2,3,3,4,5,6,7,8,9,10,100****
  146.  
  147. val array7 = arrayBuffer.toArray
  148.  
  149. print("array7: ")
  150.  
  151. for(i <- 0 until array7.length) print(array7(i) + " ")
  152.  
  153. //打印array7: 1 2 3 4 5 6 7 8 9 10 1 2 100 3
  154.  
  155. println
  156.  
  157. //"yield"语法在已经有的数组的基础上通过作用于每个元素来生成新的元素构成新的数组,这里对每一个元素都加1
  158.  
  159. val arrayAddedOne = for(item <- array7) yield item + 1
  160.  
  161. println("arrayAddedOne: " + arrayAddedOne.mkString(" "))
  162.  
  163. //打印arrayAddedOne: 2 3 4 5 6 7 8 9 10 11 2 3 101 4
  164.  
  165. //提取数组array7中的偶数然后用"yield"语法对这些偶数进行加1操作,然后得到新的数组赋给array8
  166.  
  167. val array8 = for(item <- array7 if item % 2 == 0) yield item + 1
  168.  
  169. println("array8: " + array8.mkString(" "))
  170.  
  171. //打印array8: 3 5 7 9 11 3 101
  172.  
  173. val array9 = array7
  174.  
  175. print("array9-1: ")
  176.  
  177. //通过filter提取偶数
  178.  
  179. println(array9.filter{x => x % 2 == 0}.mkString(" "))
  180.  
  181. //打印array9-1: 2 4 6 8 10 2 100
  182.  
  183. print("array9-2: ")
  184.  
  185. //同样是通过filter提取偶数,但采用的占位符方式
  186.  
  187. println(array9.filter(_ % 2 == 0).mkString(" "))
  188.  
  189. //打印array9-2: 2 4 6 8 10 2 100
  190.  
  191. print("array9-3: ")
  192.  
  193. //采用占位符方式提取数组偶数并进行乘10操作
  194.  
  195. println(array9.filter{_ % 2 == 0}.map { x => x * 10}.mkString(" "))
  196.  
  197. //打印array9-3: 20 40 60 80 100 20 1000
  198.  
  199. print("array9-4: ")
  200.  
  201. //等价于array9-3
  202.  
  203. println(array9.filter{_ % 2 == 0}.map { _ * 10}.mkString(" "))
  204.  
  205. //打印array9-4: 20 40 60 80 100 20 1000
  206.  
  207. }
  208.  
  209. }
  210.  
  211. package com.dt.scala.moguyun
  212.  
  213. /**
  214.  
  215. * 1,在Scala的集合体系中Iterable是共同的Trait,Iterable要求继承者实现一些共同的方法,例如对元素的遍历等;
  216.  
  217. * 2,Array是一个非常基础的数据结构,不从属于Scala集合的体系;
  218.  
  219. * 3,Scala的集合体系中集合分为可变集合与不可变集合之分;不可变的集合在scala.collection.immutable包中,
  220.  
  221. * 可变的集合在scala.collection.mutable;
  222.  
  223. * 4, List是元素的列表集合,是不可变的:
  224.  
  225. * 第一点:List中head是指第一个元素,tail是指剩下的元素构成的List集合;
  226.  
  227. * 第二点:使用::这个操作符来把List和其它的元素进行组拼来构建新的List
  228.  
  229. * 第三点:如果集合中没有元素的话,此时为Nil,例如说List中只有一个元素,那么head就是这个元素本身,
  230.  
  231. * tail操作就会返回Nil
  232.  
  233. * 5,LinkedList是元素可变的列表
  234.  
  235. * 6, Set是元素不可重复的集合,且元素是无序的;HashSet中的元素不可变且不可重复且不能够保证顺序;
  236.  
  237. * 7,LinkedHashSet会维护元素的插入顺序;
  238.  
  239. * 8, SortedSet会自动的把插入的元素进行排序;
  240.  
  241. */
  242.  
  243. object Functional_Iterable {
  244.  
  245. def main(args: Array[String]): Unit = {
  246.  
  247. println("============list============")
  248.  
  249. /*
  250.  
  251. List,Tuple长度固定,元素不可变
  252.  
  253. */
  254.  
  255. val range = 1 to 10
  256.  
  257. val list = List(1, 2, 3, 4, 5)
  258.  
  259. println(list.head)
  260.  
  261. println(list.tail)
  262.  
  263. println(0 :: list) //元素与集合相连是用::,而集合与集合相与是用:::
  264.  
  265. println(list(2))
  266.  
  267. //list(1) = 10 //报错:List是不可变的,里面元素不可修改
  268.  
  269. println("============ListBuffer============")
  270.  
  271. /*
  272.  
  273. ListBuffer长度可变,元素可变
  274.  
  275. */
  276.  
  277. val listBuffer = scala.collection.mutable.ListBuffer(1,2,3)
  278.  
  279. listBuffer.append(5)//添加一个元素
  280.  
  281. listBuffer += 8//添加一个元素
  282.  
  283. listBuffer -= 2//移除第二个元素
  284.  
  285. println("listBuffer: " + listBuffer)
  286.  
  287. println("============LinkedList============")
  288.  
  289. var linkedList = scala.collection.mutable.LinkedList(1, 2, 3, 4, 5)
  290.  
  291. println(linkedList.elem) //这是取出第一个元素,会改变集合内容
  292.  
  293. println(linkedList.head) //第一个元素
  294.  
  295. println(linkedList.tail)
  296.  
  297. while (linkedList != Nil) {
  298.  
  299. println(linkedList.elem)
  300.  
  301. linkedList = linkedList.tail //重新赋值了
  302.  
  303. }
  304.  
  305. println("linkedList: " + linkedList)
  306.  
  307. //+: 在列表的头部添加一个元素
  308.  
  309. //:+ 在列表的尾部添加一个元素
  310.  
  311. //:: 在列表的头部添加一个元素
  312.  
  313. val copied = linkedList.+:(9)//.+:等价于+:
  314.  
  315. println(copied)
  316.  
  317. println("============Set============")
  318.  
  319. val set = Set(1, 2, 3, 4, 5)
  320.  
  321. println(set)
  322.  
  323. val setMore = set + 10
  324.  
  325. println("Set: " + setMore)
  326.  
  327. println("============HashSet============")
  328.  
  329. val hashSet = scala.collection.mutable.HashSet(1, 2, 3)
  330.  
  331. hashSet += 5
  332.  
  333. hashSet += 50
  334.  
  335. println("hashSet: " + hashSet)
  336.  
  337. println("============LinkedHashSet============")
  338.  
  339. val linkedHashSet = scala.collection.mutable.LinkedHashSet(1, 2, 3)
  340.  
  341. linkedHashSet += 5
  342.  
  343. linkedHashSet += 50
  344.  
  345. linkedHashSet += 4
  346.  
  347. println("linkedHashSet: " + linkedHashSet)
  348.  
  349. println("============SortedSet============")
  350.  
  351. val sortedSet = scala.collection.mutable.SortedSet(1, 2, 3, 5, 50, 4)
  352.  
  353. println("SortedSet" + sortedSet)
  354.  
  355. println(List[String]("I am into Spark so much", "Scala is powerful").flatMap { x => x.split(" ") }.map { x => (x, 1) }.map(x => x._2).reduce(_ + _))
  356.  
  357. println(List[String]("I am into Spark so much", "Scala is powerful").flatMap { x => x.split(" ") }.map {
  358.  
  359. (_, 1)
  360.  
  361. }.map(_._2).reduce(_ + _))
  362.  
  363. println(List[String]("I am into Spark so much", "Scala is powerful").flatMap { x => x.split(" ") }.map {
  364.  
  365. (_, 1)
  366.  
  367. }.map(_._2).reduce((x, y) => x + y))
  368.  
  369. List(0, 1, 2, 3, 4, 5).foreach { x => println(x) }
  370.  
  371. List(0, 1, 2, 3, 4, 5).foreach { println(_) }
  372.  
  373. List(0, 1, 2, 3, 4, 5).foreach { println _ }
  374.  
  375. List(0, 1, 2, 3, 4, 5).foreach { println }
  376.  
  377. List(0, 1, 2, 3, 4, 5).foreach(println)
  378.  
  379. }
  380.  
  381. }

Scala集合操作的更多相关文章

  1. Scala实战高手****第6课 :零基础实战Scala集合操作及Spark源码解析

    本课内容1.Spark中Scala集合操作鉴赏2.Scala集合操作实战 --------------------------------------------------------------- ...

  2. Scala学习教程笔记三之函数式编程、集合操作、模式匹配、类型参数、隐式转换、Actor、

    1:Scala和Java的对比: 1.1:Scala中的函数是Java中完全没有的概念.因为Java是完全面向对象的编程语言,没有任何面向过程编程语言的特性,因此Java中的一等公民是类和对象,而且只 ...

  3. Scala中的数组和集合操作

    package test /* 1.在scala集合中,Iterable是共同的Trait,Iterable要求继承者实现一些共同的方法,例如元素的遍历 * 2.Array是scala基础的数据结构, ...

  4. 9、scala函数式编程-集合操作

    一.集合操作1 1.Scala的集合体系结构 // Scala中的集合体系主要包括:Iterable.Seq.Set.Map.其中Iterable是所有集合trait的根trai.这个结构与Java的 ...

  5. 10. Scala数据结构(上)-集合操作

    10.1 数据结构特点 10.1.1 Scala集合基本介绍 uml => 统一建模语言 1) Scala同时支持不可变集合和可变集合,不可变集合可以安全的并发访问 两个主要的包 不可变集合:s ...

  6. Scala集合常用方法解析

    Java 集合 : 数据的容器,可以在内部容纳数据  List : 有序,可重复的  Set : 无序,不可重复  Map : 无序,存储K-V键值对,key不可重复 scala 集合 : 可变集合( ...

  7. Scala集合(一)

    Scala集合的主要特质 Iterator,用来访问集合中所有元素 val coll = ... // 某种Iterable val iter = col.iterator while(iter.ha ...

  8. Scala集合类型详解

    Scala集合 Scala提供了一套很好的集合实现,提供了一些集合类型的抽象. Scala 集合分为可变的和不可变的集合. 可变集合可以在适当的地方被更新或扩展.这意味着你可以修改,添加,移除一个集合 ...

  9. 再谈Scala集合

    集合!集合!一个现代语言平台上的程序员每天代码里用的最多的大概就是该语言上的集合类了,Scala的集合丰富而强大,至今无出其右者,所以这次再回过头再梳理一下. 本文原文出处:  还是先上张图吧,这是我 ...

随机推荐

  1. Navicat常用快捷键

    [ctrl+q]           打开查询窗口 [ctrl+/]            注释sql语句 [ctrl+shift +/]    解除注释 [ctrl+r]               ...

  2. SQL Server 2008 存储过程,带事务的存储过程(创建存储过程,删除存储过程,修改存储过

    SQL Server 2008 存储过程,带事务的存储过程(创建存储过程,删除存储过程,修改存储过     存储过程 创建存储过程 use pubs --pubs为数据库 go create proc ...

  3. KVM 介绍(3):I/O 全虚拟化和准虚拟化 [KVM I/O QEMU Full-Virtualizaiton Para-virtualization]

    学习 KVM 的系列文章: (1)介绍和安装 (2)CPU 和 内存虚拟化 (3)I/O QEMU 全虚拟化和准虚拟化(Para-virtulizaiton) (4)I/O PCI/PCIe设备直接分 ...

  4. plain framework 1 参考手册 入门指引之 简明教程

    简明教程 简单的例子 实现代码 简单的例子 如果你已经下载好整个框架的源码,那么你可以在这里找到应用的例子: plainframework/applications/pf_simple 如果你在win ...

  5. 怎样运用好ZBrush中的布尔运算

     我们知道DynaMesh常用于基础模型的起稿到中模的制作,它是ZBrush ® 4R2新增的功能,其强大的功能除了对模型进行重新布线,还可以进行布尔运算.配合Insert笔刷进行布尔运算,可以做出Z ...

  6. 《Python核心编程》部分错误纠正(勘误表)(持续更新)

    Chapter 3: 例3-1 makeTextFile.py #!/usr/bin/env python 'makeTextFile.py' import os ls = os.linesep #g ...

  7. Codeforces 687B. Remainders Game[剩余]

    B. Remainders Game time limit per test 1 second memory limit per test 256 megabytes input standard i ...

  8. Codeforces Round #371 (Div. 2) C. Sonya and Queries[Map|二进制]

    C. Sonya and Queries time limit per test 1 second memory limit per test 256 megabytes input standard ...

  9. 第16章 调色板管理器_16.4 一个DIB位图库的实现(2)

    //接上一篇 //DibPal.h /*----------------------------------------------------------------- DIBPAL.H heade ...

  10. Hibernate批量处理数据、HQL连接查询

    一.批量处理操作 批量处理数据是指在一个事务场景中处理大量数据.在应用程序中难以避免进行批量操作,Hibernate提供了以下方式进行批量处理数据: (1)使用HQL进行批量操作     数据库层面 ...