Spark练习代码

1、scalaWordCount

package com._51doit.spark.day1

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object ScalaWorldCount {

def main(args: Array[String]): Unit = {

//第一步：创建SparkContext
val conf: SparkConf = new SparkConf().setAppName("ScalaWorldCount")
val sc = new SparkContext(conf)

//第二步，指定以后从hdfs中读取数据创建RDD（神奇的大集合）
//正确但是不建议sc.textFile(args(0)).flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).sortBy(_._2,false).saveAsTextFile(args(1))
val lines: RDD[String] = sc.textFile(args(0))

//切分压平
val words: RDD[String] = lines.flatMap(_.split(""))

//将单词和1组合在一起
val wordAndOne: RDD[(String, Int)] = words.map((_,1))

//聚合
val reduced: RDD[(String, Int)] = wordAndOne.reduceByKey(_+_,1)

//排序
val sorted: RDD[(String, Int)] = reduced.sortBy(_._2,false)

//将数据保存到HDFS中
sorted.saveAsTextFile(args(1))

//最后释放资源
sc.stop()

}
}

2、FavTeacherInSubject

package com._51doit.spark.day2

import java.net.URL

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object FavTeacherInSubject {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setAppName(this.getClass.getSimpleName)

    val sc = new SparkContext(conf)

    val lines: RDD[String] = sc.textFile(args(0))

    //处理数据
    val subjectTeacherAndOne: RDD[((String, String), Int)] = lines.map(line => {
      val teacher = line.substring(line.lastIndexOf("/") + 1)
      val url = new URL(line)
      val host = url.getHost
      val subject = host.substring(0, host.indexOf("."))
      ((subject, teacher), 1)
    })

    //聚合
    val reduced: RDD[((String, String), Int)] = subjectTeacherAndOne.reduceByKey(_+_)

    //按照学科进行分组
    val grouped: RDD[(String, Iterable[((String, String), Int)])] = reduced.groupBy(_._1._1)

    //组内排序
    val sorted: RDD[(String, List[((String, String), Int)])] = grouped.mapValues(_.toList.sortBy(-_._2).take(2))

    //把数据保存到hdfs
    sorted.saveAsTextFile(args(1))

    sc.stop()

  }
}

3、(根据IP规则，计算用户的地区分布数量)

package com._51doit.spark.day3

import com._51doit.spark.utils.MyUtil
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

import scala.collection.mutable.ArrayBuffer

object IpLocation {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setAppName(this.getClass.getSimpleName)

    val sc = new SparkContext(conf)

    //指定以后从哪里读取数据创建RDD
    val accessLog: RDD[String] = sc.textFile(args(0))

    //对数据进行处理
    val provinceAndOne: RDD[(String, Int)] = accessLog.map(line => {
      val fields = line.split("[|]")
      val ip = fields(1)
      val ipNum = MyUtil.ip2Long(ip)
      val province = IpRulesUtil.binarySearch(ipNum)
      (province, 1)
    })

    //聚合
    val reudced: RDD[(String, Int)] = provinceAndOne.reduceByKey(_+_)

    reudced.saveAsTextFile(args(1))

    sc.stop()
  }

}

package com._51doit.spark.day3

import java.io.{BufferedReader, InputStreamReader}
import java.net.URI

import org.apache.hadoop.conf.Configuration
import org.apache.hadoop.fs.{FSDataInputStream, FileSystem, Path}

import scala.collection.mutable.ArrayBuffer

object IpRulesUtil {

  //初始化一个集合
  val ipRules = new ArrayBuffer[(Long, Long, String)]()

  //hdfs的读取数据的过程
  val conf = new Configuration()
  val fs: FileSystem = FileSystem.get(URI.create("hdfs://node-1.51doit.com:9000"), conf)
  val in: FSDataInputStream = fs.open(new Path("/iprules/ip.txt"))
  val reader = new BufferedReader(new InputStreamReader(in))

  var line = reader.readLine()

  while (line != null) {
    val fields = line.split("[|]")
    val startNum = fields(2).toLong
    val endNum = fields(3).toLong
    val province = fields(6)
    ipRules.append((startNum, endNum, province))

    line = reader.readLine()
  }

  def binarySearch(ip: Long) : String = {
    var low = 0
    var high = ipRules.length - 1
    while (low <= high) {
      val middle = (low + high) / 2
      if ((ip >= ipRules(middle)._1) && (ip <= ipRules(middle)._2))
        return ipRules(middle)._3
      if (ip < ipRules(middle)._1)
        high = middle - 1
      else {
        low = middle + 1
      }
    }
    "未知"
  }
}

Spark练习代码的更多相关文章

Spark SQL 代码简要阅读（基于Spark 1.1.0）
Spark SQL允许相关的查询如SQL,HiveQL或Scala运行在spark上.其核心组件是一个新的RDD:SchemaRDD,SchemaRDDs由行对象组成,并包含一个描述此行对象的每一列的 ...
整合Kafka到Spark Streaming——代码示例和挑战
作者Michael G. Noll是瑞士的一位工程师和研究员,效力于Verisign,是Verisign实验室的大规模数据分析基础设施(基础Hadoop)的技术主管.本文,Michael详细的演示了如 ...
合并Spark社区代码的正确姿势
原创文章,转载请保留出处最近刚刚忙完Spark 2.2.0的性能测试及Bug修复,社区又要发布2.1.2了,国庆期间刚好有空,过了一遍2.1.2的相关JIRA,发现有不少重要修复2.2.0也能用上, ...
Spark测试代码
测试代码: import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.sql.hive.HiveContext ...
Spark算子代码实践
package com.dingxin.datainit import org.apache.log4j.{Level, Logger} import org.apache.spark.sql.Spa ...
Idea 编写 Spark 示例代码并打包成Jar
说明:本人是在Linux下搭建的单机Spark环境,也是在Linux下使用Idea14.02进行代码编辑 1. 打开IDEA,在欢迎界面从右下角的Configure -> Plugins进入,安 ...
python+spark程序代码片段
处理如此的字符串: time^B1493534543940^Aid^B02CD^Aasr^B叫爸爸^Anlp^B{"domain":"com.abc.system.cha ...
spark java 代码example
https://github.com/apache/spark/tree/master/examples/src/main/java/org/apache/spark/examples
Spark菜鸟学习营Day6 分布式代码运行调试
Spark菜鸟学习营Day6 分布式代码运行调试作为代码调试,一般会分成两个部分语法调试,也就是确定能够运行结果调试,也就是确定程序逻辑的正确其实这个都离不开运行,所以我们说一下如何让开发的S ...

随机推荐

ABP框架系列之四：(Repositories-仓库)
"Mediates between the domain and data mapping layers using a collection-like interface for acce ...
python基本数据类型之整型和浮点型
python基本数据类型之数字与浮点型在python3中,整数的数据类型为int,而浮点数的数据类型为float.python2中整数可以是int和long(长整型)两种类型,python3只保留了 ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记十九之铭文升级版
铭文一级:(没有内容) 铭文二级: 创建Spring boot项目: 看官网,Quick Start下面有两个依赖,必须得使用但是如果用IDEA构建Spring boot,则会自动添加 New Pr ...
数组-Array
1.数组的概念 /* 数组的格式数组: 同一种数据类型的若干个值的容器元素:数组中的值称为元素索引:元素的标号,从0开始长度:数组中元素的个数 */ public class ArrayDem ...
Internetworking
1 Introduction 所谓的InternetWorking就是将很多网络连接起来,那么在这种连接的网络下我们该如何传送封包呢? 2 IP and Routers 1 IP Datagram H ...
WPF学习笔记（6）：DataSet更新后台数据库个别列失败的问题
WPF窗体中建有一个DataGrid,运行后修改各行数据,通过Update方法更新后台数据库.发现在数据库中,其中一列FAcctID(文本型)每次都会变为0,还有一列FDebit(货币型)不能更新,其 ...
three.js 一幅图片多个精灵
https://blog.csdn.net/zhulx_sz/article/details/79105359 核心代码 // 把一幅外部图片中包含的5种精灵存入一个精灵材质数组 var sprite ...
WebRTC 学习之 Intel® Collaboration Suite for WebRTC 关键类整理
关键类整理 ---> ConferenceClient.ConferenceClientObserver. 一.ConferenceClient ConferenceClient是一个应用程序在 ...
Servlet案例7：jsp技术及案例
jsp运行原理: 根据jsp文件创建java文件(servlet),并编译运行第一次访问时会被翻译成servlet后执行 jsp三个指令: 1.page指令:页面翻译运行的属性的配置(通常使用默认) ...
Java学习笔记36（File类）
File类可以对操作系统中的文件进行操作: File类的静态成员变量: package demo; import java.io.File; public class FileDemo { publi ...

Spark练习代码

Spark练习代码的更多相关文章

随机推荐

热门专题