scala_spark实践1

/**

  *  scala模型的main(args:Array[String])是业务执行入口

  *  org.apache.spark.{SparkConf, SparkContext}

  *  val sparkConf =new SparkConf().setAppName(appName)

  *  val ssc = new StreamingContext(sparkConf, Seconds(batchNum))

  *  val sc = ssc.sparkContext  //如果代码中不用StreamingContextval 只需要SparkContext则new一个如val sc = new SparkContext(sparkConf)

  *

  *  val sqlContext = new HiveContext(sc)//HiveContext是对SQLContext的扩展 val sqlContext = new SQLContext(sc)

  *  val result:DataFrame = sqlContext.sql(sql)

  *  //2.0之后HiveContext和SQLContext也可以用SparkSession替换val result =SparkSession.builder().appName("test").config("key","value").getOrCreate().sql(sql)

  *

  *  项目中一般用json处理，如发送kafka或者格式转换和过滤

  *   val resultRdd = result.toJSON.rdd.map(x => {

          val json = new JSONObject(x)

          val computerIp = json.optString("ip", "")

          val rowKey = json.optString("name", "")

          ......

          val dataMap = new util.HashMap[String, String]()

          dataMap.put("computerip", computerIp)

          (rowKey, dataMap)

      })

   val bhaseRdd = resultRdd.filter(r => {

   r._1 != "" && r._1 != null && r._1.length > 0

   }).map(line => {

   val put = new Put(Bytes.toBytes(line._1)) //rowKey 为参数，拿到put

   val key = line._2.keySet().iterator(); //拿到对应的dataMap

   while (key.hasNext) {

    val k = key.next().toString

    put.addColumn(Bytes.toBytes("info"), Bytes.toBytes(k), Bytes.toBytes(line._2.get(k)))

   }

    (new ImmutableBytesWritable(), put)

   })

   val hadoopconf = sc.hadoopConfiguration

   val jobconf = new JobConf(hadoopconf)

   jobconf.setMapOutputKeyClass(classOf[ImmutableBytesWritable])

   jobconf.setOutputValueClass(classOf[Result])

   jobconf.setClass("mapreduce.job.outputformat.class", classOf[TableOutputFormat[ImmutableBytesWritable]],classOf[OutputFormat[ImmutableBytesWritable, Mutation]])

   jobconf.set(TableOutputFormat.OUTPUT_TABLE, table)

   bhaseRdd.saveAsNewAPIHadoopDataset(jobconf) //存入Hasee

  *-----------------------------------------------------------------------------------------------------------

  * class KafkaSink(createProducer: () => KafkaProducer[String, String]) extends Serializable {

    lazy val producer = createProducer()

    def send(topic: String, value: String): Unit ={

      producer.send(new ProducerRecord(topic, value))

    }

    }

  object KafkaSink {

    def apply(config: java.util.Map[String, Object]): KafkaSink = {

      val f = () => {

        val producer = new KafkaProducer[String, String](config)

        producer

      }

      new KafkaSink(f)

    }

  }

  *val kafka = sc.broadcast(KafkaSink(Configs.kafka_props))

  *selectDatas.toJSON.rdd.foreach(x => {

      val json = new JSONObject(x)

      kafka.value.send(topic, json.toString)

  })

  *//发送topic

  *-------------------------------------------------------------------

* val kafkaStream= KafkaUtils.createStream[String,String,StringDecoder,StringDecoder](ssc,kafka_param,topic,StorageLevel.MEMORY_AND_DISK_SER).map(_._2)

* kafkaStream.foreachRDD(rdd =>{

*   rdd.foreach(data=> {

* //消费kafka

*/

scala_spark实践1的更多相关文章

scala_spark实践4
SparkStreaming中foreachRDD SparkStreaming是流式实时处理数据,就是将数据流按照定义的时间进行分割(就是“批处理”).每一个时间段内处理的都是一个RDD.而Spar ...
scala_spark实践3
Spark 读写HBase优化读数据可以采用RDD的方式读取HBase数据: val conf = HBaseConfiguration.create() conf.set(TableInputF ...
scala_spark实践2
参考:jianshu.com/p/9d2d225c1951 监听socket获取数据,代码如下:这里使用nc -lk 9999 在ip为10.121.33.44的机器上发送消息 object Sock ...
webp图片实践之路
最近,我们在项目中实践了webp图片,并且抽离出了工具模块,整合到了项目的基础模板中.传闻IOS10也将要支持webp,那么使用webp带来的性能提升将更加明显.估计在不久的将来,webp会成为标配. ...
Hangfire项目实践分享
Hangfire项目实践分享目录 Hangfire项目实践分享目录什么是Hangfire Hangfire基础基于队列的任务处理(Fire-and-forget jobs) 延迟任务执行(De ...
TDD在Unity3D游戏项目开发中的实践
0x00 前言关于TDD测试驱动开发的文章已经有很多了,但是在游戏开发尤其是使用Unity3D开发游戏时,却听不到特别多关于TDD的声音.那么本文就来简单聊一聊TDD如何在U3D项目中使用以及如何使 ...
Logstash实践: 分布式系统的日志监控
文/赵杰 2015.11.04 1. 前言服务端日志你有多重视? 我们没有日志有日志,但基本不去控制需要输出的内容经常微调日志,只输出我们想看和有用的经常监控日志,一方面帮助日志微调,一方面及 ...
【大型网站技术实践】初级篇：借助Nginx搭建反向代理服务器
一.反向代理:Web服务器的“经纪人” 1.1 反向代理初印象反向代理(Reverse Proxy)方式是指以代理服务器来接受internet上的连接请求,然后将请求转发给内部网络上的服务器,并将从 ...
Windows平台分布式架构实践 - 负载均衡
概述最近.NET的世界开始闹腾了,微软官方终于加入到了对.NET跨平台的支持,并且在不久的将来,我们在VS里面写的代码可能就可以通过Mono直接在Linux和Mac上运行.那么大家(开发者和企业)为 ...

随机推荐

使用 Pandas 的 to_excel() 方法来将多个 csv 文件合并到一个 xlsx 的不同 sheets 内
这几天在用 Python3 研究一个爬虫,最后一个需求是把爬下来的20+个csv文件整合到一个excel表里的不同sheets. 初版的核心代码如下: while year <= 2018: c ...
nuxt创建项目的步骤
nuxt创建项目的步骤 1.基本步骤 // 创建package.json依赖管理文件 npm init -y // 在package.json文件中添加运行nuxt的命令,之后npm run dev启 ...
SpringMVC框架——原理及使用
核心组件 1. DispatcherServlet:前端控制器器,负责调度其他组件的执行,可降低不同组件之间的耦合性,是Spring MVC 的核心模块. 2. Handler:处理器,完成具体的业务 ...
安装RationalRose的问题解决
列出大问题:在这一步无法进行下一步,直接就只能退出. 翻译过来的意思是:IBM安装程序被完全下载之前就终止了,大概是这个意思. 然后我就直接进了IBM的官网看了一下产品支持,上面解释说是组件clear ...
CentOS7 部署 Hadoop 3.2.1 (伪分布式)
CentOS: Linux localhost.localdomain 3.10.0-862.el7.x86_64 #1 SMP Fri Apr 20 16:44:24 UTC 2018 x86_64 ...
AQS源码解析
文大篇幅引用自HongJie大佬的一行一行源码分析清楚AbstractQueuedSynchronizer,这只是一篇简单的个人整理思路和总结(倒垃圾),如果觉得有些难懂的话,不要犹豫也不要疑惑,很明 ...
[讲解]prim算法<最小生成树>
最小生成树的方法一般比较常用的就是kruskal和prim算法一个是按边从小到大加,一个是按点从小到大加,两个方法都是比较常用的,都不是很难... kruskal算法在本文里我就不讲了,本文的重点是 ...
1.Metasploit介绍与基本命令
Metasploit体系框架介绍 Metasploit是目前世界上领先的渗透测试工具,也是信息安全与渗透测试领域最大的开源项目之一.它彻底改变了我们执行安全测试的方式. Metasploit之所以流行 ...
Apache本地服务器搭建（Mac版）
由于Mac自带apache服务器,所以无需下载,apache默认处于开启状态. 可以在浏览器输入localhost,显示It works!,代表目前处于开启状态,默认文件目录为/Library/Web ...
STM32CubeMX的安装
1.下载STM32CubeMX 在ST的官方网站上下载STM32CubeMXXX软件的安装包. 下载的安装包如下图所示.双击SetupSTM32CubeMX-5.0.1.exe. 安装STM32Cub ...

scala_spark实践1

scala_spark实践1的更多相关文章

随机推荐

热门专题