flum到kafka 收集数据存储到redis 案例（ip.txt）

ip.scala

package ip

import org.apache.kafka.clients.consumer.ConsumerRecord

import org.apache.kafka.common.serialization.StringDeserializer

import org.apache.log4j.{Level, Logger}

import org.apache.spark.SparkConf

import org.apache.spark.rdd.RDD

import org.apache.spark.streaming.dstream.InputDStream

import org.apache.spark.streaming.kafka010._

import org.apache.spark.streaming.{Seconds, StreamingContext}

object ip {

  Logger.getLogger("org").setLevel(Level.WARN)

  def main(args: Array[String]): Unit = {

    //new sc

    val conf = new SparkConf ()

      .setAppName ( this.getClass.getSimpleName )

      .setMaster ( "local[*]" )

    val ssc=new StreamingContext(conf,Seconds())

    //创建topic

    val topic="ip01"

    val topics=Array(topic)

    //创建groupid

    val groupid="IPoffsets"

    //创建kafka链接参数

    val params=Map(

      "bootstrap.servers" -> "hadoop01:9092,hadoop02:9092,hadoop03:9092",

      "key.deserializer" -> classOf[StringDeserializer],

      "value.deserializer" -> classOf[StringDeserializer],

      "group.id" -> groupid,

      //告诉大家从哪里消费

      "auto.offset.reset" -> "earliest",

      //是否自动提交偏移量

      "enable.auto.commit" -> (false: java.lang.Boolean)

    )

    //创建kafka直连方式

    //判断偏移量是否存在

    val stream: InputDStream[ConsumerRecord[String, String]] =

      KafkaUtils.createDirectStream(

        ssc,

        LocationStrategies.PreferConsistent,

        ConsumerStrategies.Subscribe[String,String](topics,params)

      )

    stream.foreachRDD(rdd=>{

    rdd.foreach(println(_))

      //开启偏移量

      val ranges: Array[OffsetRange] = rdd.asInstanceOf[HasOffsetRanges].offsetRanges

      //去获取数据

      val ip1:RDD[((String,String,String),Int)] = rdd.map ( tp => {

        val splits = tp.value().split ( "[|]" )

        val prive=splits()

        val city = splits (  )

        val fangshi=splits()

        ((prive,city,fangshi),)

      } ).reduceByKey(_+_)

      //写一个方法，存储数据与偏移量信息

      DateMyRedis.saveDataOffset(ip1,ranges,groupid)

    })

    ssc.start()

    ssc.awaitTermination()

  }

}

DataMyRedis.scala

package ip

import java.util

import day15.Jpoods

import org.apache.kafka.common.TopicPartition

import org.apache.spark.rdd.RDD

import org.apache.spark.streaming.kafka010.OffsetRange

import scala.collection.mutable

object DateMyRedis {

  //保存数据到redis

  def saveDataOffset(result: RDD[((String,String, String),Int)],ranges: Array[OffsetRange],groupingID: String): Unit ={

    result.foreachPartition(filter=>{

      //获取jedis对象

      val jedis = Jpoods.getJedis ()

      //redis开启事务

      val transaction = jedis.multi()

      filter.foreach(tp=>{

        try {

          //存储数据

          transaction.hincrBy("IP1", tp._1._1+":"+tp._1._2+":"+tp._1._3, tp._2)

          //存储偏移量

          for (o <- ranges) {

            transaction.hset(groupingID, o.topic + ":" + o.partition, o.untilOffset.toString)

          }

        }catch {

          case _ =>

            println("报错了，需要回滚")

            transaction.discard()

        }

      })

      transaction.exec()

      jedis.close()

    })

  }

  //从redis中获取偏移量信息

  def getOffset(groupid: String, topic: String): mutable.Map[TopicPartition, Long] = {

    val offset = mutable.Map [TopicPartition, Long]()

    //tp._1  topic+partition   tp._2  offset

    import scala.collection.JavaConversions._

    val jedis = Jpoods.getJedis ()

    //导入转换list隐士转换

    val map: util.Map[String, String] = jedis.hgetAll ( groupid )

    val list = map.toList

    for (o <- list) {

      offset += new TopicPartition ( o._1.split ( ":" )(  ), o._1.split ( ":" )(  ).toInt ) -> o._2.toLong

    }

    offset

  }

}

Jpoods.scala

package day15

import org.apache.commons.pool2.impl.GenericObjectPoolConfig

import redis.clients.jedis.{Jedis, JedisPool}

object Jpoods {

  //设置参数

  private val conf=new GenericObjectPoolConfig()

  conf.setMaxIdle()

  conf.setMaxTotal()

  //获取jedis的连接对象

  private val jpoods=new JedisPool("192.168.186.150",)

  //获取jedis对象的方法

  def getJedis():Jedis={

    val jedis=jpoods.getResource()

    jedis.select()

    jedis

  }

}

shell脚本 flum-kafka.conf

a1.sources = r1

a1.channels = c1

#定义source

a1.sources.r1.type = TAILDIR

a1.sources.r1.positionFile = /usr/local/apache-flume-1.8.-bin/taildir_position.json

a1.sources.r1.filegroups = f1

a1.sources.r1.filegroups.f1 = /root/myde/logs/access.log

#定义channel

a1.channels.c1.type = org.apache.flume.channel.kafka.KafkaChannel

a1.channels.c1.kafka.bootstrap.servers = hadoop01:,hadoop02:,hadoop03:

a1.channels.c1.kafka.topic = ip01

a1.channels.c1.parseAsFlumeEvent = false

#将Source和channle组装在一起

a1.sources.r1.channels = c1

flum到kafka 收集数据存储到redis 案例（ip.txt）的更多相关文章

Spring Boot 揭秘与实战（二）数据存储篇 - Redis
文章目录 1. 环境依赖 2. 数据源 2.1. 方案一使用 Spring Boot 默认配置 2.2. 方案二手动创建 3. 使用 redisTemplate 操作4. 总结 3.1. 工具类 ...
Java基础知识强化之IO流笔记45：IO流练习之把集合中的数据存储到文本文件案例
1. 把集合中的数据存储到文本文件案例: 需求:把ArrayList集合中的字符串数据存储到文本文件 ? (1)分析:通过题目的意思我们可以知道如下的一些内容,ArrayList集合里存储的是字 ...
Python 抓取数据存储到Redis中
redis是一个key-value存储结构.和Memcached类似,它支持存储的value类型相对更多,包括string(字符串).list(链表).set(集合).zset(sorted set ...
redis使用日志（二）数据存储到redis
一段简短的代码,来展示如何把爬取内容写到redis里面: #! /usr/bin/env python # -*- coding=utf-8 -*- import requests import js ...
ELK+Redis+Nginx服务数据存储以及Nginx日志的收集
PS:此片文章是承接上篇ELK部署文档,再次便不详细说明了 [安装Redis] [root@Redis ~]# wget http://download.redis.io/releases/redi ...
Spark Streaming消费Kafka Direct保存offset到Redis，实现数据零丢失和exactly once
一.概述上次写这篇文章文章的时候,Spark还是1.x,kafka还是0.8x版本,转眼间spark到了2.x,kafka也到了2.x,存储offset的方式也发生了改变,笔者根据上篇文章和网上文章 ...
Kafka session.timeout.ms heartbeat.interval.ms参数的区别以及对数据存储的一些思考
Kafka session.timeout.ms heartbeat.interval.ms参数的区别以及对数据存储的一些思考在计算机世界中经常需要与数据打交道,这也是我们戏称CURD工程师的原因之 ...
大数据学习day31------spark11-------1. Redis的安装和启动，2 redis客户端 3.Redis的数据类型 4. kafka（安装和常用命令）5.kafka java客户端
1. Redis Redis是目前一个非常优秀的key-value存储系统(内存的NoSQL数据库).和Memcached类似,它支持存储的value类型相对更多,包括string(字符串).list ...
解决KafKa数据存储与顺序一致性保证
“严格的顺序消费”有多么困难下面就从3个方面来分析一下,对于一个消息中间件来说,”严格的顺序消费”有多么困难,或者说不可能. 发送端发送端不能异步发送,异步发送在发送失败的情况下,就没办法保证消息 ...

随机推荐

django 自带认证系统（login，logout，authenticate，login_required）
from django.contrib.auth import login,authenticate,logoutfrom django.contrib.auth.decorators import ...
多线程-生产者消费者（BlockingQueue实现）
三.采用BlockingQueue实现 BlockingQueue也是java.util.concurrent下的主要用来控制线程同步的工具. BlockingQueue有四个具体的实现类,根据不同需 ...
解决Jenkins忘记用户名，密码
windows系统: 进入windows默认目录 C:\Users\Administrator\.jenkins\users 修改配置文件即可
ES修改最大分页数
curl -XPUT http://localhost:9200/my_index/_settings?preserve_existing=true -H 'Content-Type: applica ...
什么？studio3T试用期到了，还没有破解的办法？试制基于python的mongodb CRUD平台
首先,安装python支持的mongodb库pip install pymongo from pymongo import MongoClient client = MongoClient('loca ...
输出1~n中1的个数
//输出1~n中1的个数,如f(1)=1,f(13)=6.通过测试,bymyself public class FindOnes{ public static void main(String arg ...
jquery dblclick()方法语法
jquery dblclick()方法语法作用:当双击元素时,会发生 dblclick 事件.当鼠标指针停留在元素上方,然后按下并松开鼠标左键时,就会发生一次 click.在很短的时间内发生两次 ...
《剑指offer》算法题第四天
今日题目: 二进制中1的个数数值的整数次方调整数组顺序使奇数位于偶数前面链表中倒数第K个节点链表中环的入口节点今天的题目都比较简单,但是前三道题都有不同的解法,4,5两题就不在这边讨论了,其 ...
TensorFlow使用记录 (三）： Learning Rate Scheduling
file: tensorflow/python/training/learning_rate_decay.py 参考:tensorflow中常用学习率更新策略神经网络中通过超参数 learning ...
JS框架_(JQuery.js)夜晚天空满天星星闪烁动画
百度云盘传送门密码:xftr 满天星星闪烁动画效果: (可用星空动画来作为页面背景,白色文字改为文章或者其他的O(∩_∩)O) <!doctype html> <html> ...

flum到kafka 收集数据 存储到redis 案例 （ip.txt）

flum到kafka 收集数据 存储到redis 案例 （ip.txt）的更多相关文章

随机推荐

热门专题

flum到kafka 收集数据存储到redis 案例（ip.txt）

flum到kafka 收集数据存储到redis 案例（ip.txt）的更多相关文章