spark streaming 使用geoIP解析IP

1、首先将GEOIP放到服务器上，如，/opt/db/geo/GeoLite2-City.mmdb

2、新建scala sbt工程，测试是否可以顺利解析

import java.io.File
import java.net.InetAddress
import com.maxmind.db.CHMCache
import com.maxmind.geoip2.DatabaseReader
import org.json4s.DefaultFormats

/**
 * Created by zxh on 2016/7/17.
 */
object test {
  implicit val formats = DefaultFormats

  def main(args: Array[String]): Unit = {
    val url = "F:\\Code\\OpenSource\\Data\\spark-sbt\\src\\main\\resources\\GeoLite2-City.mmdb"
    //    val url2 = "/opt/db/geo/GeoLite2-City.mmdb"
    val geoDB = new File(url);
    geoDB.exists()
    val geoIPResolver = new DatabaseReader.Builder(geoDB).withCache(new CHMCache()).build();
    val ip = "222.173.17.203"
    val inetAddress = InetAddress.getByName(ip)
    val geoResponse = geoIPResolver.city(inetAddress)
    val (country, province, city) = (geoResponse.getCountry.getNames.get("zh-CN"), geoResponse.getSubdivisions.get(0).getNames().get("zh-CN"), geoResponse.getCity.getNames.get("zh-CN"))

    println(s"country:$country,province:$province,city:$city")
  }
}

build.sbt 内容如下

import AssemblyKeys._

assemblySettings

mergeStrategy in assembly <<= (mergeStrategy in assembly) { mergeStrategy =>

{

  case entry => {

    val strategy = mergeStrategy(entry)

    if (strategy == MergeStrategy.deduplicate) MergeStrategy.first

    else strategy

  }

}

}

assemblyOption in assembly := (assemblyOption in assembly).value.copy(includeScala = false)

name := "scala_sbt"

version := "1.0"

scalaVersion := "2.10.4"

libraryDependencies += "com.maxmind.geoip2" % "geoip2" % "2.5.0"

　　将该程序打包，放到服务器上，执行scala -cp ./scala_sbt-assembly-1.0.jar test，解析结果如下

country:中国,province:山东省,city:济南

3、编写streaming程序

import java.io.File
import java.net.InetAddress

import com.maxmind.db.CHMCache
import com.maxmind.geoip2.DatabaseReader
import com.maxmind.geoip2.model.CityResponse
import org.apache.spark.rdd.RDD
import org.apache.spark.streaming.{Time, Seconds, StreamingContext}
import org.apache.spark.{SparkContext, SparkConf}

/**
 * Created by zxh on 2016/7/17.
 */
object geoip {

  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("geoip_test").setMaster("local[2]")
    val sc = new SparkContext(conf)
    val ssc = new StreamingContext(sc, Seconds(10))
    val lines = ssc.socketTextStream("localhost", 9999)

    lines.foreachRDD((rdd: RDD[String], t: Time) => {
      rdd.foreachPartition(p => {
        val url2 = "/opt/db/geo/GeoLite2-City.mmdb"
        val geoDB = new File(url2);
        val geoIPResolver = new DatabaseReader.Builder(geoDB).withCache(new CHMCache()).build();

        def resolve_ip(resp: CityResponse): (String, String, String) = {
          (resp.getCountry.getNames.get("zh-CN"), resp.getSubdivisions.get(0).getNames().get("zh-CN"), resp.getCity.getNames.get("zh-CN"))
        }

        p.foreach(x => {
          if (x != None && x != null && x != "") {
            val inetAddress = InetAddress.getByName(x)
            val geoResponse = geoIPResolver.city(inetAddress)
            println(resolve_ip(geoResponse))
          }
        })
      })
    })

    ssc.start
  }
}
build.sbt

libraryDependencies += "com.maxmind.geoip2" % "geoip2" % "2.5.0"

注意：红色部分需要放到foreachPartition内部，原因如下：

1、减少加载文件次数，一个Partition只加载一次

2、resolve_ip 函数参数为CityResponse，此参数不可序列化，所以要在Partition内部，这样就不会在节点之间序列化传输

3、com.maxmind.geoip2 版本需要是 2.5.0，以便和spark本身兼容，否则会报错如下：

val geoIPResolver = new DatabaseReader.Builder(geoDB).withCache(new CHMCache()).build();
java.lang.NoSuchMethodError: com.fasterxml.jackson.databind.node.ArrayNode.<init>(Lcom/fasterxml/jackson/databind/node/JsonNodeFactory;Ljava/util/List;)V

spark streaming 使用geoIP解析IP的更多相关文章

Spark Streaming揭秘 Day34 解析UI监听模式
Spark Streaming揭秘 Day34 解析UI监听模式今天分享下SparkStreaming中的UI部分,和所有的UI系统一样,SparkStreaming中的UI系统使用的是监听器模式. ...
Spark Streaming on Kafka解析和安装实战
本课分2部分讲解: 第一部分,讲解Kafka的概念.架构和用例场景: 第二部分,讲解Kafka的安装和实战. 由于时间关系,今天的课程只讲到如何用官网的例子验证Kafka的安装是否成功.后续课程会接着 ...
苏宁基于Spark Streaming的实时日志分析系统实践 Spark Streaming 在数据平台日志解析功能的应用
https://mp.weixin.qq.com/s/KPTM02-ICt72_7ZdRZIHBA 苏宁基于Spark Streaming的实时日志分析系统实践原创: AI+落地实践 AI前线 20 ...
Spark Streaming 在数据平台日志解析功能的应用
https://mp.weixin.qq.com/s/bGXhC9hvDj4lzK7wYYHGDg 目前,我们使用Filebeat监控日志产生的目录,收集产生的日志,打到logstash集群,接入ka ...
Spark Streaming运行流程及源码解析（一）
本系列主要描述Spark Streaming的运行流程,然后对每个流程的源码分别进行解析之前总听同事说Spark源码有多么棒,咱也不知道,就是疯狂点头.今天也来撸一下Spark源码. 对Spark的 ...
大数据技术之_19_Spark学习_04_Spark Streaming 应用解析 + Spark Streaming 概述、运行、解析 + DStream 的输入、转换、输出 + 优化
第1章 Spark Streaming 概述1.1 什么是 Spark Streaming1.2 为什么要学习 Spark Streaming1.3 Spark 与 Storm 的对比第2章运行 S ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（二十九）：推送avro格式数据到topic，并使用spark structured streaming接收topic解析avro数据
推送avro格式数据到topic 源代码:https://github.com/Neuw84/structured-streaming-avro-demo/blob/master/src/main/j ...
16.Spark Streaming源码解读之数据清理机制解析
原创文章,转载请注明:转载自听风居士博客(http://www.cnblogs.com/zhouyf/) 本期内容: 一.Spark Streaming 数据清理总览二.Spark Streami ...
7.spark Streaming 技术内幕 : 从DSteam到RDD全过程解析
原创文章,转载请注明:转载自听风居士博客(http://www.cnblogs.com/zhouyf/) 上篇博客讨论了Spark Streaming 程序动态生成Job的过程,并留下一个疑问: ...

随机推荐

求全局最小割（SW算法）
hdu3002 King of Destruction Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (J ...
centos7修改网卡名、密码重置
修改网卡名称编辑 /etc/sysconfig/grub 倒数第二行quiet 后加入 net.ifnames=0 biosdevname=0 执行 grub2-mkconfig -o /bo ...
Shell--基础知识
变量的定义: a=1 b=hello c="hello world !" d='hello "反启" !' e=`ls` (注意:这是反引号) 备注:=号左右 ...
poj1191 棋盘分割【区间DP】【记忆化搜索】
棋盘分割 Time Limit: 1000MS Memory Limit: 10000K Total Submissions: 16263 Accepted: 5812 Description ...
南京网络赛J-Sum【数论】
A square-free integer is an integer which is indivisible by any square number except 11. For example ...
Java web项目配置相关
引申 XML 命名空间(XML Namespaces) XML Schema 教程 XSD(XML Schema Definition) XML Schema 语言也称作 XML Schema 定义. ...
HDU_2888_Check Corners
Check Corners Time Limit: 2000/10000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)To ...
基于Kafka+Spark Streaming+HBase实时点击流案例
背景 Kafka实时记录从数据采集工具Flume或业务系统实时接口收集数据,并作为消息缓冲组件为上游实时计算框架提供可靠数据支撑,Spark 1.3版本后支持两种整合Kafka机制(Receiver- ...
（转）Terraform，自动化配置与编排必备利器
本文来自作者 QingCloud实践课堂在 GitChat 上分享「Terraform,自动化配置与编排必备利器」 Terraform - Infrastructure as Code 什么是 T ...
laravel 多图上传
前台 name="photo[]" 后台获取 $request->file('photo');//获取多个图片循环

spark streaming 使用geoIP解析IP

spark streaming 使用geoIP解析IP的更多相关文章

随机推荐

热门专题