kafka spark steam 写入elasticsearch的部分问题

应用版本

elasticsearch 5.5

spark 2.2.0

hadoop 2.7

依赖包版本

docker cp /Users/cclient/.ivy2/cache/org.elasticsearch/elasticsearch-spark-20_2.11/jars/elasticsearch-spark-20_2.11-6.0.0-alpha2.jar spark:/usr/spark-2.2.0/jars/

问题1

Multiple ES-Hadoop versions detected in the classpath; please use only one

多了其他依赖包我的环境多引入了elasticsearch-hadoop-cascading-6.0.0-alpha2.jar 删除即可

问题2

an id must be provided if version type or value are set;

upsert 时必须指定 id

"es.mapping.id"->"id"

问题3

kafka 存储的是 json 序列化内容，spark 操作中需要反序列化，默认应用的json4s

map(jsonitem=>{
  implicit val formats = DefaultFormats
  parseJson(jsonitem).extract[ESData]
}

ESData 为 case class 若json 字符串不规范，缺少相应字段，则会报错，为该字段设默认值即可

case class ESData(bool_isEssence : Option[Boolean]=Some(false),text_title : String)

另

写入 es 配置官方文档

https://www.elastic.co/guide/en/elasticsearch/hadoop/current/configuration.html

官方示例

es.resource.write = my-collection/{media_type}

index 类型是固定的，经测，同样可以自定义

如

es.resource.write ={media_type}/{media_type}

elasticsearch 存储时根据年月分区

控制信息都保存在源json数据内，spark 写入时只作反序列化，和index 和 type 映射

kafka spark steam 写入elasticsearch的部分问题的更多相关文章

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（二十）ES6.2.2 Client API
scala版本2.11 java版本1.8 spark版本2.2.1 es版本6.2.2 hadoop版本2.9.0 elasticsearch节点列表: 192.168.0.120 192.168. ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（八）安装zookeeper-3.4.12
如何搭建配置centos虚拟机请参考<Kafka:ZK+Kafka+Spark Streaming集群环境搭建(一)VMW安装四台CentOS,并实现本机与它们能交互,虚拟机内部实现可以上网.& ...
demo2 Kafka+Spark Streaming+Redis实时计算整合实践 foreachRDD输出到redis
基于Spark通用计算平台,可以很好地扩展各种计算类型的应用,尤其是Spark提供了内建的计算库支持,像Spark Streaming.Spark SQL.MLlib.GraphX,这些内建库都提供了 ...
hadoop+yarn+hbase+storm+kafka+spark+zookeeper)高可用集群详细配置
配置 hadoop+yarn+hbase+storm+kafka+spark+zookeeper 高可用集群,同时安装相关组建:JDK,MySQL,Hive,Flume 文章目录环境介绍节点介绍 ...
Spark集群 + Akka + Kafka + Scala 开发(4) : 开发一个Kafka + Spark的应用
前言在Spark集群 + Akka + Kafka + Scala 开发(1) : 配置开发环境中,我们已经部署好了一个Spark的开发环境. 在Spark集群 + Akka + Kafka + S ...
storm集成kafka的应用，从kafka读取，写入kafka
storm集成kafka的应用,从kafka读取,写入kafka by 小闪电 0前言 storm的主要作用是进行流式的实时计算,对于一直产生的数据流处理是非常迅速的,然而大部分数据并不是均匀的数据流 ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（二十一）NIFI1.7.1安装
一.nifi基本配置 1. 修改各节点主机名,修改/etc/hosts文件内容. 192.168.0.120 master 192.168.0.121 slave1 192.168.0.122 sla ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十三）kafka+spark streaming打包好的程序提交时提示虚拟内存不足（Container is running beyond virtual memory limits. Current usage: 119.5 MB of 1 GB physical memory used; 2.2 GB of 2.1 G）
异常问题:Container is running beyond virtual memory limits. Current usage: 119.5 MB of 1 GB physical mem ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十二）VMW安装四台CentOS，并实现本机与它们能交互，虚拟机内部实现可以上网。
Centos7出现异常:Failed to start LSB: Bring up/down networking. 按照<Kafka:ZK+Kafka+Spark Streaming集群环境搭 ...

随机推荐

UML-GRASP后4种模式
1.多态 1).什么是多态问题:if-else耦合度过高解决: 方法1:接口方法2:超类里需多态的方法前加上{abstract} 2).相关模式防止异变大量GoF,如适配器(Adapter) ...
pip速度慢解决办法
pip速度慢解决办法 sudo pip3 config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple 注意加不加sudo是 ...
Try setting a different JdbcType for this parameter or a different configuration property. Cause: org.postgresql.util.PSQLException: 栏位索引超过许可范围：2，栏位数：1
执行mybaits sql <delete id="delete4BatchesByLineCi" parameterType="java.util.List&qu ...
树上问题&图论模板整理
去除过水的模板,包括但不限于dijkstra(甚至堆优化都被过滤了).SPFA.kruskal.拓扑排序等. 欧拉回路:http://uoj.ac/problem/117 #include<bi ...
Python笔记_第四篇_高阶编程_再议装饰器和再议内置函数
1. 概述: 我们在前面用了很多的装饰器这个工具的方法.这个位置要系统的讲一下装饰器. 1.2 为什么需要装饰器. 装饰器本质是一个Python函数,它可以让其他函数在不需要任何代码变动的前提下增加额 ...
L0,L1,L2正则化浅析
在机器学习的概念中,我们经常听到L0,L1,L2正则化,本文对这几种正则化做简单总结. 1.概念 L0正则化的值是模型参数中非零参数的个数. L1正则化表示各个参数绝对值之和. L2正则化标识各个参数 ...
LA 3882 经典约瑟夫环问题的数学递推解法
就是经典约瑟夫环问题的裸题我一开始一直没理解这个递推是怎么来的,后来终于理解了假设问题是从n个人编号分别为0...n-1,取第k个, 则第k个人编号为k-1的淘汰,剩下的编号为 0,1,2,3. ...
65)STL中string的知识
1)代码展示: string是一个类,只不过封装了 char* 而且还封装了很多的字符串操作函数 2)string类的初始化: string的构造函数 ² 默认构造函数: string(); ...
Android通过包名打开第三方应用
import android.content.ComponentName; import android.content.Context; import android.content.Intent; ...
记录华为、魅族手机无法打印 Log 日志的问题
http://yifeng.studio/2017/02/26/android-meizu-huawei-not-log/ 实测 MEIZU PRO 6 :打开[设置]中的[开发者选项],页面底部找到 ...

kafka spark steam 写入elasticsearch的部分问题

kafka spark steam 写入elasticsearch的部分问题的更多相关文章

随机推荐

热门专题