elasticsearch-hadoop 扩展定制官方包以支持 update upsert doc

官方源码地址https://github.com/elastic/elasticsearch-hadoop

spark to es

4种操作方式
index
update
upsert
create

只支持四种操作，看文档描述，目前的需求只能用 upsert 实现，但官方的包对 upsert 支持不完整

upsert 现支持
/*
* {
* "script":{
* "inline": "...",
* "lang": "...",
* "params": ...,
* },
* "upsert": {...}
* }
*/

及
/*
* {
* "doc_as_upsert": true,
* "doc": {...}
* }
*/

并不支持
/*
* {
* "upsert": {},
* "doc": {...}
* }
*/

无奈只好自已动手了

代码量太大，找到相关的部分，理顺操作逻辑后，改起来就容易多了，最主要的部分在这里

source code

把rdd json 化并拼接http 请求

两种思路

1传入完整的对像，然后修改 json 解析部分，拼接出请求
2修改对象结构，json 解析部分不变，拼接出请求

1的实现相对复杂，工作量很大，且要求对代码项目很熟悉，实现的成本很高
2的实现很简单

修改的地方很少,可以参照着自已改,需重新编译

具体看 commit，也提交到了官方，但代码比较粗暴，很可能通不过，功能优先，官方不采用，可以用的时候再个人修改。

之后打包，引用打包后的文件。

另外，程序也要作并要的修改

写入部分，对比下就知道要改的地方，很容易

case class ES_Upsert(kw_index: String, kw_type: String, id: String, date_idate: String, date_udate: String)

case class ES_Doc(date_udate: String)

case class ES_UpsertDoc(upsert: ES_Upsert, doc: ES_Doc)

.saveToEs(Map[String, String](

"es.resource" -> "{upsert.kw_index}/{upsert.kw_type}",

"es.nodes" -> es,

"es.input.json" -> "false",

"es.nodes.discovery" -> "false",

"es.update.doc" -> "true",

"es.nodes.wan.only" -> "true",

"es.write.operation" -> "upsert",

"es.mapping.exclude" -> "upsert.kw_index,upsert.kw_type,upsert.id",

"es.mapping.id" -> "upsert.id"

))

外套一层对象ES_UpsertDoc 字段名称分别为upsert，doc熟悉es的就不用解释吧
"es.update.doc" -> "true"为 true 才生效。

"es.resource" -> "{upsert.kw_index}/{upsert.kw_type}",
"es.mapping.exclude" -> "upsert.kw_index,upsert.kw_type,upsert.id"
index type field mapping 也要多套一层

项目示例

kafka spark streaming elasticsearch

https://github.com/cclient/elasticsearch-spark-upsert-from-kafka

——官方已经拒掉了，主要原因是这个包要在各种数据平台上保证可用，按官方的说法是

'whether using Map/Reduce or libraries built upon it such as Hive, Pig or Cascading or new upcoming libraries like Apache Spark'

现在的case只是基于 Spark的，即使在spark上可用，没有在其他平台的测试，不会通过，也没有精力去挨个试，等用的时候自已改吧

elasticsearch-hadoop 扩展定制官方包以支持 update upsert doc的更多相关文章

自动化部署必备技能—部署yum仓库、定制rpm包
部署yum仓库.定制rpm包目录第1章扩展 - yum缓存 1.1 yum缓存使用步骤... 1 1.1.1 导言... 1 1.1.2 修改配置文件... 1 1.1.3 使用缓存... 1 ...
【大数据系列】hadoop命令指导官方文档翻译
Hadoop Commands Guide Overview Shell Options Generic Options User Commands archive checknative class ...
FPM定制RPM包实践
1.1 快速部署方案 ✔ 问题:当领导给你 100 台已经安装好系统的服务器,然后让优化,让你提出一个快速部署方案. 解答: 1.tar 打包先编译安装打包-->分发-->解包(比如 ...
Go 语言官方包函数中文翻译
Go官方包函数中文翻译 *** import "strings" func Join(a []string, sep string) string Join concatenate ...
FPM工具实战定制nginx包
FPM主要特点: 把一种包打包成另一种包的格式支持的源类型包 DIR 将目录打包成所需要的类型,可以用于源码编译的安装包. RPM 对rpm进行转换 gem 对rubygem包进行转换. ...
react-native 的微信SDK辅助包，支持微信登录、微信分享、微信支付
微信SDK集成示例,现已完成微信授权登录,之后将陆续包装分享等其他功能. ReactNative高级交流群 127482131 或访问 http://blog.1ygowu.com ReactNat ...
Datagrid扩展方法onClickCell{easyui-datagrid-扩充-支持单元格编辑}
//-----------------------------------------------------------------/******************************** ...
搭建yum仓库与定制rpm包
笔者Q:972581034 交流群:605799367.有任何疑问可与笔者或加群交流当我们自动化部署集群的时候,想要快速的安装所有服务,搭建yum仓库与定制rpm包是我们首先要做的原创作品,转载请 ...
hadoop之定制自己的sort过程
Key排序 1. 继承WritableComparator 在hadoop之Shuffle和Sort中,可以看到mapper的输出文件spill文件需要在内存中排序,并且在输入reducer之前,不同 ...

随机推荐

Arduino -- variables
Arduino data types and constants. Constants Floating Point Constants Integer Constants HIGH | LOW IN ...
关于boostrap的TAB切换，如何获取？
$('a[data-toggle="tab"]').on('shown.bs.tab', function (e) { // 获取已激活的标签页的名称 var acti ...
Linux基础（1）安装
Linux基础一.创建CentOS 7 Linux虚拟机 1.安装虚拟机桥接网络:相当于这台机器就是物理机,多个电脑在连接在一个交换机上,同一个子网 NAT:这台机器只能通过物理机(相当于 ...
11. react 基础使用charles 模拟接口数据
charles参考文档 charles官网模拟数据模拟 axios 请求的数据 eg: 1. 编写 axios 请求 axios.get('/api/xxx') .then(()=>{ale ...
MYSQL连接不上100061错误
有界面的情况下启动MYSQL 无界面 https://blog.csdn.net/qq_22233621/article/details/72673176 参考
阿里云ECSlinux下php+mysql+apache
https://yq.aliyun.com/articles/284131 安装apache https://yq.aliyun.com/articles/106387?spm=a2c4e.11153 ...
JAVAEE 和项目开发（第一课：浏览器和服务器的交互模式和HTTP协议的概念和介绍）
互联网的发展非常迅速,但是万变不离其宗.学习 web 开发,需要我们对互联的交互机制有一定的了解.为了更好的理解并掌握 Servlet,在正式学习 Servlet之前需要对 web 开发中客户端和服 ...
Spring Cloud Alibaba 教程 | 前世今生
Spring Cloud Alibaba是什么先来看一下官方是怎么定义Spring Cloud Alibaba的: Spring Cloud Alibaba 致力于提供微服务开发的一站式解决方案.此 ...
最短路问题--Floyd 畅通工程续
畅通工程续某省自从实行了很多年的畅通工程计划后,终于修建了很多路.不过路多了也不好,每次要从一个城镇到另一个城镇时,都有许多种道路方案可以选择,而某些方案要比另一些方案行走的距离要短很多.这让行人很 ...
windows下关闭自动更新方法
第一种方法: 1.windows+R键打开运行窗口,输入services.msc 2.找到windows update服务右键属性第二种方法 Win键+R键在弹出的运行对话框中输入gpedit.ms ...

elasticsearch-hadoop 扩展定制 官方包以支持 update upsert doc

elasticsearch-hadoop 扩展定制 官方包以支持 update upsert doc的更多相关文章

随机推荐

热门专题

elasticsearch-hadoop 扩展定制官方包以支持 update upsert doc

elasticsearch-hadoop 扩展定制官方包以支持 update upsert doc的更多相关文章