solr6.3 + Hbase Indexer使用MR创建索引，错误Bad return type

使用solr6.3 + Hbase Indexer ，通过Hbase-indexer从Hbase建立索引到solr中，进行全文搜索。

两种实现方式：① 开启hbase-indexer进行实时同步新数据 ② 使用MapReduce给存量数据创建索引。

在用MR跑索引的过程中，碰到问题：Mapper数总共35个，但failed了4个，成功也显示35个，整个JOB显示成功success。但是最终索引总数，比hbase表中数据要少，索引数与表数据量不一致。查看MR的counter，有插入错误的情况，如下所示：

DirectSolrInputDocumentWriter: Document add errors    ,

DirectSolrInputDocumentWriter: Index adds    ,,

解决过程：

1、总数据1900多万，不清楚是不是由于数据量较大的缘故导致（不知道哪里的问题），由于solr了解的不深，也只会运维的一些操作，想过尝试把原表分成4-5张表，再分别跑MR到一个solr的collection中去（总体操作流程是一样的），但把这作为最终是在解决不了问题之后的下策。

2、查看MR运行中错误的4个mapper，备注里报以下错误，而且failed集中在同一台服务器上：（MR执行成功的mapper里也有“exit 403”之类的error，这些提示好像也不受影响，太深入的也不了解。整个JOB显示successed，有时候就会忽略这些failed。）

Error: Bad return type Exception Details:

Location: org/apache/solr/client/solrj/impl/HttpClientUtil.createClient

(Lorg/apache/solr/common/params/SolrParams;Lorg/apache/http/conn/ClientConnectionManager;)

Lorg/apache/http/impl/client/CloseableHttpClient;

@: areturn Reason: Type 'org/apache/http/impl/client/DefaultHttpClient' (current frame, stack[])

is not assignable to 'org/apache/http/impl/client/CloseableHttpClient' (from method signature)

Current Frame: bci: @ flags: { }

locals: { 'org/apache/solr/common/params/SolrParams', 'org/apache/http/conn/ClientConnectionManager',

'org/apache/solr/common/params/ModifiableSolrParams', 'org/apache/http/impl/client/DefaultHttpClient' }

stack: { 'org/apache/http/impl/client/DefaultHttpClient' }

Bytecode: : bb00  2ab7 000a 4db2 000b b900 0c01 :

 001e b200 0bbb 000d 59b7 000e 120f :

b600 102c b600 11b6  b900  002b :

b800 194e 2d2c b800 152d b0

Stackmap Table: append_frame(@,Object[#])

去网上搜索了这个错误，一般的解决是修改httpclient对象创建时候的代码，参考：http://www.ithao123.cn/content-10445716.html。但不清楚这些代码是在哪里进行查看或者修改之类的，问题解决不了。

后来，在Google里查有一个国外的回答里，httpclient的版本问题。想起之前部署solr时也提到过httpclient的版本问题。

最终解决：

solr6.3.0跟hadoop2.7存在不兼容性，主要是httpclient、httpcore不兼容，hadoop使用的是httpcilent-4.2.5和httpcore-4.2.5，而solr6.3.0使用的是httpclient-4.4.1和httpcore-4.4.1，两个版本之间接口有些变化导致不兼容。解决办法是把hadoop中的jar包替换成高版本4.3或4.4.1。需要替换以下地方的版本：

/hdfs/data1/hadoop/yarn/local/filecache//mapreduce.tar.gz/hadoop/share/hadoop/common/lib/ httpclient-4.2..jar

/usr/hdp/2.4.0.0-/hadoop-yarn/lib/httpclient-4.2..jar

/usr/hdp/2.4.0.0-/hadoop/lib/httpclient-4.2..jar

/usr/hdp/2.4.0.0-/hadoop-mapreduce/httpclient-4.2..jar

/usr/hdp/2.4.0.0-/hadoop/client/httpclient-4.2..jar

/hdfs/data1/hadoop/yarn/local/filecache//mapreduce.tar.gz/hadoop/share/hadoop/common/lib/ httpcore-4.2..jar

/usr/hdp/2.4.0.0-/hadoop-yarn/lib/httpcore-4.2..jar

/usr/hdp/2.4.0.0-/hadoop/lib/httpcore-4.2..jar

/usr/hdp/2.4.0.0-/hadoop-mapreduce/httpcore-4.2..jar

/usr/hdp/2.4.0.0-/hadoop/client/httpcore-4.2..jar

上边这些目录在部署的时候都执行过替换，然后全站搜索了“httpclient-4.2.5.jar”，在“/hdfs/data1/hadoop/yarn/local/filecache/12/mapreduce.tar.gz/hadoop/share/hadoop/common/lib/”目录下发现了4.2.5的版本，替换成4.3的版本，重新再跑MR，用时3.5h左右（正常时间），OK了，索引条数与hbase表条数一致。

PS：这是不小心选择错collection，执行“<delete><query>*:*</query></delete><commit/>” 清空所有索引数据之后，付出的代价。总耗时：很多。

solr6.3 + Hbase Indexer使用MR创建索引，错误Bad return type的更多相关文章

Lily HBase Indexer同步HBase二级索引到Solr丢失数据的问题分析
一.问题描述二.分析步骤2.1 查看日志2.2 修改Solr的硬提交2.3 寻求StackOverFlow帮助2.4 修改了read-row="never"后,丢失部分字段2.5 ...
lucene全文搜索之三：生成索引字段，创建索引文档（给索引字段加权）基于lucene5.5.3
前言:上一章中我们已经实现了索引器的创建,但是我们没有索引文档,本章将会讲解如何生成字段.创建索引文档,给字段加权以及保存文档到索引器目录 luncene5.5.3集合jar包下载地址:http:// ...
MySQL 如何创建索引？怎么优化？
索引类似大学图书馆建书目索引,可以提高数据检索的效率,降低数据库的IO成本.MySQL在300万条记录左右性能开始逐渐下降,虽然官方文档说500~800w记录,所以大数据量建立索引是非常有必要的.My ...
hbases索引技术：Lily HBase Indexer介绍
Lily HBase Indexer 为hbase提供快速查询,他允许不写代码,快速容易的把hbase行索引到solr.Lily HBase Indexer drives HBase indexing ...
HBase中创建索引
hbasene(https://github.com/akkumar/hbasene)是开源项目,在hbase存储上封装使用Lucene来创建索引,代码API非常简单,熟悉lucene的朋友可以很方便 ...
hbase基于solr配置二级索引
一.概述 Hbase适用于大表的存储,通过单一的RowKey查询虽然能快速查询,但是对于复杂查询,尤其分页.查询总数等,实现方案浪费计算资源,所以可以针对hbase数据创建二级索引(Hbase Sec ...
Lily hbase indexer搭建配置概要文档
1.solrcloud搭建好2.hbase-solr-indexer服务开启3.确定hbase中的对应的表开启replication功能 create '} // 1表示开启replication 已 ...
lucene简介创建索引和搜索初步
lucene简介创建索引和搜索初步一.什么是Lucene? Lucene最初是由Doug Cutting开发的,2000年3月,发布第一个版本,是一个全文检索引擎的架构,提供了完整的查询引擎和索引 ...
Key-Value Store Indexer(Lily HBase Indexer) 小型采坑
环境: Cloudera Express 5.12.1 JDK 1.8.0_92 CentOS 7 步骤1:数据导入到Hbase中(非正题,跳过) hbase中表为allDoc,两个Family:fu ...

随机推荐

springmvc 添加@ResponseBody
1.添加ResponseBody之后的话返回字符串的时候就是一个字符串. @RequestMapping(value = "/{bookId}/detail.do",metho ...
新手如何快速入门Python
学习任何一门语言都是从入门(1年左右),通过不间断练习达到熟练水准(3到5年),少数人最终能精通语言,成为执牛耳者,他们是金字塔的最顶层.虽然万事开头难,但好的开始是成功的一半,今天这篇文章就来谈谈如 ...
Nmap在实战中的高级用法
Nmap提供了四项基本功能(主机发现.端口扫描.服务与版本侦测.OS侦测)及丰富的脚本库.Nmap既能应用于简单的网络信息扫描,也能用在高级.复杂.特定的环境中:例如扫描互联网上大量的主机:绕开防火墙 ...
Vulkan Tutorial 16 Command buffers
操作系统:Windows8.1 显卡:Nivida GTX965M 开发工具:Visual Studio 2017 诸如绘制和内存操作相关命令,在Vulkan中不是通过函数直接调用的.我们需要在命令缓 ...
学习maven的各种问题
1. The container 'Maven Dependencies' references non existing library 解决方法,将eclipse中maven插件中“resolve ...
Kafka 源代码分析之FileMessageSet
这里主要分析FileMessageSet类这个类主要是管理log消息的内存对象和文件对象的类.源代码文件在log目录下.这个类被LogSegment类代理调用用来管理分片. 下面是完整代码.代码比较 ...
“HK”的日常之ARP断网攻击
ARP断网攻击是什么?可以吃吗?如果可以吃它好吃吗? ARP断网攻击就是通过伪造IP地址和MAC地址实现ARP欺骗,能够在网络中产生大量的ARP通信量使网络阻塞,攻击者只要持续不断的发出伪造的ARP响 ...
git的使用[转]
本节内容 github介绍安装仓库创建& 提交代码代码回滚工作区和暂存区撤销修改删除操作远程仓库分支管理多人协作 github使用忽略特殊文件.gitignore 为什么要 ...
Python 文件对象
Python 文件对象 1) 内置函数 open() 用于打开和创建文件对象 open(name,[,mode[,bufsize]]) 文件名.模式.缓冲区参数 mode: r 只读 w 写入 a 附 ...
C# 来做视频播放视频流处理转码实时传输
最近一直在研究视频实时查看播放很遗憾只成功了一半记录一下历程以便大家相互交流项目需求是 GPS 视频设备连接服务器将视频流走RTP 协议发送到服务器服务器将接收的视频流传输给 ...

solr6.3 + Hbase Indexer使用MR创建索引，错误Bad return type

solr6.3 + Hbase Indexer使用MR创建索引，错误Bad return type的更多相关文章

随机推荐

热门专题