Hbase到Solr数据同步及Solr分离实战】的更多相关文章

1. 起因 由于历史原因,公司的数据是持久化在HBase中,查询是通过Solr来实现,这这样的设计必然涉及到要把Hbase中的数据实时同步到Solr,但所有的服务都在一个同一个集群及每台机子都安装了很多不同的服务,导致数据经常丢失,Solr分片也经常在Recovering.Down 状态中游离,因此决定把Solr剥离出来,形成单独的集群,给其它服务减压. 2. 要求 保证数据不能丢失 切换期间业务能正常使用 切换失败,可以回归到旧的集群 3. 整体流程设计 HBase Indexer 要同时往新…
一.前提主从集群之间能互相通讯: 二.在cluster1上(源集群):  1.查看集群已开启的peers hbase(main):011:0> list_peers PEER_ID CLUSTER_KEY STATE TABLE_CFS 10 slave.01.bigdata.prod.wgq,slave.02.bigdata.prod.wgq,slave.03.bigdata.prod.wgq:2181:/hbase ENABLED USER_INFO:ncallrecords1 row(s)…
写在前面 在当今互联网行业,尤其是现在分布式.微服务开发环境下,为了提高搜索效率,以及搜索的精准度,会大量使用Redis.Memcached等NoSQL数据库,也会使用大量的Solr.Elasticsearch等全文检索服务.那么,这个时候,就会有一个问题需要我们来思考和解决:那就是数据同步的问题!如何将实时变化的数据库中的数据同步到Redis/Memcached或者Solr/Elasticsearch中呢? 互联网背景下的数据同步需求 在当今互联网行业,尤其是现在分布式.微服务开发环境下,为了…
写在前面 在当今互联网行业,尤其是现在分布式.微服务开发环境下,为了提高搜索效率,以及搜索的精准度,会大量使用Redis.Memcached等NoSQL数据库,也会使用大量的Solr.Elasticsearch等全文检索服务.那么,这个时候,就会有一个问题需要我们来思考和解决:那就是数据同步的问题!如何将实时变化的数据库中的数据同步到Redis/Memcached或者Solr/Elasticsearch中呢? 互联网背景下的数据同步需求 在当今互联网行业,尤其是现在分布式.微服务开发环境下,为了…
原来在别的公司负责过文档检索模块的维护(意思就是不是俺开发的啦). 所以就略微接触和研究了下文档检索. 文档检索事实上是全文检索.是通过一种技术把N多文档进行一定规律的分割归类,然后创建易于搜索的索引式文件,然后搜索具有某些规律的文档时,可以通过高速定位索引,然后依据索引提供的信息精确定位到文档从而实现迅速找到文档.这个文档一般成为条目. 上家公司的时候使用的是Lucene加上Zoie实现的. lucene是apache下的开源项目,只是并非全文检索的实现,而是一个全文检索的引擎,是一个架构,是…
Solr配置了集群,本地有253和254,2个独立的Solr服务.  同一个页面的图片,刷新2次,图片地址不一样,最后查明,后台数据源Solr1和Solr2的数据不一致.    第1步推测:本地缓存,删除浏览器缓存,用不同的浏览器,问题仍然存在,排除.    第2步推测:代码查询有问题  根据id查询,出来的Shop的img不一致.  但是,查询所有findAll,数据是同一个.(这个问题没有找到原因)   Iterable<SolrShop> shopList = shopRepositor…
基础环境: (二)设置增量导入为定时执行的任务: 很多人利用Windows计划任务,或者Linux的Cron来定期访问增量导入的连接来完成定时增量导入的功能,这其实也是可以的,而且应该没什么问题. 但是更方便,更加与Solr本身集成度高的是利用其自身的定时增量导入功能. 1.下载apache-solr-dataimportscheduler-1.0.jar放到Tomcat的webapps的solr目录的WEB-INF的lib目录下: 下载地址:http://yunpan.cn/cdIpMthFd…
ElasticSearch的River机械 ElasticSearch本身就提供了River机械,对于同步数据. 在这里,现在能找到的官方推荐River: http://www.elasticsearch.org/guide/en/elasticsearch/rivers/current/ 可是官方没有提供HBase的River. 事实上ES的River很easy,就是一个用户打包好的jar包,ES负责找到一个node.并启动这个River.假设node失效了,会自己主动找另外一个node来启动…
ElasticSearch的River机制 ElasticSearch自身提供了一个River机制,用于同步数据. 这里能够找到官方眼下推荐的River: http://www.elasticsearch.org/guide/en/elasticsearch/rivers/current/ 可是官方没有提供HBase的River. 事实上ES的River很easy,就是一个用户打包好的jar包,ES负责找到一个node,并启动这个River.假设node失效了.会自己主动找另外一个node来启动…
一.SolrJ介绍 1. SolrJ是什么? Solr提供的用于JAVA应用中访问solr服务API的客户端jar.在我们的应用中引入solrj: <dependency> <groupId>org.apache.solr</groupId> <artifactId>solr-solrj</artifactId> <version>7.3.0</version> </dependency> 2. SolrJ的核…