SolrCloud6.1.0之SQL查询测试

Solr发展飞快，现在最新的版本已经6.1.0了，下面来回顾下Solr6.x之后的一些新的特点：

（1）并行SQL特性支持，编译成Streaming 表达式，可以在solrcloud集群中，并行执行
（2）SolrCloud的Collection被抽象成关系型数据库表，现在不仅仅可以支持强大的全文检索，还通过SQL支持像数据库一样的BI分析
（3）在SQL的where语句中，全面支持强大的Lucene/Solr语法
（4）一些聚合操作例如Group会自动优化成并行操作，通过使用Streaming表达式来以Map-Reduce的方式运行
（5）在（4）中运行的聚合操作，还可以以原生的JSON Facet 方式，来优化提升性能
（6）SQL特性目前仅支持SolrCloud集群方式，单机方式并不支持

有关SolrCloud的集群搭建，在这里散仙就不详细说了，有兴趣的朋友，可以参考我前面的文章
http://qindongliang.iteye.com/blog/2275990，搭建好的集群如下：

实际上像Solr或者ElasticSearch能支持SQL，这并不奇怪，因为他们底层基本上都提供了SQL能支持的大部分功能接口，比如，排序，过滤
分组，聚合等一些操作，能支持SQL，但不意味着能取代关系型数据库，恰恰相反，NoSQL是作为SQL的有力补充，怎么样组合搭配使用，能把业务
场景优化的更好，或者能解决某类问题，才是引入这些框架的初衷。

前面说到，Solr在api层面已经有各种功能的接口，缺的就是一个SQL语法解析器，以及如何与最新的Java8的对接？所以在Solr6.x里面，引入两个
最重要的东东就是：

（1）引入了Facebook开源的大数据SQL检索框架Presto的SQL Parser
（2）使用Java8的Streaming Api写的Streaming Expressions （流式表达式），支持类似shell的管道的计算方式，可以对数据流进行各种复杂操作例如各种join，
也可以进行图谱查询

使用Solrj通过JDBC查询Solr，目前只能查，暂不支持更新，修改，删除等操作
依赖jar包：
$SOLR_HOME/dist/solrj-libs 所有的jar
$SOLR_HOME/dist/solr-solrj-<version>.jar solr-solrj.jar
如果是maven项目：

<dependency>
<groupId>org.apache.solr</groupId>
<artifactId>solr-solrj</artifactId>
<version>6.1.0</version>
</dependency>

下面来看一段Solrj通过JDBC查询示例：

Connection con=null;
Statement stmt=null;
ResultSet rs=null;
try{
String collection="sql_search";
String aggregationMode="facet";// facet or map_reduce
//注意solr//:后面跟的是zk集群地址，如果有chroot path还需要加上
con=DriverManager.getConnection("jdbc:solr://192.168.1.184:2181/solr6?collection="+collection+"&aggregationMode="+aggregationMode+"&numWorkers=2");
//检索，排序，topN
String sql1="select dtime from big_search order by dtime desc limit 4 ";
//多级分组，排序1
String sql2="select t1,t2,t3 , count(*) from big_search group by t1,t2 ,t3 order by count(*) desc limit 3 ";
//分组，过滤，排序2
String sql21="select t1, count(*) from big_search group by t1 having count(*) > 2 order by count(*) desc ";
//去重
String sql221="select distinct t3 from sql_search limit 2 ";
//全文检索查询
String sql15="select rowkey from big_search where title='(你好苏州)' limit 4 ";
//聚合函数支持max，min，avg，sum，count
String sql4="select count(*) from big_search limit 2 ";
//提取字段
String sql3="select t1,t2 from big_search ";
stmt = con.createStatement();//编译sql
rs = stmt.executeQuery(sql21);//执行sql
ResultSetMetaData metaData = rs.getMetaData(); //获取字段名元数据
String line_space="\t"; //格式化打印
for(int i=1;i<=metaData.getColumnCount();i++){
System.out.print(metaData.getColumnName(i)+line_space);//打印表头
}
System.out.println();
while(rs.next()) {//循环从游标提取数据
for(int i=1;i<=metaData.getColumnCount();i++){//遍历列头
System.out.print(rs.getString(metaData.getColumnName(i))+line_space);//格式化打印字段内容
}
System.out.println();
}
} finally {
if(rs!=null){
rs.close();
}
if(stmt!=null){
stmt.close();
}
if(con!=null){
con.close();
}
}
System.out.println("====end====");

下面来看一段使用流式表达式查询的操作，无须任何依赖，在Solr的Admin界面就能操作；
图中的代码的是查询solrcloud中每个shard一条数据，然后总共返回3条数据，最后对3条数据，排序，取top1

总结：

（1）关于如何集成中文分词IK或者Ansj

单机版的solr，如果是IK，需要在
solr\server\solr-webapp\webapp\WEB-INF目录下，新建一个classes目录，将其词库文件全部放进去
然后将IK的jar包，放入solr\server\solr-webapp\webapp\WEB-INF\lib下。

如果是Ansj，则需要将Ansj相关的jar包放入solr\server\solr-webapp\webapp\WEB-INF\lib下，
然后将Ansj的library的目录，放在solr\server中。

在SolrCloud集群模式中，是需要把某个collection下的conf下的所有文件，上传到zookeeper上的，所有的shard都会
从zk上加载所需的文件，包括一些词库的配置，这个时候，放在本地磁盘上的词库，是不会被识别的，所以你需要把上传的词库
文件一起上传到zk上，然后配置合理的路径即可，任何文件的更新，都需要reload整个collection才能更新（solr6之前是需要relaod所有的shard），
否则，发生的改动不会被识别。

（2）理解map_reduce 和 facet两种聚合模式

A： map_reduce 模式，支持任意多字段的聚合查询，不受限制，但性能稍低
测试环境5个shard+3个副本
测试数据，必须大于6（shard+1）条数据，否则会报错

可测 group+distict

执行流程如下：

B：facet 模式，使用Solr原生的Json Facet Api 操作，受一定索引的限制，但性能较高
只要求有shard，有数据，即可测试，利用solr原生的Facet api进行聚合

（3）理解DocValue对SQL查询的影响
大部分情况下在Solr中的SQL查询，是需要加上limit关键词的，如果你不加，要么你就会发现，你的查询可能会莫名其妙的报错
这个时候问题的原因大部分是跟DocValue有关的， Solr6要求，所有不加的limit查询的字段，必须全部是DocValue激活的
字段，如果任何一个不是，那么查询肯定报错，如果你加了limit关键词，要么可以不受这个限制影响。

至于为什么必须要激活DocValue字段才能进行all字段提取查询，主要目的还是为了性能，想了解DocValue可以
参考散仙之前的文章：http://qindongliang.iteye.com/blog/2297280

（4） Solr6支持客户端工具（像MySQL的NaviCat）查询链接：

A：DbVisualizer （C/S客户端GUI）
B：SQuirreL SQL （C/S客户端GUI）
C：Apache Zeppelin （B/S web端）
大部分都需要配置添加有关的solr的jdbc的jar包，具体安装方式参考文末链接

（5）除了JDBC方式支持SQL查询，http方式也是可以的：

[search@h1 ~]$ cat sql.sh
## 聚合模式 map_reduce
#curl --data-urlencode 'stmt=SELECT t1, count(*) FROM sql_search GROUP BY t1 ORDER BY count(*) desc LIMIT 10' http://192.168.1.120:8983/solr/sql_search/sql?aggregationMode=map_reduce
## 聚合模式 facet
curl --data-urlencode 'stmt=SELECT t1, count(*) FROM sql_search GROUP BY t1 ORDER BY count(*) desc LIMIT 10' http://192.168.1.120:8983/solr/sql_search/sql?aggregationMode=facet
[search@h1 ~]$ sh sql.sh
{"result-set":{"docs":[
{"count(*)":4,"t1":"01"},
{"count(*)":2,"t1":"02"},
{"count(*)":2,"t1":"03"},
{"count(*)":2,"t1":"04"},
{"count(*)":2,"t1":"05"},
{"EOF":true,"RESPONSE_TIME":84}]}}

官网文档：
https://cwiki.apache.org/confluence/display/solr/Streaming+Expressions
https://cwiki.apache.org/confluence/display/solr/Parallel+SQL+Interface#ParallelSQLInterface-SQLClientsandDatabaseVisualizationTools

有什么问题可以扫码关注微信公众号：我是攻城师(woshigcs)，在后台留言咨询。
技术债不能欠，健康债更不能欠，求道之路，与君同行。

SolrCloud6.1.0之SQL查询测试的更多相关文章

hibernate 5原生sql查询测试学习代码
基本查询 import java.util.List; import org.hibernate.SQLQuery; import org.hibernate.Session; import org. ...
SAP 查询分析器，查询报表自动生成，SQL查询测试实现说明（转）
在日常的SAP开发和应用中,经常需要通过查询SAP数据表来处理日常业务,比如:数据对账.报表SQL测试.SAP查询功能开发等.通过开发SAP查询分析器,SAP实施和开发人员,可以在较短的时间内查询到需 ...
{MySQL的逻辑查询语句的执行顺序}一 SELECT语句关键字的定义顺序二 SELECT语句关键字的执行顺序三准备表和数据四准备SQL逻辑查询测试语句五执行顺序分析
MySQL的逻辑查询语句的执行顺序阅读目录一 SELECT语句关键字的定义顺序二 SELECT语句关键字的执行顺序三准备表和数据四准备SQL逻辑查询测试语句五执行顺序分析一 SEL ...
MySQL GROUP_CONCAT函数使用示例：如何用一个SQL查询出一个班级各个学科第N名是谁？
如何用一个SQL查询出一个班级各个学科第N名是谁? 首先贴出建表语句,方便大家本地测试: -- 建表语句 CREATE TABLE score ( id INT NOT NULL auto_incre ...
SQL 查询性能优化----解决书签查找
先来看看什么是书签查找: 当优化器所选择的非聚簇索引只包含查询请求的一部分字段时,就需要一个查找(lookup)来检索其他字段来满足请求.对一个有聚簇索引的表来说是一个键查找(key lookup), ...
用sql查询当天,一周,一个月的数据
用sql查询当天,一周,一个月的数据数据查询,不管在网站还是在系统,都很常见,下文是介绍最常见的以日期查询的语句 select * from ShopOrder where datediff(w ...
hibernate将本地SQL查询结果封装成对象
hibernate将本地SQL查询结果封装成对象不知道大家有没有碰过这种情况,迫于很多情况只能用native SQL来查询(如:复杂统计等),然而使用native查询后,结果会被放到object里, ...
转：从Mysql某一表中随机读取n条数据的SQL查询语句
若要在i ≤ R ≤ j 这个范围得到一个随机整数R ,需要用到表达式 FLOOR(i + RAND() * (j – i + 1)).例如, 若要在7 到 12 的范围(包括7和12)内得到一个随机 ...
关于SQL查询效率，100w数据，查询只要1秒
1.关于SQL查询效率,100w数据,查询只要1秒,与您分享:机器情况p4: 2.4内存: 1 Gos: windows 2003数据库: ms sql server 2000目的: 查询性能测试,比 ...

随机推荐

java文件上传方式1servlet 方式2springmvc
protected void doGet(HttpServletRequest request, HttpServletResponse response) throws ServletExcepti ...
基于Netty的RPC架构学习笔记（十二）：借助spring实现业务分离、聊天室小项目、netty3和4、5的不同、业务线程池以及消息串行化
文章目录借助spring实现业务分离(
pefile解析PE格式
import os,sys import pefile import pydasm import struct #print sys.argv def show_section(pe): print ...
ollydbg调试PE文件
ollydbg项目地址:http://www.ollydbg.de/ 将exe文件打开到ollydbg项目中,就会直接停到"入口点"地址处,通过View->Memory Ma ...
$.Deferred 对象详解
1.什么是deferred对象? 开发网站的过程中,我们经常遇到某些耗时很长的javascript操作.其中,既有异步的操作(比如ajax读取服务器数据),也有同步的操作(比如遍历一个大型数组),它们 ...
js中字符串编码函数escape()、encodeURI()、encodeURIComponent()区别详解
1 escape()函数定义和用法 escape() 函数可对字符串进行编码,这样就可以在所有的计算机上读取该字符串. 语法 escape(string) 参数描述 string 必需.要被转义或 ...
搭建一个自己的SVN服务器
其实方法非常简单,点点鼠标就好了. 上网搜索“VisualSVN Server”,一般来说都是会找到 https://www.visualsvn.com/server/ 这个网站的. 点击上边的Dow ...
EE5111_A0206839W
EE5111 Selected Topics in Industrial Control & Instrumentation Assessment: Implement a simple ...
cross compile vlc 播放器
上一篇文章介绍了如何交叉编译 FFmpeg ,继续介绍 VLC播放器交叉编译 . 首先下载 vlc 源码我用的是 2.2.6 地址 : http://mirrors.neusoft.edu ...
lsm和lkm模块
使用LSM Hook框架进行内核安全审计.元数据捕获,安全人员只需要按照既定的调用规范编写LKM模块,并加载进Linux内核,而不需要对system call lookup表进行任何修改 https: ...

SolrCloud6.1.0之SQL查询测试

SolrCloud6.1.0之SQL查询测试的更多相关文章

随机推荐

热门专题