SolrCloud6.1.0之SQL查询测试
Solr发展飞快,现在最新的版本已经6.1.0了,下面来回顾下Solr6.x之后的一些新的特点:
(1)并行SQL特性支持,编译成Streaming 表达式,可以在solrcloud集群中,并行执行
(2)SolrCloud的Collection被抽象成关系型数据库表,现在不仅仅可以支持强大的全文检索,还通过SQL支持像数据库一样的BI分析
(3)在SQL的where语句中,全面支持强大的Lucene/Solr语法
(4)一些聚合操作例如Group会自动优化成并行操作,通过使用Streaming表达式来以Map-Reduce的方式运行
(5)在(4)中运行的聚合操作,还可以以原生的JSON Facet 方式,来优化提升性能
(6)SQL特性目前仅支持SolrCloud集群方式,单机方式并不支持
有关SolrCloud的集群搭建,在这里散仙就不详细说了,有兴趣的朋友,可以参考我前面的文章
http://qindongliang.iteye.com/blog/2275990,搭建好的集群如下:
实际上像Solr或者ElasticSearch能支持SQL,这并不奇怪,因为他们底层基本上都提供了SQL能支持的大部分功能接口,比如,排序,过滤
分组,聚合等一些操作,能支持SQL,但不意味着能取代关系型数据库,恰恰相反,NoSQL是作为SQL的有力补充,怎么样组合搭配使用,能把业务
场景优化的更好,或者能解决某类问题,才是引入这些框架的初衷。
前面说到,Solr在api层面已经有各种功能的接口,缺的就是一个SQL语法解析器,以及如何与最新的Java8的对接? 所以在Solr6.x里面,引入两个
最重要的东东就是:
(1)引入了Facebook开源的大数据SQL检索框架Presto的SQL Parser
(2)使用Java8的Streaming Api写的Streaming Expressions (流式表达式),支持类似shell的管道的计算方式,可以对数据流进行各种复杂操作例如各种join,
也可以进行图谱查询
使用Solrj通过JDBC查询Solr,目前只能查,暂不支持更新,修改,删除等操作
依赖jar包:
$SOLR_HOME/dist/solrj-libs 所有的jar
$SOLR_HOME/dist/solr-solrj-<version>.jar solr-solrj.jar
如果是maven项目:
- <!-- https://mvnrepository.com/artifact/org.apache.solr/solr-solrj -->
- <dependency>
- <groupId>org.apache.solr</groupId>
- <artifactId>solr-solrj</artifactId>
- <version>6.1.0</version>
- </dependency>
下面来看一段Solrj通过JDBC查询示例:
- Connection con=null;
- Statement stmt=null;
- ResultSet rs=null;
- try{
- String collection="sql_search";
- String aggregationMode="facet";// facet or map_reduce
- //注意solr//:后面跟的是zk集群地址,如果有chroot path还需要加上
- con=DriverManager.getConnection("jdbc:solr://192.168.1.184:2181/solr6?collection="+collection+"&aggregationMode="+aggregationMode+"&numWorkers=2");
- //检索,排序,topN
- String sql1="select dtime from big_search order by dtime desc limit 4 ";
- //多级分组,排序1
- String sql2="select t1,t2,t3 , count(*) from big_search group by t1,t2 ,t3 order by count(*) desc limit 3 ";
- //分组,过滤,排序2
- String sql21="select t1, count(*) from big_search group by t1 having count(*) > 2 order by count(*) desc ";
- //去重
- String sql221="select distinct t3 from sql_search limit 2 ";
- //全文检索查询
- String sql15="select rowkey from big_search where title='(你好 苏州)' limit 4 ";
- //聚合函数 支持max,min,avg,sum,count
- String sql4="select count(*) from big_search limit 2 ";
- //提取字段
- String sql3="select t1,t2 from big_search ";
- stmt = con.createStatement();//编译sql
- rs = stmt.executeQuery(sql21);//执行sql
- ResultSetMetaData metaData = rs.getMetaData(); //获取字段名元数据
- String line_space="\t"; //格式化打印
- for(int i=1;i<=metaData.getColumnCount();i++){
- System.out.print(metaData.getColumnName(i)+line_space);//打印表头
- }
- System.out.println();
- while(rs.next()) {//循环从游标提取数据
- for(int i=1;i<=metaData.getColumnCount();i++){//遍历列头
- System.out.print(rs.getString(metaData.getColumnName(i))+line_space);//格式化打印字段内容
- }
- System.out.println();
- }
- } finally {
- if(rs!=null){
- rs.close();
- }
- if(stmt!=null){
- stmt.close();
- }
- if(con!=null){
- con.close();
- }
- }
- System.out.println("====end====");
下面来看一段使用流式表达式查询的操作,无须任何依赖,在Solr的Admin界面就能操作;
图中的代码的是查询solrcloud中每个shard一条数据,然后总共返回3条数据,最后对3条数据,排序,取top1
总结:
(1)关于如何集成中文分词IK或者Ansj
单机版的solr,如果是IK,需要在
solr\server\solr-webapp\webapp\WEB-INF目录下,新建一个classes目录,将其词库文件全部放进去
然后将IK的jar包,放入solr\server\solr-webapp\webapp\WEB-INF\lib下。
如果是Ansj,则需要将Ansj相关的jar包放入solr\server\solr-webapp\webapp\WEB-INF\lib下,
然后将Ansj的library的目录,放在solr\server中。
在SolrCloud集群模式中,是需要把某个collection下的conf下的所有文件,上传到zookeeper上的,所有的shard都会
从zk上加载所需的文件,包括一些词库的配置,这个时候,放在本地磁盘上的词库,是不会被识别的,所以你需要把上传的词库
文件一起上传到zk上,然后配置合理的路径即可,任何文件的更新,都需要reload整个collection才能更新(solr6之前是需要relaod所有的shard),
否则,发生的改动不会被识别。
(2)理解map_reduce 和 facet两种聚合模式
A: map_reduce 模式,支持任意多字段的聚合查询,不受限制,但性能稍低
测试环境5个shard+3个副本
测试数据,必须大于6(shard+1)条数据,否则会报错
可测 group+distict
执行流程如下:
B:facet 模式,使用Solr原生的Json Facet Api 操作,受一定索引的限制,但性能较高
只要求有shard,有数据,即可测试,利用solr原生的Facet api进行聚合
(3)理解DocValue对SQL查询的影响
大部分情况下在Solr中的SQL查询,是需要加上limit关键词的,如果你不加,要么你就会发现,你的查询可能会莫名其妙的报错
这个时候问题的原因大部分是跟DocValue有关的, Solr6要求,所有不加的limit查询的字段,必须全部是DocValue激活的
字段,如果任何一个不是,那么查询肯定报错,如果你加了limit关键词,要么可以不受这个限制影响。
至于为什么必须要激活DocValue字段才能进行all字段提取查询,主要目的还是为了性能,想了解DocValue可以
参考散仙之前的文章:http://qindongliang.iteye.com/blog/2297280
(4) Solr6支持客户端工具(像MySQL的NaviCat)查询链接:
A:DbVisualizer (C/S客户端GUI)
B:SQuirreL SQL (C/S客户端GUI)
C:Apache Zeppelin (B/S web端)
大部分都需要配置添加有关的solr的jdbc的jar包,具体安装方式参考文末链接
(5)除了JDBC方式支持SQL查询,http方式也是可以的:
- [search@h1 ~]$ cat sql.sh
- ## 聚合模式 map_reduce
- #curl --data-urlencode 'stmt=SELECT t1, count(*) FROM sql_search GROUP BY t1 ORDER BY count(*) desc LIMIT 10' http://192.168.1.120:8983/solr/sql_search/sql?aggregationMode=map_reduce
- ## 聚合模式 facet
- curl --data-urlencode 'stmt=SELECT t1, count(*) FROM sql_search GROUP BY t1 ORDER BY count(*) desc LIMIT 10' http://192.168.1.120:8983/solr/sql_search/sql?aggregationMode=facet
- [search@h1 ~]$ sh sql.sh
- {"result-set":{"docs":[
- {"count(*)":4,"t1":"01"},
- {"count(*)":2,"t1":"02"},
- {"count(*)":2,"t1":"03"},
- {"count(*)":2,"t1":"04"},
- {"count(*)":2,"t1":"05"},
- {"EOF":true,"RESPONSE_TIME":84}]}}
官网文档:
https://cwiki.apache.org/confluence/display/solr/Streaming+Expressions
https://cwiki.apache.org/confluence/display/solr/Parallel+SQL+Interface#ParallelSQLInterface-SQLClientsandDatabaseVisualizationTools
有什么问题可以扫码关注微信公众号:我是攻城师(woshigcs),在后台留言咨询。
技术债不能欠,健康债更不能欠, 求道之路,与君同行。
SolrCloud6.1.0之SQL查询测试的更多相关文章
- hibernate 5原生sql查询测试学习代码
基本查询 import java.util.List; import org.hibernate.SQLQuery; import org.hibernate.Session; import org. ...
- SAP 查询分析器,查询报表自动生成,SQL查询测试实现说明(转)
在日常的SAP开发和应用中,经常需要通过查询SAP数据表来处理日常业务,比如:数据对账.报表SQL测试.SAP查询功能开发等.通过开发SAP查询分析器,SAP实施和开发人员,可以在较短的时间内查询到需 ...
- {MySQL的逻辑查询语句的执行顺序}一 SELECT语句关键字的定义顺序 二 SELECT语句关键字的执行顺序 三 准备表和数据 四 准备SQL逻辑查询测试语句 五 执行顺序分析
MySQL的逻辑查询语句的执行顺序 阅读目录 一 SELECT语句关键字的定义顺序 二 SELECT语句关键字的执行顺序 三 准备表和数据 四 准备SQL逻辑查询测试语句 五 执行顺序分析 一 SEL ...
- MySQL GROUP_CONCAT函数使用示例:如何用一个SQL查询出一个班级各个学科第N名是谁?
如何用一个SQL查询出一个班级各个学科第N名是谁? 首先贴出建表语句,方便大家本地测试: -- 建表语句 CREATE TABLE score ( id INT NOT NULL auto_incre ...
- SQL 查询性能优化----解决书签查找
先来看看什么是书签查找: 当优化器所选择的非聚簇索引只包含查询请求的一部分字段时,就需要一个查找(lookup)来检索其他字段来满足请求.对一个有聚簇索引的表来说是一个键查找(key lookup), ...
- 用sql查询当天,一周,一个月的数据
用sql查询当天,一周,一个月的数据 数据查询,不管在网站还是在系统,都很常见,下文是介绍最常见的以日期查询的语句 select * from ShopOrder where datediff(w ...
- hibernate将本地SQL查询结果封装成对象
hibernate将本地SQL查询结果封装成对象 不知道大家有没有碰过这种情况,迫于很多情况只能用native SQL来查询(如:复杂统计等),然而使用native查询后,结果会被放到object里, ...
- 转: 从Mysql某一表中随机读取n条数据的SQL查询语句
若要在i ≤ R ≤ j 这个范围得到一个随机整数R ,需要用到表达式 FLOOR(i + RAND() * (j – i + 1)).例如, 若要在7 到 12 的范围(包括7和12)内得到一个随机 ...
- 关于SQL查询效率,100w数据,查询只要1秒
1.关于SQL查询效率,100w数据,查询只要1秒,与您分享:机器情况p4: 2.4内存: 1 Gos: windows 2003数据库: ms sql server 2000目的: 查询性能测试,比 ...
随机推荐
- 7、Appium常用API
嗯,官网已经介绍的很全了.会选几个常用API后期整理. Appium常用API地址:http://appium.io/docs/cn/writing-running-appium/appium-bin ...
- 剑指offer——38二叉搜索树与双向链表
题目描述 输入一棵二叉搜索树,将该二叉搜索树转换成一个排序的双向链表.要求不能创建任何新的结点,只能调整树中结点指针的指向. 题解: 在搜索二义树中,左子节点的值总是小于父节点的值,右子节点的值总 ...
- 调用API接口,查询手机号码归属地(2)
使用pymysql pip install pymysql 创建mysql测试表 CREATE TABLE `userinfo` ( `id` int(20) NOT NULL AUTO_INCREM ...
- 《深入理解Java虚拟机》- 重载与重写
这一节打算从“方法调用”的主题进行分析. 方法调用并不等同于方法执行,方法调用阶段唯一的任务就是确定被调用方法的版本(即调用哪一个方法),暂时还不设计方法内部的具体运行过程. 一.概念 解析调用:所有 ...
- find out the installed and runing tomcat version in Linux
To find out the Tomcat version, find this file – version.sh for *nix or version.bat for Windows. Thi ...
- ttytype - 终端设备映射的默认终端类型
DESCRIPTION(描述) /etc/ttytype 文件把termcap/terminfo中的终端类型名与tty行关联起来.每行包括一种终端类型,后面跟着空格,然后是tty名(不带 /dev/ ...
- 标准 IO 测试 可以打开多少流
#include <stdio.h> #include <string.h> #include <errno.h> //trerror(errno) int mai ...
- 笔记49 在Spittr应用中整合Hibernate
在前边构建的Spittr应用中整合Hibernate 由于最近所学的hibernate都是使用xml方式进行配置的,所以在与以Java方式配置的Spittr应用结合时就会出现一些小问题,在此进行总结. ...
- leetcode-168周赛-1295-统计位数为偶数的数字
题目描述: 方法一:O(N) class Solution: def findNumbers(self, nums: List[int]) -> int: ans=0 for num in nu ...
- NOI2019赛前两周被吊打记录
7.1 T1看了半天发现会个暴力FWT,然后突然返发现随便容斥一下就好了 T2猜了个只有13和23的,结果打个表发现伪了,然后标号不只一种连搜索都写错了,也没想过可以轮廓线dp,菜哭了o(╥﹏╥)o ...