1.如何高效使用Solr查询功能 ?
2.单个字段分组统计如何实现?
3.IN条件查询有几种方式?
4.多个字段分组统计是否只支持count?

Cloudera公司已经推出了基于Hadoop平台的查询统计分析工具Impala,只要熟悉SQL,就可以熟练地使用Impala来执行查询与分析的功能。不过Impala的SQL和关系数据库的SQL还是有一点微妙地不同的。
下面,我们设计一个表,通过该表中的数据,来将SQL查询与统计的语句,使用Solr查询的方式来与SQL查询对应。这个翻译的过程,是非常有趣的,你可以看到Solr一些很不错的功能。
用来示例的表结构设计,如图所示:

下面,我们通过给出一些SQL查询统计语句,然后对应翻译成Solr查询语句,然后对比结果

查询对比
条件组合查询
SQL查询语句:
  1. SELECT log_id,start_time,end_time,prov_id,city_id,area_id,idt_id,cnt,net_type
  2. FROM v_i_event
  3. WHERE prov_id = 1 AND net_type = 1 AND area_id = 10304 AND time_type = 1 AND time_id >= 20130801 AND time_id <= 20130815
  4. ORDER BY log_id LIMIT 10;

复制代码

查询结果,如图所示:

Solr查询URL:
  1. http://slave1:8888/solr-cloud/i_event/select?q=*:*&fl=log_id,start_time,end_time,prov_id,city_id,area_id,idt_id,cnt,net_type&fq=prov_id:1 AND net_type:1 AND area_id:10304 AND time_type:1 AND time_id:[20130801 TO 20130815]&sort=log_id asc&start=0&rows=10

复制代码

查询结果,如下所示:

  1. <response>
  2. <lst name="responseHeader">
  3. <int name="status">0</int>
  4. <int name="QTime">4</int>
  5. </lst>
  6. <result name="response" numFound="77" start="0">
  7. <doc>
  8. <int name="log_id">6827</int>
  9. <long name="start_time">1375072117</long>
  10. <long name="end_time">1375081683</long>
  11. <int name="prov_id">1</int>
  12. <int name="city_id">103</int>
  13. <int name="area_id">10304</int>
  14. <int name="idt_id">11002</int>
  15. <int name="cnt">0</int>
  16. <int name="net_type">1</int>
  17. </doc>
  18. <doc>
  19. <int name="log_id">6827</int>
  20. <long name="start_time">1375072117</long>
  21. <long name="end_time">1375081683</long>
  22. <int name="prov_id">1</int>
  23. <int name="city_id">103</int>
  24. <int name="area_id">10304</int>
  25. <int name="idt_id">11000</int>
  26. <int name="cnt">0</int>
  27. <int name="net_type">1</int>
  28. </doc>
  29. <doc>
  30. <int name="log_id">6851</int>
  31. <long name="start_time">1375142158</long>
  32. <long name="end_time">1375146391</long>
  33. <int name="prov_id">1</int>
  34. <int name="city_id">103</int>
  35. <int name="area_id">10304</int>
  36. <int name="idt_id">14001</int>
  37. <int name="cnt">5</int>
  38. <int name="net_type">1</int>
  39. </doc>
  40. <doc>
  41. <int name="log_id">6851</int>
  42. <long name="start_time">1375142158</long>
  43. <long name="end_time">1375146391</long>
  44. <int name="prov_id">1</int>
  45. <int name="city_id">103</int>
  46. <int name="area_id">10304</int>
  47. <int name="idt_id">11002</int>
  48. <int name="cnt">23</int>
  49. <int name="net_type">1</int>
  50. </doc>
  51. <doc>
  52. <int name="log_id">6851</int>
  53. <long name="start_time">1375142158</long>
  54. <long name="end_time">1375146391</long>
  55. <int name="prov_id">1</int>
  56. <int name="city_id">103</int>
  57. <int name="area_id">10304</int>
  58. <int name="idt_id">10200</int>
  59. <int name="cnt">55</int>
  60. <int name="net_type">1</int>
  61. </doc>
  62. <doc>
  63. <int name="log_id">6851</int>
  64. <long name="start_time">1375142158</long>
  65. <long name="end_time">1375146391</long>
  66. <int name="prov_id">1</int>
  67. <int name="city_id">103</int>
  68. <int name="area_id">10304</int>
  69. <int name="idt_id">14000</int>
  70. <int name="cnt">4</int>

复制代码

对比上面结果,除了根据idt_id排序方式不同以外(Impala是升序,Solr是降序),其他是相同的。
单个字段分组统计
SQL查询语句:
  1. SELECT prov_id, SUM(cnt) AS sum_cnt, AVG(cnt) AS avg_cnt, MAX(cnt) AS max_cnt, MIN(cnt) AS min_cnt, COUNT(cnt) AS count_cnt
  2. FROM v_i_event
  3. GROUP BY prov_id;

复制代码

查询结果,如图所示:

Solr查询URL:
  1. http://slave1:8888/solr-cloud/i_event/select?q=*:*&stats=true&stats.field=cnt&rows=0&indent=true

复制代码

查询结果,如下所示:

  1. <response>
  2. <lst name="responseHeader">
  3. <int name="status">0</int>
  4. <int name="QTime">2</int>
  5. </lst>
  6. <result name="response" numFound="4088" start="0"></result>
  7. <lst name="stats">
  8. <lst name="stats_fields">
  9. <lst name="cnt">
  10. <double name="min">0.0</double>
  11. <double name="max">1258.0</double>
  12. <long name="count">4088</long>
  13. <long name="missing">0</long>
  14. <double name="sum">32587.0</double>
  15. <double name="sumOfSquares">9170559.0</double>
  16. <double name="mean">7.971379647749511</double>
  17. <double name="stddev">46.69344567709268</double>
  18. <lst name="facets" />
  19. </lst>
  20. </lst>
  21. </lst>
  22. </response>

复制代码

对比查询结果,Solr提供了更多的统计项,如标准差(stddev)等,与SQL查询结果是一致的。
IN条件查询
SQL查询语句:
[cde lang="sql"]
SELECT log_id,start_time,end_time,prov_id,city_id,area_id,idt_id,cnt,net_typ
FROM v_i_event
WHERE prov_id = 1 AND net_type = 1 ANDcity_id IN(106,103) AND idt_id IN(12011,5004,6051,6056,8002) AND time_type = 1AND time_id >= 20130801 AND time_id <= 20130815
ORDER BY log_id, start_time DESC LIMIT 10;
[/code]
查询结果,如图所示:
 

Solr查询URL:

  1. http://slave1:8888/solr-cloud/i_event/select?q=*:*&fl=log_id,start_time,end_time,prov_id,city_id,area_id,idt_id, cnt,net_type&fq=prov_id:1 AND net_type:1 AND (city_id:106 OR city_id:103) AND (idt_id:12011 OR idt_id:5004 OR idt_id:6051 OR idt_id:6056 OR idt_id:8002)
    AND time_type:1 AND time_id:[20130801 TO 20130815]&sort=log_id asc ,start_time desc&start=0&rows=10

复制代码

  1. http://slave1:8888/solr-cloud/i_event/select?q=*:*&fl=log_id,start_time,end_time,prov_id,city_id,area_id,idt_id, cnt ,net_type&fq=prov_id:1&fq=net_type:1&fq=(city_id:106 OR city_id:103)&fq=(idt_id:12011 OR idt_id:5004 OR idt_id:6051 OR idt_id:6056 OR idt_id:8002)&fq=time_type:1&fq=time_id:[20130801
    TO 20130815]&sort=log_id asc,start_time desc&start=0&rows=10

复制代码

查询结果,如下所示:

  1. <response>
  2. <lst name="responseHeader">
  3. <int name="status">0</int>
  4. <int name="QTime">6</int>
  5. </lst>
  6. <result name="response" numFound="63" start="0">
  7. <doc>
  8. <int name="log_id">6553</int>
  9. <long name="start_time">1374054184</long>
  10. <long name="end_time">1374054254</long>
  11. <int name="prov_id">1</int>
  12. <int name="city_id">103</int>
  13. <int name="area_id">10307</int>
  14. <int name="idt_id">12011</int>
  15. <int name="cnt">0</int>
  16. <int name="net_type">1</int>
  17. </doc>
  18. <doc>
  19. <int name="log_id">6553</int>
  20. <long name="start_time">1374054184</long>
  21. <long name="end_time">1374054254</long>
  22. <int name="prov_id">1</int>
  23. <int name="city_id">103</int>
  24. <int name="area_id">10307</int>
  25. <int name="idt_id">5004</int>
  26. <int name="cnt">2</int>
  27. <int name="net_type">1</int>
  28. </doc>
  29. <doc>
  30. <int name="log_id">6555</int>
  31. <long name="start_time">1374055060</long>
  32. <long name="end_time">1374055158</long>
  33. <int name="prov_id">1</int>
  34. <int name="city_id">103</int>
  35. <int name="area_id">70104</int>
  36. <int name="idt_id">5004</int>
  37. <int name="cnt">3</int>
  38. <int name="net_type">1</int>

复制代码

对比查询结果,是一致的。
开区间范围条件查询
SQL查询语句:
SELECTlog_id,start_time,end_time,prov_id,city_id,area_id,idt_id,cnt,net_type
FROM v_i_event
WHERE net_type = 1 AND idt_idIN(12011,5004,6051,6056,8002) AND time_type = 1 AND start_time >= 1373598465AND end_time < 1374055254
ORDER BY log_id, start_time, idt_id DESCLIMIT 30;
查询结果,如图所示:
 
Solr查询URL:
  1. http://slave1:8888/solr-cloud/i_event/select?q=*:*&fl=log_id,start_time,end_time,prov_id,city_id,area_id,idt_id,cnt,net_type&fq=net_type:1 AND (idt_id:12011 OR idt_id:5004 OR idt_id:6051 OR idt_id:6056 OR idt_id:8002) AND time_type:1 AND start_time:[1373598465
    TO 1374055254]&fq =-start_time:1374055254&sort=log_id asc,start_time asc,idt_id desc&start=0&rows=30

复制代码

  1. http://slave1:8888/solr-cloud/i_event/select?q=*:*&fl=log_id,start_time,end_time,prov_id,city_id,area_id,idt_id,cnt,net_type&fq=net_type:1 AND (idt_id:12011 OR idt_id:5004 OR idt_id:6051 OR idt_id:6056 OR idt_id:8002) AND time_type:1 AND start_time:[1373598465
    TO 1374055254] AND -start_time:1374055254&sort=log_id asc,start_time asc,idt_id desc&start=0&rows=30

复制代码

  1. http://slave1:8888/solr-cloud/i_event/select?q=*:*&fl=log_id,start_time,end_time,prov_id,city_id,area_id,idt_id,cnt,net_type&fq=net_type:1&fq=idt_id:12011 OR idt_id:5004 OR idt_id:6051 OR idt_id:6056 OR idt_id:8002&fq =time_type:1&fq=start_time:[1373598465
    TO 1374055254]&fq =-start_time:1374055254&sort=log_id asc,start_time asc,idt_id desc&start=0&rows=30

复制代码

查询结果,如下所示:

  1. <response>
  2. <lst name="responseHeader">
  3. <int name="status">0</int>
  4. <int name="QTime">5</int>
  5. </lst>
  6. <result name="response" numFound="4" start="0">
  7. <doc>
  8. <int name="log_id">6553</int>
  9. <long name="start_time">1374054184</long>
  10. <long name="end_time">1374054254</long>
  11. <int name="prov_id">1</int>
  12. <int name="city_id">103</int>
  13. <int name="area_id">10307</int>
  14. <int name="idt_id">12011</int>
  15. <int name="cnt">0</int>
  16. <int name="net_type">1</int>
  17. </doc>
  18. <doc>
  19. <int name="log_id">6553</int>
  20. <long name="start_time">1374054184</long>
  21. <long name="end_time">1374054254</long>
  22. <int name="prov_id">1</int>
  23. <int name="city_id">103</int>
  24. <int name="area_id">10307</int>
  25. <int name="cnt">2</int>
  26. <int name="net_type">1</int>
  27. </doc>
  28. <doc>
  29. <int name="log_id">6555</int>
  30. <long name="start_time">1374055060</long>
  31. <long name="end_time">1374055158</long>
  32. <int name="prov_id">1</int>
  33. <int name="city_id">103</int>
  34. <int name="area_id">70104</int>
  35. <int name="idt_id">12011</int>
  36. <int name="cnt">0</int>
  37. <int name="net_type">1</int>
  38. </doc>
  39. <doc>
  40. <int name="log_id">6555</int>
  41. <long name="start_time">1374055060</long>
  42. <long name="end_time">1374055158</long>
  43. <int name="prov_id">1</int>
  44. <int name="city_id">103</int>
  45. <int name="area_id">70104</int>
  46. <int name="idt_id">5004</int>
  47. <int name="cnt">3</int>
  48. <int name="net_type">1</int>
  49. </doc>
  50. </result>
  51. </response>

复制代码

多个字段分组统计(只支持count函数)
SQL查询语句:
SELECT city_id, area_id, COUNT(cnt) AScount_cnt
FROM v_i_event
WHERE prov_id = 1 AND net_type = 1
GROUP BY city_id, area_id;
查询结果,如图所示:
 
Solr查询URL:
  1. http://slave1:8888/solr-cloud/i_event/select?q=*:*&facet=true&facet.pivot=city_id,area_id&fq=prov_id:1 AND net_type:1&rows=0&indent=true

复制代码

对比上面结果,Solr查询结果,需要从上面的各组中进行合并,得到最终的统计结果,结果和SQL结果是一致的。
多个字段分组统计(支持count、sum、max、min等函数)
一次对多个字段进行独立分组统计,Solr可以很好的支持。这相当于执行两个带有GROUP BY子句的SQL,这两个GROUP BY分别只对一个字段进行汇总统计。
SQL查询语句:
  1. SELECT city_id, area_id, COUNT(cnt) AS count_cnt
  2. FROM v_i_event
  3. WHERE prov_id = 1 AND net_type = 1
  4. GROUP BY city_id;
  5. SELECT city_id, area_id, COUNT(cnt) AS count_cnt
  6. FROM v_i_event
  7. WHERE prov_id = 1 AND net_type = 1
  8. GROUP BY area_id;

复制代码

查询结果,不再显示。

Solr查询URL:
  1. >http://slave1:8888/solr-cloud/i_event/select?q=*:*&stats=true&stats.field=cnt&f.cnt.stats.facet=city_id&&f.cnt.stats.facet=area_id&fq=prov_id:1 AND net_type:1&rows=0&indent=true

复制代码

查询结果,如下所示:
  1. <response>
  2. <lst name="responseHeader">
  3. <int name="status">0</int>
  4. <int name="QTime">72</int>
  5. </lst>
  6. <result name="response" numFound="1171" start="0"></result>
  7. <lst name="facet_counts">
  8. <lst name="facet_queries" />
  9. <lst name="facet_fields" />
  10. <lst name="facet_dates" />
  11. <lst name="facet_ranges" />
  12. <lst name="facet_pivot">
  13. <arr name="city_id,area_id">
  14. <lst>
  15. <str name="field">city_id</str>
  16. <int name="value">103</int>
  17. <int name="count">678</int>
  18. <arr name="pivot">
  19. <lst>
  20. <str name="field">area_id</str>
  21. <int name="value">10307</int>
  22. <int name="count">298</int>
  23. </lst>
  24. <lst>
  25. <str name="field">area_id</str>
  26. <int name="value">10315</int>
  27. <int name="count">120</int>
  28. </lst>
  29. <lst>
  30. <str name="field">area_id</str>
  31. <int name="value">10317</int>
  32. <int name="count">86</int>
  33. </lst>
  34. <lst>
  35. <str name="field">area_id</str>
  36. <int name="value">10304</int>
  37. <int name="count">67</int>
  38. </lst>
  39. <lst>
  40. <str name="field">area_id</str>
  41. <int name="value">10310</int>
  42. <int name="count">49</int>
  43. </lst>
  44. <lst>
  45. <str name="field">area_id</str>
  46. <int name="value">70104</int>
  47. <int name="count">48</int>
  48. </lst>
  49. <lst>
  50. <str name="field">area_id</str>
  51. <int name="value">10308</int>
  52. <int name="count">6</int>
  53. </lst>
  54. <lst>
  55. <str name="field">area_id</str>
  56. <int name="value">0</int>
  57. <int name="count">2</int>
  58. </lst>
  59. <lst>
  60. <str name="field">area_id</str>
  61. <int name="value">10311</int>
  62. <int name="count">2</int>
  63. </lst>
  64. </arr>
  65. </lst>
  66. <lst>
  67. <str name="field">city_id</str>
  68. <int name="value">0</int>
  69. <int name="count">463</int>
  70. <arr name="pivot">
  71. <lst>
  72. <str name="field">area_id</str>
  73. <int name="value">0</int>
  74. <int name="count">395</int>
  75. </lst>
  76. <lst>
  77. <str name="field">area_id</str>
  78. <int name="value">10307</int>
  79. <int name="count">68</int>

复制代码

对比上面结果,Solr查询结果,需要从上面的各组中进行合并,得到最终的统计结果,结果和SQL结果是一致的。
多个字段联合分组统计(支持count、sum、max、min等函数)
SQL查询语句:
SELECT city_id, area_id, SUM(cnt) ASsum_cnt, AVG(cnt) AS avg_cnt, MAX(cnt) AS max_cnt, MIN(cnt) AS min_cnt,COUNT(cnt) AS count_cnt
FROM v_i_event
WHERE prov_id = 1 AND net_type = 1
GROUP BY city_id, area_id;
查询结果,如图所示:
 
Solr目前不能简单的支持这种查询,如果想要满足这种查询统计,需要在schema的设计上,将一个字段设置为多值,然后通过多个值进行分组统计。如果应用中查询统计分析的模式比较固定,预先知道哪些字段会用于联合分组统计,完全可以在设计的时候,考虑设置多值字段来满足这种需求。

---------------------

本文来自 Eric-L90 的CSDN 博客 ,全文地址请点击:https://blog.csdn.net/brotherdong90/article/details/52690163?utm_source=copy

Solr高效利用:Solr实现SQL的查询与统计的更多相关文章

  1. Solr实现SQL的查询与统计--转载

    原文地址:http://shiyanjun.cn/archives/78.html Cloudera公司已经推出了基于Hadoop平台的查询统计分析工具Impala,只要熟悉SQL,就可以熟练地使用I ...

  2. 利用solr实现商品的搜索功能

      后期补充: 为什么要用solr服务,为什么要用luncence? 问题提出:当我们访问购物网站的时候,我们可以根据我们随意所想的内容输入关键字就可以查询出相关的内容,这是怎么做到呢?这些随意的数据 ...

  3. 利用SOLR搭建企业搜索平台 之——配置文件

    运行solr是个很简单的事,如何让solr高效运行你的项目,这个就不容易了.要考虑的因素太多.这里很重要一个就是对solr的配置要了解.懂得配置文件每个配置项的含义,这样操作起来就会如鱼得水! 在so ...

  4. [转] 利用SET STATISTICS IO和SET STATISTICS TIME 优化SQL Server查询性能

    首先需要说明的是这篇文章的内容并不是如何调节SQL Server查询性能的(有关这方面的内容能写一本书),而是如何在SQL Server查询性能的调节中利用SET STATISTICS IO和SET ...

  5. 利用SET STATISTICS IO和SET STATISTICS TIME 优化SQL Server查询性能

    首先需要说明的是这篇文章的内容并不是如何调节SQL Server查询性能的(有关这方面的内容能写一本书),而是如何在SQL Server查询性能的调节中利用SET STATISTICS IO和SET ...

  6. 利用SOLR搭建企业搜索平台 之——Solr索引基本操作

    来源:http://blog.csdn.net/zx13525079024/article/details/25367239 我们来看下通过界面来操作SOLR,包括SOLR索引的添加,查询等基本操作. ...

  7. 利用SOLR搭建企业搜索平台 之——solr配置solrconfig.xml

    来源:http://blog.csdn.net/zx13525079024/article/details/25310781 solrconfig.xml配置文件主要定义了SOLR的一些处理规则,包括 ...

  8. 利用SOLR搭建企业搜索平台 之——MultiCore

    Solr Multicore 是 solr 1.3 的新特性.其目是一个solr实例,可以有多个搜索应用. 下面着手来将solr给出的一个example跑出来.这篇文章是基于<利用SOLR搭建企 ...

  9. Solr.NET快速入门(四)【相似查询,拼写检查】

    相似查询 此功能会返回原始查询结果中返回的每个文档的类似文档列表. 参数通过QueryOptions的MoreLikeThis属性定义. 示例:搜索"apache",为结果中的每个 ...

随机推荐

  1. celery + redis quick start

    软件: redis server redis-server.exe 安装redis for python using pip 安装celery (redis)  pip install -U &quo ...

  2. ES9新特性

    这篇文章主要介绍ES2018(ES9)的新特性, 以及使用方法 JS是一门跨平台的语言, ES6也就是ECMAScript 2015 花费了5年的时间敲定, 是一次非常大的改版, 之后每年都有一个小版 ...

  3. webpack 4 学习资料

    webpack 4 学习资料 资料 网址 webpack 中文版 https://webpack.docschina.org/configuration/ webpack 4 教程 https://s ...

  4. 在单文件组件中,引入安装模块里的css的2种方式:script中引入、style中引入

    在单文件组件中,引入安装模块里的css的2种方式:script中引入.style中引入 1.script中引入 <script> import 'bulma/css/bulma.css' ...

  5. Python 处理JSON数据报错解决办法

    春节期间通过接口爬取携程数据的时候,返回的json字符串通过json.loads加载时报错"ValueError: Invalid control character at: line 1 ...

  6. py-day2 python 列表

    1.列表的基本格式: 2.列表中可以嵌套任何类型: 中括号括起来.逗号分割每个元素. 列表中的元素可以是:数字/字符串/列表/布尔值 等等,所有的都能放进去. 集合内部可以放置任何东西. 3.通过索引 ...

  7. CentOS6.4 添加php-fpm系统服务

    简介: php-fpm安装完成后默认不会注册为系统服务,所以需要手工添加系统服务脚本.在/etc/init.d目录下新建php-fpm文件,并更改权限其即可. 1.检测/usr/local/php/v ...

  8. Linux命令之sed

    sed命令格式 sed [options] 'command' file(s) 选项 -e :直接在命令行模式上进行sed动作编辑,此为默认选项; -f :将sed的动作写在一个文件内,用–f fil ...

  9. 【java】Hello World

    class Demo { //程序的主入口,能保证类的独立运行 public static void main(String[] args) { System.out.println("He ...

  10. AXI_LITE源码学习笔记

    AXI_LITE源码学习笔记 1. axi_awready信号的产生 准备接收写地址信号 // Implement axi_awready generation // axi_awready is a ...