WiKi:http://wiki.apache.org/solr/FieldCollapsing

Introduction

  字段折叠和结果分组是考虑相同solr功能的两种不同的方式.

  字段折叠折叠一组具有相同字段值的结果到一个单个(或固定数量)的条目(实体)中.例如,大多数搜索引擎如谷歌聚合站点,所以只有一个或两个条目显示,然后点击这个站点连接,用户可以查阅来自这个站点的更多结果.字段折叠还具有抑制重复的文件的功能.

  结果分组使用普通的字段值将文档分为多组.返回每组文档的前几个文档.一个常见的例子就是搜索购买率比较高的term,如DVD,这里展示了每组分类("TVs & Video","Movies","Computers"等)的前3个结果.

Quick Start  

  现在我们发送一个查询请求给solr,然后打开结果分组,我们首先试着对manu_exact字段分组,你目前只能分组为单值字段:

  ...&q=solr+memory&group=true&group.field=manu_exact

返回分组响应结果:

[...]
"grouped":{
"manu_exact":{
"matches":6,
"groups":[{
"groupValue":"Apache Software Foundation",
"doclist":{"numFound":1,"start":0,"docs":[
{
"id":"SOLR1000",
"name":"Solr, the Enterprise Search Server"}]
}},
{
"groupValue":"Corsair Microsystems Inc.",
"doclist":{"numFound":2,"start":0,"docs":[
{
"id":"VS1GB400C3",
"name":"CORSAIR ValueSelect 1GB 184-Pin DDR SDRAM Unbuffered DDR 400 (PC 3200) System Memory - Retail"}]
}},
{
"groupValue":"A-DATA Technology Inc.",
"doclist":{"numFound":1,"start":0,"docs":[
{
"id":"VDBDB1A16",
"name":"A-DATA V-Series 1GB 184-Pin DDR SDRAM Unbuffered DDR 400 (PC 3200) System Memory - OEM"}]
}},
{
"groupValue":"Canon Inc.",
"doclist":{"numFound":1,"start":0,"docs":[
{
"id":"0579B002",
"name":"Canon PIXMA MP500 All-In-One Photo Printer"}]
}},
{
"groupValue":"ASUS Computer Inc.",
"doclist":{"numFound":1,"start":0,"docs":[
{
"id":"EN7800GTX/2DHTV/256M",
"name":"ASUS Extreme N7800GTX/2DHTV (256 MB)"}]
}}]}}

  响应表面总共有6个结果匹配.对于每个group.field的唯一值,都会返回一个doc集合,默认包含第一个最高得分文档返回.这个文档集合(docList)同样给出了分组的文档总数--numFound.这些组同样按照他们每组内的第一个文档的得分排序.

  我们也可以使用group.query命令(和facet.query命令很像)按查询分组文档.例如,我们可以找到不同价格范围的前3个文档.

...&q=memory&group=true&group.query=price:[0 TO 99.99]&group.query=price:[100 TO *]&group.limit=3

[...]
"grouped":{
"price:[0 TO 99.99]":{
"matches":5,
"doclist":{"numFound":1,"start":0,"docs":[
{
"name":"CORSAIR ValueSelect 1GB 184-Pin DDR SDRAM Unbuffered DDR 400 (PC 3200) System Memory - Retail",
"price":74.99}]
}},
"price:[100 TO *]":{
"matches":5,
"doclist":{"numFound":3,"start":0,"docs":[
{
"name":"Canon PIXMA MP500 All-In-One Photo Printer",
"price":179.99},
{
"name":"CORSAIR XMS 2GB (2 x 1GB) 184-Pin DDR SDRAM Unbuffered DDR 400 (PC 3200) Dual Channel Kit System Memory - Retail",
"price":185.0},
{
"name":"ASUS Extreme N7800GTX/2DHTV (256 MB)",
"price":479.95}]
}}
[...]

  从上面的响应我们可以看出有5个结果匹配了基础查询"memory",其中,一个价格在$100以下,3个在$100以上,这加起来不够5个,这是因为有一个文档没有价格,因此,这个文档不匹配任何一个分组查询.

  通过参数group.main=true,我们可以选择性的使用分组结果作为"main"结果.尽管这个结果没有太多信息,但是它比较容易让客户端解析数据.

...&q=solr+memory&group=true&group.field=manu_exact&group.main=true

 "response":{"numFound":6,"start":0,"docs":[
{
"id":"SOLR1000",
"name":"Solr, the Enterprise Search Server",
"manu":"Apache Software Foundation"},
{
"id":"VS1GB400C3",
"name":"CORSAIR ValueSelect 1GB 184-Pin DDR SDRAM Unbuffered DDR 400 (PC 3200) System Memory - Retail",
"manu":"Corsair Microsystems Inc."},
{
"id":"VDBDB1A16",
"name":"A-DATA V-Series 1GB 184-Pin DDR SDRAM Unbuffered DDR 400 (PC 3200) System Memory - OEM",
"manu":"A-DATA Technology Inc."},
{
"id":"0579B002",
"name":"Canon PIXMA MP500 All-In-One Photo Printer",
"manu":"Canon Inc."},
{
"id":"EN7800GTX/2DHTV/256M",
"name":"ASUS Extreme N7800GTX/2DHTV (256 MB)",
"manu":"ASUS Computer Inc."}]
}

Request Parameters

group:           参数值true/false 打开关闭分组.

group.field :   参数值:字段名称,基于字段唯一的值来分组的.这个字段必须是单值字段,并且是必须被索引的字段.

group.func:    参数值:查询函数,这个参数支持版本4.0以上的.

group.query:    参数值:查询,这是基于查询的分组.

rows:        参数值:number,返回分组的组数.

start:       参数值:number,结果分组集合的偏移量.

group.limit:    参数值:number,每组返回的结果数.默认是1.

group.offset:  参数值:number,每组返回的起始偏移量.

sort:        参数值:[sortspec],如何对分组排序,例如,sort=popularity desc将导致分组按照每组最高人气的文档排序.默认是"score desc".

group.sort:     参数值:[sortspec],如果在组内排序文档,默认值和sort参数一样.

group.format:    参数值:grouped/simple,如果simple,分组的文档展现成一个单独的平面列表.这时候start和rows参数关联的就是文档的数量了,不再是分组的组数量.

group.main:   参数值:true/false,如果为true,最后一个字段的分组结果将被作为响应的主结果列表.使用group.format=simple.

group.ngroups:  参数值:true/false,如果为true,包含匹配查询的分组数量.默认是false.

group.truncate:  参数值:true/false,facet计数是根据匹配查询的每组最相关的文档.

group.facet:   参数值:true/false,

group.cache.percent:参数值:[0-100],如果> 0,开启分组缓存.分组事实上是执行了两次搜索,这个选项缓存了第二次搜索,值为0则关闭分组缓存.默认是0.测试发现,这个缓存只能提高boolean查询,通配符查询,模糊查询的搜索时间.举个简单的例子,对于term查询或者是全匹配查询,这个缓存就会对搜索有消极的影响.

 注意:

  1.可以在单个request请求中指定多个分组命令(如group.field, group.func, group.query)

  2.分组同样支持分布式搜索.group.truncate和group.func是唯一不支持分布式搜索的参数.

Known Limitations

  1.目前还不支持在多值字段上分组.

  2.进一步的性能改进计划很快!

不当之处,还请指正! 谢谢!

Result Grouping / Field Collapsing-结果分组的更多相关文章

  1. Distributed Result Grouping Caveats

    Distributed Result Grouping Caveats Grouping is supported distributed searches, with some caveats: 1 ...

  2. 8.4Solr API使用(Result Grouping分组查询)

    转载请出自出处:http://eksliang.iteye.com/blog/2169458 一.概述 分组统计查询不同于分组统计(Facet),facet只是简单统计记录数,并不能为每组数据返回实际 ...

  3. elasticsearch 基础 —— Field Collapsing字段折叠

    允许根据字段值折叠搜索结果.通过按折叠键选择顶部排序文档来完成折叠.例如,下面的查询检索每个用户的最佳推文,并按喜欢的数量对它们进行排序. GET /twitter/_search { "q ...

  4. solr调用lucene底层实现倒排索引源码解析

    1.什么是Lucene? 作为一个开放源代码项目,Lucene从问世之后,引发了开放源代码社群的巨大反响,程序员们不仅使用它构建具体的全文检索应用,而且将之集成到各种系统软件中去,以及构建Web应用, ...

  5. solr服务器的查询过程

    SolrDispatchFilter的作用 This filter looks at the incoming URL maps them to handlers defined in solrcon ...

  6. solr源码分析之searchComponent

    上文solr源码分析之数据导入DataImporter追溯中提到了solr的工作流程,其核心是各种handler. handler定义了各种search Component, @Override pu ...

  7. Storm Grouping —— 流分组策略

    Storm Grouping: Shuffle Grouping :随机分组,尽量均匀分布到下游Bolt中 将流分组定义为混排.这种混排分组意味着来自Spout的输入将混排,或随机分发给此Bolt中的 ...

  8. Storm累计求和中使用各种分组Grouping

    Shuffle Grouping: 随机分组, 随机派发stream里面的tuple, 保证bolt中的每个任务接收到的tuple数目相同.(它能实现较好的负载均衡) Fields Grouping: ...

  9. Solr系列六:solr搜索详解优化查询结果(分面搜索、搜索结果高亮、查询建议、折叠展开结果、结果分组、其他搜索特性介绍)

    一.分面搜索 1. 什么是分面搜索? 分面搜索:在搜索结果的基础上进行按指定维度的统计,以展示搜索结果的另一面信息.类似于SQL语句的group by 分面搜索的示例: http://localhos ...

随机推荐

  1. VC编译选项 md /mdd /ml /mt/mtd

    VC编译选项 多线程(/MT)多线程调试(/MTd)多线程 DLL (/MD)多线程调试 DLL (/MDd)C 运行时库                        库文件Single threa ...

  2. 初学FPGA一些建议

    数字电路: 这是大学里的基本课程 ,涵盖了一般数字电路的组合电路.时序电路.寄存器传输.储存器以及可编程逻辑电路(FPGA 就是其中一种),还有比较好的添加了计算机的指令集结构.处理器设计等计算机方面 ...

  3. HDOJ4763(KMP原理理解)

    Theme Section Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 32768/32768 K (Java/Others)Tot ...

  4. Git出现提交错误--Push to origin/master was rejected(转)

    Step1:出现的问题? 在使用Git Push代码的时候,会出现Push to origin/master was rejected 的错误提示.在第一次提交到代码仓库的时候非常容易出现,因为初始化 ...

  5. 编译安装x264

    网上也有相应的教程,之所以在这里重申一遍,是因为我试了网上很多的编译方法,都出现了问题,为此将此编译安装方法记录下来. 首先是 获取x264的网站:http://www.videolan.org/de ...

  6. 在SpringMVC中使用@RequestBody和@ResponseBody注解处理json时,报出HTTP Status 415的解决方案

    我在使用SpringMVC的@RequestBody和@ResponseBody注解处理JSON数据的时候,总是出现415的错误,说是不支持所提交数据格式,我在页面中使用了JQuery的AJAX来发出 ...

  7. 关于标签的属性-<a>

    标签的属性可以分成两个大类 1.系统属性名:例如 id class src这些都是系统里自带的 2.自定义属性名:可以根据使用的需要自行定义 下面我们简短介绍一下<a>标签的使用 < ...

  8. php-7.1和apache httpd-2.4.29 windows环境配置

    一.apaceh2.4配置 (一).修改apache2.4.29的httpd.conf安装目录文件,第38行 原Define SRVROOT "/Apache24" 修改为(你自己 ...

  9. Oracle段高水位(HWM, high water mark)问题

    Oracle对表做全表扫描的时候 ,会扫描完HWM以下的数据块.如果某个表delete(delete操作不会降低高水位)了大量数据,那么这时对表做全表扫描就会做很多无用功,扫描了一大堆数据块,最后发现 ...

  10. 关于Python安装官方whl包和tar.gz包的方法详解

    Windows环境: 安装whl包:pip install wheel -> pip install **.whl 安装tar.gz包:cd到解压后路径,python setup.py inst ...