GPU方法做倒排压缩和交集计算

之前一直想读这篇，今天读了一下，颇有收获:

1.对文档按相似term聚类之后,delta较小，能够提高压缩率(similarity graph)

1.GPU一般能够有几百个核，有shared memory和global memory,shared memory相当于寄存器的速度,global memory速度较慢

2.有序数组上的搜索算法除了binary search还有interplation search(插值搜索),平均复杂度是O(loglogn),但memory access是binary search的三倍，一般不使用

3.一般到排链基本都符合线性增长趋势,能够相应直线的点。取范围查找能够降低binary search的范围，提升效率(LR Algorithm)

4.或使用hash表,将一定范围内的docId放在一个bucket中，哈希函数简单、哈希表在shared memory中，尽管有些内存的overhead,但效率很高，快于LR(HS Algorithm)

5.由于一般倒排表是线性增长的,使用Linear Regression Compression,能够非常好压缩(但压缩比仅仅有二点几,不知道和group variant比怎么样),可是具有不保存delta的优势。在GPU上能够直接应用binary search,仅仅是每次须要浮点数计算.

Efficent Parallel Lists Intersection and Index Compression Algorithms using Graphics Processing Units:

http://www.vldb.org/pvldb/vol4/p470-ao.pdf

GPU方法做倒排压缩和交集计算的更多相关文章

倒排列表求交集算法包括baeza yates的交集算法
#ifndef __INTERSECT_HPP__ #define __INTERSECT_HPP__ #include "probe.hpp" namespace themas ...
一些开源搜索引擎实现——倒排使用原始文件，列存储Hbase，KV store如levelDB、mongoDB、redis，以及SQL的，如sqlite或者xxSQL
本文说明:除开ES,Solr,sphinx系列的其他开源搜索引擎汇总于此. A search engine based on Node.js and LevelDB A persistent, n ...
Lucene核心数据结构——FST存词典，跳表存倒排或者roarning bitmap 见另外一个文章
Lucene实现倒排表没有使用bitmap,为了效率,lucene使用了一些策略,具体如下:1. 使用FST保存词典,FST可以实现快速的Seek,这种结构在当查询可以表达成自动机时(PrefixQu ...
ES索引瘦身压缩——_source _all 均disable filed store为no，引入第三方DB存储原始数据，去掉pos倒排和doc_values，强制定期merge segments，将所有fileds合并为一个field big string
原始数据:835MB ES 设置了_source _all disabled 且设置了仅仅存docs倒排Wed Feb 22 11:58:27 CST 2017Before size:1 /home/ ...
Lucene 4.X 倒排索引原理与实现: (2) 倒排表的格式设计
1. 定长编码最容易想到的方式就是常用的普通二进制编码,每个数值占用的长度相同,都占用最大的数值所占用的位数,如图所示. 这里有一个文档ID列表,254,507,756,1007,如果按照二进制定长 ...
深入浅出搜索架构引擎、方案与细节倒排 bitmap
深入浅出搜索架构引擎.方案与细节(上) 2017-02-14 23:55 58沈剑0 20 阅读 131 一.缘起 <100亿数据1万属性数据架构设计>文章发布后,不少朋友对58同城自 ...
ANN中乘积量化与多维倒排小结
目前特征向量的比对加速优化能极大缩短比对耗时,改善用户体验. 优化的途径主要有两种,一是使用指令集(SSE,AVX)加速运算.二是使用ANN替代暴力搜索. 乘积量化和倒排索引组合是ANN中效果较好且实 ...
lucene正向索引（续）——域(Field)的元数据信息在.fnm里，在倒排表里，利用跳跃表，有利于大大提高搜索速度。
4.1.2. 域(Field)的元数据信息(.fnm) 一个段(Segment)包含多个域,每个域都有一些元数据信息,保存在.fnm文件中,.fnm文件的格式如下: FNMVersion 是fnm文件 ...
AngularJS结合RequireJS做文件合并压缩的那些坑
我在项目使用了AngularJS框架,用RequireJS做异步模块加载(AMD),在做文件合并压缩时,遇到了一些坑,有些只是解决了,但不明白原因. 那些坑 1. build.js里面的paths必须 ...

随机推荐

Msql免安装版安装
文首提要: 我下载的MySQL版本是:mysql-5.7.17-winx64.zip Archive版:系统:Windows7 64位. 一.解压文件下载好MySQL后, ...
iOS开发——GCD总结
Grand Central Dispatch,简称GCD,在异步执行任务的技术之一. 一般将应用程序中记述的线程管理用的代码在系统级中实现,开发者只需要定义想执行的任务并追加到适当的Dispatch ...
[HDU5686]2016"百度之星" - 资格赛 Problem B
题目大意:给你n,规定一个串中相邻的两个1可以合并为一个2(别的不行),让你求长度为n的全1串最多能变成多少种不同的串. 解题思路:我们先来找一波规律,发现n=1,2,3,4,5时答案分别为1,2,3 ...
获取mapper
static UpdateLogMapper updateLogMapper = (UpdateLogMapper)SpringContextUtil.getBean(UpdateLogMapper. ...
java list序列化json 对象、json数组
list<T> 序列化 json对象 ----------- JSONObject -------JSONObject.toJSONString(str); 解析:JSONObj ...
【转载】spring boot 链接虚拟机（Linux） redis
原文:https://www.imooc.com/article/43279?block_id=tuijian_wz 前提是你已经安装redis且支持远程连接,redis的安装这里不再赘述,有需要的可 ...
php7 memcache和memcached.so扩展
php7安装memcache和memcached扩展 https://github.com/websupport-sk/pecl-memcache https://github.com/php-mem ...
HDU 4069 数独
好久没做题了,建图搞了好久…… 然后,判是否有多解的时候会把原来的答案覆盖掉…… 这里没注意,弄了一下午…… 代码: #include <iostream> #include <cs ...
dos2unix和unix2dos命令使用【转】
dos2unix, unix2dos 用来实现 DOS <=> UNIX text file 转换 aptitude install sysutils 行末: DOS 格式 0d 0a U ...
XUtils3框架的基本用法(一)
本文为作者原创,转载请指明出处: http://blog.csdn.net/a1002450926/article/details/50341173 今天给大家带来XUtils3的基本介绍.本文章的案 ...

GPU方法做倒排压缩和交集计算

GPU方法做倒排压缩和交集计算的更多相关文章

随机推荐

热门专题