实践：使用FLANN.LSH进行检索

1.Survey：

FLANN 库详情见：http://en.wikipedia.org/wiki/Flann

http://medievalscotland.org/kmo/AnnalsIndex/Feminine/Flann.shtml

FLANN主页：http://www.cs.ubc.ca/research/flann/：FLANN is written in C++ and contains bindings for the following languages: C, MATLAB and Python.

OpenCV的FLANN库相对于原始FLANN库功能较少；比如不能直接使用flann::Matrix<unsigned char> data ();

~~OpenCV和PCL都使用了FLANN 库，自从用Python实现CP之后，发现重写LSH的工作量还是相当大，于是使用PCL的FLANN库，省去转化的麻烦。~~

使用CP的检索方式，看来只能用matlab实现了，因为没有办法实现128位的hash表。

2.使用过程中遇到的麻烦（Vs.KD-Tree）：

VS2010不能完全支持CX0标准，不支持vector的下标越界检验，很受伤.....

2.1.使用函数载入特征数据集，存入vector：

//Load the data source

loadVotexFModels(pathName, extension, models);

原始特征数据可以直接存入矩阵，貌似只能使用UChar型：

// Convert data into FLANN format

    flann::Matrix<unsigned char> data (

        new unsigned char[models.size () * models[0].second.size ()],

        models.size (),

        models[0].second.size ());

    for (size_t i = 0; i < data.rows; ++i)

        for (size_t j = 0; j < data.cols; ++j)

            data[i][j] = models[i].second[j];

    flann::save_to_file (data, training_data_h5_file_name, "training_data");// Save data to disk (list of models)

    delete[] data.ptr ();

2.1.使用存储时，使用了C语言的类型FILE* (据说比使用C++的stream快256倍)

    unsigned int table_number =6;

    unsigned int key_size     =8;    //unsigned int key_size     =32;//32 is so big a value;在库的内部没有排错语句，很失败！

    unsigned int multi_probe_level=2; 

    //Create hash index

    flann::LshIndex<flann::ChiSquareDistance<unsigned char> > index (data, flann::LshIndexParams (table_number, key_size,multi_probe_level));

    index.buildIndex ();

    FILE* StreamIdx =fopen(kdtree_idx_file_name.c_str(),"wb");//Use the  FILE* Type.

    index.saveIndex(StreamIdx);

    fclose(StreamIdx);

2.3 修改文件：

.flann/util/result_set.h line263:

size_t j ==0 时，会造成 --j 成为一个很大的数，造成下表越界，故添加语句：if (j>=dist_index_.size()) break; //wishchin 跳出循环。

2.4.对位操作符的修改：

使用unsigned int key_size =32;时

向右以为size_t(1)<< key_size , 产生的值为1造成向量下标超出；或许可以改成power()函数....

long long(1)<< key_size ；约为4GBits.

|= 或等于的使用，把函数符号拆开 x = x| y；

3.使用LSH检索特征：

FILE* StreamIdx =fopen(kdtree_idx_file_name.c_str(),"rb");

index.loadIndex(StreamIdx);//唯一调用函数...

测试函数：

testCreateLshindex(argc,argv);

void testCreateLshindex(int argc, _TCHAR* argv[])

{

    CLSH  FeatureIndex;

    std::string pathName(argv[2]);

    std::string H5_file_Name(argv[3]);

    std::string idx_file_Name(argv[4]);

    std::string data_list_file_name(argv[5]);

    FeatureIndex.genLshVotexFFromFile(pathName,

        H5_file_Name,idx_file_Name,data_list_file_name);

    return;

}

testLshSearch(argc,argv);// 测试检索结果！准确率挺高的...

void testLshSearch(int argc, _TCHAR* argv[])

{

    CLSH  FeatureIndex;

    std::string pathName(argv[2]);

    std::string H5_file_Name(argv[3]);

    std::string idx_file_Name(argv[4]);

    const std::string data_list_file_name(argv[5]);

    std::string test_file_name(argv[1]);

    Votex_model Feature;

    FeatureIndex.loadVotexFHist(test_file_name,Feature);

    unsigned int table_number     =6;

    unsigned int key_size         =8;

    unsigned int multi_probe_level=2;

    int k =6;

    flann::Matrix<unsigned char>   data;

    std::vector<std::string>   Filelist;

    FeatureIndex.loadLshSQL(H5_file_Name,

        idx_file_Name,

        data_list_file_name,

        data,

        Filelist);

    flann::LshIndex<flann::ChiSquareDistance<unsigned char> >  index(data, flann::LshIndexParams (table_number, key_size,multi_probe_level));

    FeatureIndex.loadLshIndex(idx_file_Name,data,index,table_number ,key_size ,multi_probe_level);

    flann::Matrix<int>        k_indices;

    flann::Matrix<float>    k_distances;

    k_indices = flann::Matrix<int>(new int[k], 1, k);

    k_distances = flann::Matrix<float>(new float[k], 1, k);

    FeatureIndex.searchLshSQL(Feature,index,k,k_indices,k_distances);

    for (int idx =0;idx< k;++idx){

        cout<< Filelist[(k_indices[0][idx])]<<endl;

    }

return;

}

实践：使用FLANN.LSH进行检索的更多相关文章

图像检索(6)：局部敏感哈希索引(LSH)
图像检索中,对一幅图像编码后的向量的维度是很高.以VLAD为例,基于SIFT特征点,设视觉词汇表的大小为256,那么一幅图像编码后的VLAD向量的长度为$128 \times 256 = 32768 ...
用Elasticsearch做大规模数据的多字段、多类型索引检索
本文同时发布在我的个人博客之前尝试了用mysql做大规模数据的检索优化,可以看到单字段检索的情况下,是可以通过各种手段做到各种类型索引快速检索的,那是一种相对简单的场景. 但是实际应用往往会复杂一些 ...
paloalto防火墙安装内容和软件更新
1.为了确保您始终不会受到最新威胁(包括尚未发现的威胁)的攻击,您必须确保防火墙始终具有 Palo Alto Networks 发布的最新更新内容及软件. • Antivirus(防病毒)— 包括新的 ...
BigData NoSQL —— ApsaraDB HBase数据存储与分析平台概览
一.引言时间到了2019年,数据库也发展到了一个新的拐点,有三个明显的趋势: 越来越多的数据库会做云原生(CloudNative),会不断利用新的硬件及云本身的优势打造CloudNative数据库, ...
RxJS中高阶操作符的全面讲解：switchMap，mergeMap，concatMap，exhaustMap
RxJS中高阶映射操作符的全面讲解:switchMap, mergeMap, concatMap (and exhaustMap) 原文链接:https://blog.angular-universi ...
位姿检索PoseRecognition：LSH算法.p稳定哈希
位姿检索使用了LSH方法,而不使用PNP方法,是有一定的来由的.主要的工作会转移到特征提取和检索的算法上面来,有得必有失.因此,放弃了解析的方法之后,又放弃了优化的方法,最后陷入了检索的汪洋大海. 0 ...
TKE用户故事 | 作业帮检索服务基于Fluid的计算存储分离实践
作者吕亚霖,2019年加入作业帮,作业帮基础架构-架构研发团队负责人,在作业帮期间主导了云原生架构演进.推动实施容器化改造.服务治理.GO微服务框架.DevOps的落地实践. 张浩然,2019年加入 ...
zz阿里妈妈深度树检索技术（TDM）及应用框架的探索实践
分享嘉宾:何杰阿里妈妈高级算法专家编辑整理:孙锴内容来源:DataFun AI Talk 出品社区:DataFun 注:欢迎转载,转载请注明出处导读:阿里妈妈是阿里巴巴集团旗下数字营销的大中 ...
彻底弄懂LSH之simHash算法
马克·吐温曾经说过,所谓经典小说,就是指很多人希望读过,但很少人真正花时间去读的小说.这种说法同样适用于“经典”的计算机书籍. 最近一直在看LSH,不过由于matlab基础比较差,一直没搞懂.最近看的 ...

随机推荐

[系统资源攻略]memory
内存这里的讲到的 "内存" 包括物理内存和虚拟内存,虚拟内存(Virtual Memory)把计算机的内存空间扩展到硬盘,物理内存(RAM)和硬盘的一部分空间(SWAP)组合在一 ...
GDI 边框绘制函数（8）
绘制矩形调用 Rectangle 函数可以绘制一个矩形(它将填充这个矩形): BOOL Rectangle( HDC hdc, // 设备环境句柄 int nLeftRect, // 左边线的位置 ...
[bzoj2044] 三维导弹拦截 (二分图最大匹配+dp)
传送门 Description 一场战争正在A国与B国之间如火如荼的展开. B国凭借其强大的经济实力开发出了无数的远程攻击导弹,B国的领导人希望,通过这些导弹直接毁灭A国的指挥部,从而取得战斗的胜利! ...
[BZOJ5072] 小A的树
设计状态$f[i][j]$表示以i为根的子树,包含j个点的最小黑点数,$g[i][j]$表示以$i$ 为子树,包含$j$个点的最大黑点数,然后树形背包转移即可. 每次询问的时候就看包含 ...
mysql字符集和排序规则
1.关于字符集和排序规则所为字符集,就是用来定义字符在数据库中的编码的集合.常见的字符集有:utf8(支持中文)和AccIS(不支持中文) 数据库中的排序规则用来定义字符在进行排序和比较的时候的一种规 ...
编码GBK和GB2312、Unicode、UTF-8
一.编码GBK和GB2312 随着计算机发展,各国已经不满足于单纯用ASCII码: 对于我们来说能在计算机中显示中文字符是至关重要的,所以我们还需要一张关于中文和数字对应的关系表: 一个字节8位二进制 ...
C#中三种弹出信息窗口的方式
弹出信息框,是浏览器客户端的事件.服务器没有弹出信息框的功能. 方法一: asp.net页面如果需要弹出信息框,则需要在前台页面上注册一个javascript脚本,使用alert方法.使用Client ...
【codeforces 798C】Mike and gcd problem
[题目链接]:http://codeforces.com/contest/798/problem/C [题意] 给你n个数字; 要求你进行若干次操作; 每次操作对第i和第i+1个位置的数字进行; 将 ...
c#--早绑定晚绑定
原文地址早绑定early binding: 在编译的时候就已经却确定了将来程序运行基类或者派生类的哪个方法. 在编译代码的时候根据引用类型就决定了运行该引用类型中定义的方法.即基类方法. 这种方式运 ...
oracle删除日志文件
oracle删除日志文件删除日志文件的语法例如以下: alter database drop logfile member logfile_name; 删除日志文件须要注意例如以下几点: 1.该日志 ...

实践：使用FLANN.LSH进行检索

实践：使用FLANN.LSH进行检索的更多相关文章

随机推荐

热门专题