BoW算法及DBoW2库简介（二）

一、BoW算法

　　用OpenCV实现了最简单的BoW算法进行了一次小规模的图像检索任务，使用UKbench数据库，算法原理和网上的描述差不多，使用K-means算法进行聚类，这里使用KDTree算法进行特征量化，按照自己的理解计算了TF-IDF权重，使用余弦距离计算图像之间的相似性。下面给出关键函数依赖于OpenCV的实现：

如TF-IDF权重的计算，这里只是按照自己的理解实现了算法，有的地方传参不是很合适，不过不影响效果：

std::vector<double> compute_TF(cv::Mat& descriptors, cv::Mat& labels)

{

    std::vector<double> tf(Num_clu, 0.0);

    for (int i = ; i < descriptors.rows; i++)

    {

        tf[labels.at<int>(i)] ++;

    }

    for (unsigned int i = ; i < tf.size(); i++)

    {

        tf[i] /= (float)descriptors.rows;

    }

    return tf;

}

std::vector<double> comput_IDF(std::vector<cv::Mat>& descriptors, std::vector<cv::Mat> &labels)

{

    std::vector<double> idf(Num_clu, 1.0);

    for (unsigned int i = ; i < descriptors.size(); i++)

    {

        std::vector<int> idf_tmp(Num_clu, );

        for (int j = ; j < descriptors[i].rows; j++)

        {

            idf_tmp[labels[i].at<int>(j)] ++;

        }

        for (unsigned int j = ; j < idf_tmp.size(); j++)

        {

            if (idf_tmp[j] != ) idf[j] ++;

        }

    }

    for (unsigned int i = ; i < idf.size(); i++)

    {

        idf[i] = log(Num_img / idf[i]);

    }

    return idf;

}

　　有一点需要注意，这里的IDF应该是只计算一次，而TF则是对每一幅图像计算一次。

　　有了TF-IDF函数的实现就可以计算BoW向量了，首先是计算训练图像的BoW向量：

cv::Mat TrainingBowVector(cv::Mat & centers, std::vector<double>& IDF)

{

    cv::SurfFeatureDetector detector;

    cv::SurfDescriptorExtractor extractor;

    char image_name[];

    std::vector<cv::Mat> descriptor_all;

    descriptor_all.reserve(Num_img);

    //Find the keypoints and compute the descriptors；

    for (int i = ; i <= Num_img; i++)

    {

        std::cout << "I:" << i << std::endl;

        sprintf_s(image_name, "D:\\DataBase\\UKbench\\TestImage\\%d.jpg", i);

        cv::Mat image = cv::imread(image_name, );

        std::vector<cv::KeyPoint> keypoints;

        cv::Mat descriptors;

        detector.detect(image, keypoints);

        std::cout << "Keypoints:" << keypoints.size() << std::endl;

        extractor.compute(image, keypoints, descriptors);

        descriptor_all.push_back(descriptors);

    }

    //Get the training descriptors；

    std::cout << "Get the training descriptors." << std::endl;

    cv::Mat descriptor_train;

    for (int j = ; j < Num_tra; j++)

        descriptor_train.push_back(descriptor_all[j]);

    cv::Mat labels_k;

    cv::kmeans(descriptor_train, Num_clu, labels_k, cv::TermCriteria(CV_TERMCRIT_EPS + CV_TERMCRIT_ITER, , 0.01)

        , , cv::KMEANS_PP_CENTERS, centers);

    const int tk = , Emax = INT_MAX;

    cv::KDTree T(centers, false);

    std::vector<cv::Mat> labels(Num_img);

    for (int i = ; i < Num_img; i++)

    {

        cv::Mat descriptor_img = descriptor_all[i];

        for (int j = ; j < descriptor_img.rows; j++)

        {

            std::vector<float> desc_vec(descriptor_img.row(j));

            std::vector<int> idx_tmp(tk);

            T.findNearest(desc_vec, tk, Emax, idx_tmp, cv::noArray(), cv::noArray());

            labels[i].push_back(idx_tmp[]);

        }

    }

    std::cout << "Compute the TF-IDF." << std::endl;

    cv::Mat BowVec;

    //Compute the TF-IDF for each image;

    IDF = comput_IDF(descriptor_all, labels);

    for (int i = ; i < Num_img; i++)

    {

        std::vector<double> TF = compute_TF(descriptor_all[i], labels[i]);

        cv::Mat BowVec_tmp;

        for (unsigned int j = ; j < IDF.size(); j++)

        {

            BowVec_tmp.push_back(TF[j] * IDF[j]);

            //BowVec_tmp.push_back(TF[j]);

        }

        BowVec_tmp = BowVec_tmp.t();

        cv::normalize(BowVec_tmp, BowVec_tmp);

        BowVec.push_back(BowVec_tmp);

    }

    return BowVec;

}

　　计算测试图片的BoW向量和上面类似。有了训练图像和测试图像的BoW向量就可以根据余弦距离计算相似度了，最后使用堆排序获得最相似的图像ID。

　　而Vocabuliary Tree算法的代码实现和上面的不同点在于码书的训练方式。

二、DBoW2库的使用

　　使用DBoW2库训练码书，并根据bow打分完成图像检索，根据正向索引完成特征匹配，在ORB里面没注意到倒排索引加速图像检索的部分。

　　首先是码书的训练（“盗用”代码：http://www.cnblogs.com/jian-li/p/5666556.html）：

#include <iostream>

#include <vector>

#include "Thirdparty/DBoW2/DBoW2/FORB.h"

#include "Thirdparty/DBoW2/DBoW2/TemplatedVocabulary.h"

// OpenCV

#include <opencv2/opencv.hpp>

#include "opencv2/core/core.hpp"

#include <opencv/cv.h>

#include <opencv/highgui.h>

#include <opencv2/nonfree/features2d.hpp>

// ROS

#include <rosbag/bag.h>

#include <rosbag/view.h>

#include <ros/ros.h>

#include <sensor_msgs/Image.h>

#include <boost/foreach.hpp>

#include <cv_bridge/cv_bridge.h>

#include "ORBextractor.h"

#include <dirent.h>

#include <string.h>

using namespace DBoW2;

using namespace DUtils;

using namespace std;

using namespace ORB_SLAM;

// - - - - - --- - - - -- - - - - -

/// ORB Vocabulary

typedef DBoW2::TemplatedVocabulary<DBoW2::FORB::TDescriptor, DBoW2::FORB>

ORBVocabulary;

// - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

void extractORBFeatures(cv::Mat &image, vector<vector<cv::Mat> > &features, ORBextractor* extractor);

void changeStructureORB( const cv::Mat &descriptor,vector<bool> &mask, vector<cv::Mat> &out);

void isInImage(vector<cv::KeyPoint> &keys, float &cx, float &cy, float &rMin, float &rMax, vector<bool> &mask);

void createVocabularyFile(ORBVocabulary &voc, std::string &fileName, const vector<vector<cv::Mat> > &features);

// ----------------------------------------------------------------------------

int main()

{

    //Extracting ORB features from image folder

    vector<std::string> filenames;

    std::string folder = "/home/saodiseng/FRONTAL/";

    cv::glob(folder, filenames);

    // initialze     ORBextractor

    int nLevels = 5;//6;

    ORBextractor* extractor = new ORBextractor(1000,1.2,nLevels,1,20);

    int nImages = filenames.size();

    vector<vector<cv::Mat > > features;

    features.clear();

    features.reserve(nImages);

    cv::Mat image;

    cout << "> Extracting Features from " << nImages << " images..." << endl;

    for(int i = 0; i < nImages; ++i)

    {

        std::cout << "Processing the " << i <<" image " << std::endl;

        cv::Mat src = cv::imread(filenames[i]);

        imshow("View", src);

        cv::waitKey(1);

        if (!src.empty())

        {

            cv::cvtColor(src, image, CV_RGB2GRAY);

            extractORBFeatures(image, features, extractor);

        }

    }

    cout << "... Extraction done!" << endl;

    // Creating the Vocabulary

    // define vocabulary

    const int k = 10; // branching factor

    const WeightingType weight = TF_IDF;

    const ScoringType score = L1_NORM;

    ORBVocabulary voc(k, nLevels, weight, score);

    std::string vociName = "vociOmni.txt";

    createVocabularyFile(voc, vociName, features);

    cout << "--- THE END ---" << endl;

    return 0;

}

// ----------------------------------------------------------------------------

void extractORBFeatures(cv::Mat &image, vector<vector<cv::Mat> > &features, ORBextractor* extractor) {

    vector<cv::KeyPoint> keypoints;

    cv::Mat descriptorORB;

    (*extractor)(image, cv::Mat(), keypoints, descriptorORB);

    // reject features outside region of interest

    vector<bool> mask;

    float cx = 0; float cy = 0;

    float rMin = 0; float rMax = 0;

    isInImage(keypoints, cx, cy, rMin, rMax, mask);

    // create descriptor vector for the vocabulary

    features.push_back(vector<cv::Mat>());

    changeStructureORB(descriptorORB, mask, features.back());

    imshow("ORBFeature", features.back().back());

}

// ----------------------------------------------------------------------------

void changeStructureORB( const cv::Mat &descriptor,vector<bool> &mask, vector<cv::Mat> &out) {

    for (int i = 0; i < descriptor.rows; i++) {

        if(mask[i]) {

            out.push_back(descriptor.row(i));

        }

    }

}

// ----------------------------------------------------------------------------

void isInImage(vector<cv::KeyPoint> &keys, float &cx, float &cy, float &rMin, float &rMax, vector<bool> &mask) {

    int N = keys.size();

    mask = vector<bool>(N, false);

    int num = 0;

    for(int i=0; i<N; i++) {

        cv::KeyPoint kp = keys[i];

        float u = kp.pt.x;

        float v = kp.pt.y;

        if(u>20 && u<320-20 && v>20 && v<240-20)

        {

            mask[i] = true;

            num ++;

        }

    }

    std::cout << "In image number " << num << std::endl;

}

// ----------------------------------------------------------------------------

void createVocabularyFile(ORBVocabulary &voc, std::string &fileName, const vector<vector<cv::Mat> > &features)

{

    cout << "> Creating vocabulary. May take some time ..." << endl;

    voc.create(features);

    cout << "... done!" << endl;

    cout << "> Vocabulary information: " << endl

        << voc << endl << endl;

    // save the vocabulary to disk

    cout << endl << "> Saving vocabulary..." << endl;

    voc.saveToTextFile(fileName);

    cout << "... saved to file: " << fileName << endl;

}

　　也可以直接使用ORB给定的码书。

　　再下面就是训练BoW向量并计算打分：

void FrameRecog::ComputeBoW()

{

    //数据类型转换；

    vector<cv::Mat>vFrDesc = Converter::toDescriptorVector(Descriptors);

    //BowVec为BoW特征向量，FeatVec为正向索引；

    pORBVocabulary->transform(vFrDesc, BowVec, FeatVec, );

}

float score = pORBVocabulary->score(BowVec, vBowVec[i]);

ComputeBoW()函数计算了当前帧的BowVec向量，以及它的第4层正向索引值FeatVec。下面一句即计算了两个BoW向量的相似性打分。当打分满足某个阈值之后，还需要通过正向索引值进行特征匹配：

int FrameRecog::FeatMatchByBoW( const int idx )

{

    int nmatches = ;

    const int TH_LOW = ;

    const int HISTO_LENGTH = ;

    const int factor = 1.0f/HISTO_LENGTH;

    const DBoW2::FeatureVector &vFeatVecTD = vFeatVec[idx];

    const DBoW2::FeatureVector &vFeatVecCD = FeatVec; 

    DBoW2::FeatureVector::const_iterator TDit = vFeatVecTD.begin();

    DBoW2::FeatureVector::const_iterator CDit = vFeatVecCD.begin();

    DBoW2::FeatureVector::const_iterator TDend= vFeatVecTD.end();

    DBoW2::FeatureVector::const_iterator CDend= vFeatVecCD.end();

    while( TDit != TDend && CDit != CDend )

    {

               //first为单词的索引，second则对应为该单词索引下的ORB特征集合；

        if( TDit->first == CDit->first)

        {

　　　　　　　　//second是要循环的对象

            const vector<unsigned int> vIndicesTD = TDit->second;

            const vector<unsigned int> vIndicesCD = CDit->second;

　　　　　　　　　　　　　　

　　　　　　　　//循环关键帧和当前帧对应单词下的特征集合，计算相似性；

            for ( size_t iTD = ; iTD < vIndicesTD.size(); iTD ++ )

            {

                const unsigned int realIdxTD = vIndicesTD[iTD];

                const cv::Mat &dTD = vDescriptors[idx].row(realIdxTD);

                int bestDist1 = ;

                int bestIdxF  = -;

                int bestDist2 = ;

                for ( size_t iCD = ; iCD < vIndicesCD.size(); iCD ++ )

                {

                    const unsigned int realIdxCD = vIndicesCD[iCD];

                    const cv::Mat &dCD = Descriptors.row(realIdxCD);

                    const int dist = DescriptorDistance(dTD, dCD);

　　　　　　　　　　　　　//这里注意是双阈值；

                    if( dist < bestDist1 )

                    {

                        bestDist2 = bestDist1;

                        bestDist1 = dist;

                        bestIdxF  = realIdxCD;

                    }

                    else if( dist < bestDist2 )

                    {

                        bestDist2 = dist;

                    }

                }

　　　　　　　　　　　//这里有两个输入参数，一个是TH_LOW，是指两个特征的最小距离阈值；

　　　　　　　　　　　//第二个是0.95，它是指相似特征的最小距离小于第二小距离的百分之九十五；

　　　　　　　　　　　//第二个参数的含义是，当该参数越接近于1时，该式越接近于成立，而越小时说明要求越高，

　　　　　　　　　　　//即最小距离远大于第二小距离，所以两特征是相似特征的概率非常大

                if(bestDist1 <= TH_LOW)

                {

                    if( static_cast<float>(bestDist1)<0.95 * static_cast<float>(bestDist2))

                        nmatches ++;

                }

            }

            TDit ++;

            CDit ++;

        }

        else if( TDit->first < CDit->first )

        {

            TDit = vFeatVecTD.lower_bound(CDit->first);

        }

        else

        {

            CDit = vFeatVecCD.lower_bound(TDit->first);

        }

    }

　　　//原函数中还有特征对应的3D地图点的输出，以及根据ORB特征的主方向进一步判断特征是否相似的代码，这里略去；

    return nmatches;

}

int FrameRecog::DescriptorDistance(const cv::Mat &a, const cv::Mat &b)

{

    const int *pa = a.ptr<int32_t>();

    const int *pb = b.ptr<int32_t>();

    int dist = ;

    for ( int i = ; i < ; i ++, pa ++, pb ++ )

    {

        unsigned int v = *pa ^ *pb;

        v = v - ((v>>) & 0x55555555);

        v = (v & 0x33333333) + ((v >> ) & 0x33333333);

        dist += (((v + (v >> )) & 0xF0F0F0F) * 0x1010101) >> ;

    }

    return dist;

}

上面的源文件在ORBmatches.cc中的

int ORBmatcher::SearchByBoW(KeyFrame* pKF,Frame &F, vector<MapPoint*> &vpMapPointMatches) 函数中。即通过正向索引给出特征匹配数或匹配的特征以及对应的3D点。

BoW算法及DBoW2库简介（二）的更多相关文章

BoW算法及DBoW2库简介
由于在ORB-SLAM2中扩展图像识别模块,因此总结一下BoW算法,并对DBoW2库做简单介绍. 1. BoW算法 BoW算法即Bag of Words模型,是图像检索领域最常用的方法,也是基于内容的 ...
DBoW2库介绍
DBoW2库是University of Zaragoza里的Lopez等人开发的开源软件库. 由于在SLAM回环检测上的优异表现(特别是ORB-SLAM2),DBoW2库受到了广大SLAM爱好者的关 ...
Python3.x：第三方库简介
Python3.x:第三方库简介环境管理管理 Python 版本和环境的工具 p – 非常简单的交互式 python 版本管理工具. pyenv – 简单的 Python 版本管理工具. Vex ...
BerkeleyDB库简介
BerkeleyDB库简介 BerkeleyDB(简称为BDB)是一种以key-value为结构的嵌入式数据库引擎: 嵌入式:bdb提供了一系列应用程序接口(API),调用这些接口很简单,应用程序和b ...
LevelDB库简介
LevelDB库简介一.LevelDB入门 LevelDB是Google开源的持久化KV单机数据库,具有很高的随机写,顺序读/写性能,但是随机读的性能很一般,也就是说,LevelDB很适合应用在查询 ...
{Django基础七之Ajax} 一 Ajax简介二 Ajax使用三 Ajax请求设置csrf_token 四关于json 五补充一个SweetAlert插件(了解)
Django基础七之Ajax 本节目录一 Ajax简介二 Ajax使用三 Ajax请求设置csrf_token 四关于json 五补充一个SweetAlert插件(了解) 一 Ajax简介 ...
MXNet深度学习库简介
MXNet深度学习库简介摘要: MXNet是一个深度学习库, 支持C++, Python, R, Scala, Julia, Matlab以及JavaScript等语言; 支持命令和符号编程; 可以 ...
php spl标准库简介（SPL是Standard PHP Library（PHP标准库）（直接看代码实例，特别方便）
php spl标准库简介(SPL是Standard PHP Library(PHP标准库)(直接看代码实例,特别方便) 一.总结直接看代码实例,特别方便易懂 thinkphp控制器利眠宁不支持(说明 ...
python学习--大数据与科学计算第三方库简介
大数据与科学计算库名称简介 pycuda/opencl GPU高性能并发计算 Pandas python实现的类似R语言的数据统计.分析平台.基于NumPy和Matplotlib开发的,主要用于 ...

随机推荐

eCharts二三维地图总结
文章版权由作者李晓晖和博客园共有,若转载请于明显处标明出处:http://www.cnblogs.com/naaoveGIS/ 1.背景最近多个项目中的登录页面陆续提出了不少地图需求,主要围绕地图的 ...
Android Studio的安装及第一次启动时的配置
Android Studio的安装及第一次启动时的配置一.下载Android Studio 百度搜索“Android Studio" 点击中文社区进入,选择最新版本下载. 下载后双击安装包 ...
基于C# 百度AI和科大汛飞语音合成SDK
一.百度语音合成百度语音合成C# SDK主要是基于Rest API,需要互联网调用HTTP接口,Rest API 仅支持最多512个汉字,合成的格式文件为MP3,没有其它的格式.如果想离线使用需下载 ...
解决Maven无法下载fastdfs-client-java依赖
异常信息:Missing artifact org.csource:fastdfs-client-java:jar:1.27-SNAPSHOT 解决方案:jar包在Maven的中央仓库中缺失,需要手动 ...
12c分区增强功能，新功能（文档ID 1568010.1）
12c Partitioning Enhancements, New Features (Doc ID 1568010.1) APPLIES TO: Oracle Database - Enterpr ...
数组类的创建——StaticArray.h
创建好的基于顺序存储结构的线性表存在两个方面的问题:1)功能上的问题:数组操作符的重载带来的问题,有可能线性表被无用为数组了,线性表被当做数组来使用了.2)效率方面的问题本篇博客就要解决功能上的问题 ...
getOutputStream() has already been called for this response 从了解到解决
一.背景说明在tomcat的localhost.log日志中时长见到 getOutputStream() has already been called for this respon ...
cordova+vue混合式开发App
应要求第一次使用cordova打包了一下vue写的app项目,期间遇到了不少问题,整理一下流程并记录一下常见问题吧. cordova打包项目需要的环境配置啥的就不具体讲啦,百度一下很多教 ...
Tyvj 1953 Normal：多项式，点分治
Decription: 某天WJMZBMR学习了一个神奇的算法:树的点分治! 这个算法的核心是这样的: 消耗时间=0 Solve(树 a) 消耗时间 += a 的大小如果 a 中只有 1 个点, ...
高阶函数&&高阶组件(二)
高阶组件总共分为两大类代理方式操纵prop 访问ref(不推荐) 抽取状态包装组件继承方式操纵生命周期操纵prop 代理方式之操纵prop 删除prop import React fro ...

BoW算法及DBoW2库简介（二）

BoW算法及DBoW2库简介（二）的更多相关文章

随机推荐

热门专题