【模式识别】Learning To Rank之RankBoost

RankBoost的思想比較简单，是二元Learning to rank的常规思路：通过构造目标分类器，使得pair之间的对象存在相对大小关系。通俗点说，把对象组成一对对的pair，比方一组排序r1>r2>r3>r4，那能够构成pair：(r1,r2)(r1,r3),(r1,r4),(r2,r3)(r3,r4),这种pair是正值，也就是label是1。而余下的pair如(r2,r1)的值应该是-1或0。这样一个排序问题就被巧妙的转换为了分类问题。近来CV界许多又用这种learning to rank的思想做识别问题（最早应该是这篇《Person Re-Identification by Support Vector Ranking》），也就是把识别转换为排序问题再转换为分类问题。

Pairwise的排序方法主要用RankSVM和RankBoost，这里主要说RankBoost，总体还是一个Boost的框架：

注意其与常规Boost的不同组要是Update的时候。当然数据分布也不同。这里能够看出对于终于的排序值。也就是ranking score。其值是没有实际意义的，相对的顺序才有意义。比方r1和r2终于得分是10分和1分。与r1,r2终于得分是100分和1分的信息量区别并不大，我们能得到的结论都是r1应该排在r2前面。

因为和传统的Boost目标不一样。求解也须要很巧妙的方法，主要在于定义分类器的Loss函数：

详细的，因为以及我们能够得到分布D的损失：

于是，目标就变成了最小化

至此，传统的Boost线性搜索策略已经能够求解，但还有更巧妙的办法。因为函数：

于是，对于所以[-1 1]范围内的x。Z能够近似为：

当中。这样直接能够Z最小时。此时。于是被转换为最大化|r|的问题。

下面是一段RankBoost的代码：

function [ rbf ] = RankBoost( X,Y,D,T )

%RankBoost implemetation of RankBoost algoritm

%   Input:

%       X - train set.

%       Y - train labels.

%       D - distribution function over X times X, it the form of 2D matrix.

%       T - number of iteration of the boosting.

%   Output:

%       rbf - Ranking Function.

rbf = RankBoostFunc(T);

% w - the current distribution in any iteration, initilize to D

w = D;

for t=1:T

    tic;

    fprintf('RankBoost: creating the function, iteration %d out of %d\n',t,T);

    WL = getBestWeakLearner(X,Y,w);

    rbf.addWeakLearner(WL,t);

    rbf.addAlpha(WL.alpha,t);

    alpha=WL.alpha;

    %update the distribution

    %eval the weak learnler on the set of X and Y

    h=WL.eval(X);

    [hlen, ~] = size(h);

    tmph = (repmat(h,1,hlen) - repmat(h',hlen,1));

    w=w.*exp(tmph.*alpha);

    %normalize w

    w = w./sum(w(:));

    toc;

end

end

一个比較明显的问题是RankBoost须要维持一个很大的|X|*|X|的矩阵。程序执行十分占内存，常常抛出“Out of memory”的错误。

所以诸如

tmph = (repmat(h,1,hlen) - repmat(h',hlen,1));

之类的操作不如换成例如以下方式：

   % tmph = (repmat(h,1,hlen) - repmat(h',hlen,1));

    %w=w.*exp(tmph.*alpha);

    [rows, cols] = size(w);

    sumw = 0;

    for r=1:rows

        for c=1:cols

            w(r,c) = w(r,c)*exp((h(r)-h(c))*alpha);

            sumw = sumw + w(r,c);

        end

    end

    %normalize w

    %w = w./sum(w(:));

    w = w./sumw;

（转载请注明作者和出处：http://blog.csdn.net/xiaowei_cqu 未经同意请勿用于商业用途）

【模式识别】Learning To Rank之RankBoost的更多相关文章

Learning to rank 介绍
PS:文章主要转载自CSDN大神hguisu的文章"机器学习排序": http://blog.csdn.net/hguisu/article/details/79 ...
[Machine Learning] Learning to rank算法简介
声明:以下内容根据潘的博客和crackcell's dustbin进行整理,尊重原著,向两位作者致谢! 1 现有的排序模型排序(Ranking)一直是信息检索的核心研究问题,有大量的成熟的方法,主要 ...
learning to rank
Learning to Rank入门小结 + 漫谈 Learning to Rank入门小结 Table of Contents 1 前言 2 LTR流程 3 训练数据的获取4 特征抽取 3.1 人工 ...
Learning to Rank 简介
转自:http://www.cnblogs.com/kemaswill/archive/2013/06/01/3109497.html,感谢分享! 本文将对L2R做一个比较深入的介绍,主要参考了刘铁岩 ...
Learning to Rank简介
Learning to Rank是采用机器学习算法,通过训练模型来解决排序问题,在Information Retrieval,Natural Language Processing,Data Mini ...
芝麻HTTP： Learning to Rank概述
Learning to Rank,即排序学习,简称为 L2R,它是构建排序模型的机器学习方法,在信息检索.自然语言处理.数据挖掘等场景中具有重要的作用.其达到的效果是:给定一组文档,对任意查询请求给出 ...
Learning to Rank(转)
https://blog.csdn.net/kunlong0909/article/details/16805889 Table of Contents 1 前言 2 LTR流程 3 训练数据的获取4 ...
Learning to rank的讲解，单文档方法（Pointwise），文档对方法（Pairwise），文档列表方法（Listwise）
学习排序(Learning to Rank) LTR(Learning torank)学习排序是一种监督学习(SupervisedLearning)的排序方法.LTR已经被广泛应用到文本挖掘的很多领域 ...
Learning to Rank：Point-wise、Pair-wise 和 List-wise区别
机器学习的 ranking 技术——learning2rank,包括 pointwise.pairwise.listwise 三大类型. [Ref-1]给出的: <Point wise rank ...

随机推荐

[转] C#实现自动化Log日志
qing2005原文地址 C#实现自动化Log日志在开发项目的时候,我们不免要使用Log记录日志,使用最多的是Log4Net和EntLib Log,在需要记录日志的代码处加入log.Write(日志 ...
怎样在 Ubuntu 中修改默认程序
导读作为一个新手,你需要知道如何在 Ubuntu 中修改任何默认程序,这也是我今天在这篇指南中所要讲的. 对于我来说,安装 VLC 多媒体播放器是安装完 Ubuntu 16.04 该做的事中最先做的 ...
（转载）数组a[]={3,5,2,4,1,8}，要求从a中找出所有“和”等于10的子集
背包问题. 不过就这道题目本身而言,由于集合a中只要6个元素,而不是成千上万,所以可以使用更直观的办法: 只要你能通过程序给出数组a中元素所组成的集合的所有的子集合(幂集),那么只需在 ...
CCCallFuncN误用导致引用计数循环引用
昨天测试“角色被遮挡部分透明显示”功能时,发现角色死亡后,其轮廓精灵不会消失.调试发现,角色在死亡时,其引用计数retain_count居然是9.这是由引用计数混乱引起的内存泄露. 加了很多日志跟踪r ...
python中struct模块及packet和unpacket
转自:http://www.cnblogs.com/gala/archive/2011/09/22/2184801.html 我们知道python只定义了6种数据类型,字符串,整数,浮点数,列表,元组 ...
trie树 Codeforces Round #367 D Vasiliy's Multiset
// trie树 Codeforces Round #367 D Vasiliy's Multiset // 题意:给一个集合,初始有0,+表示添加元素,-去除元素,?询问集合里面与x异或最大的值 / ...
CentOS6 搭建git
rpm -qa | grep zlib-devel 查看是否安装过 ----------------------------------------------------------------- ...
基于Maven管理的Mapreduce程序下载依赖包到LIB目录
1.Mapreduce程序需要打包作为作业提交到Hadoop集群环境运行,但是程序中有相关的依赖包,如果没有一起打包,会出现xxxxClass Not Found . 2.在pom.xml文件< ...
MySQL 大表优化方案探讨
当MySQL单表记录数过大时,增删改查性能都会急剧下降,可以参考以下步骤来优化: 单表优化除非单表数据未来会一直不断上涨,否则不要一开始就考虑拆分,拆分会带来逻辑.部署.运维的各种复杂度,一般以整型 ...
Spark生态之Spark Core

【模式识别】Learning To Rank之RankBoost

（转载请注明作者和出处：http://blog.csdn.net/xiaowei_cqu 未经同意请勿用于商业用途）

【模式识别】Learning To Rank之RankBoost的更多相关文章

随机推荐

热门专题