trec 2019 fair ranking track


    最近实验室要求参加trec 2019新出的track:fair ranking track。这里整理一下该任务的思想和要求。这次track主要为学术论文数据的排序。

1 Protocol

    会给定一个query集合Q,其中$q\in Q$。对于每个请求,会有一个query q和一个文档集合$D_q$。你需要做的就是根据q来重排序(rerank)$D_q$,重排序结果是$\pi$。最后把每一个请求都处理完返回$\pi$的集合的$\Pi$。过程如下:

Algorithm 1 Evaluation protocol


$\Pi$←{}
for q,$D_q\in Q$ do
$\pi$←SYSTEM(q,$D_q$)
$\Pi$←$\Pi+[\pi]$
end for
return $\Pi$


2 Evaluation

    衡量指标主要分为两部分,相关性(revelance)和公平性(fairness)。
    所谓相关性就是document和query的相关性,公平性主要为Author Exposure即论文作者的曝光度。
    先介绍如何衡量作者的曝光度:

2.1 Measuring Fairness

2.1.1 Measuring Author Exposure for a Single Ranking

    先为单个请求的重排序结果$\pi$计算作者的曝光度,某个作者a,在结果$\pi$的曝光度计算如下:

$$e_a^\pi=\sum^n_{i=1}[\gamma^{i-1}\Pi^{i-1}_{j=1}(1-p(s|\pi_j))]I(\pi_i\in D_a)$$

    其中$\gamma$是一个给定的常数,$\gamma^{i-1}$用于表示排序后的document从上到下逐渐衰减的重要程度。$p(s|\pi_j)$表示用户看到排序的第j篇文档停下来的概率,该track假设用户停止的概率$p(s|\pi_j)$=$f(r_d)$,$f(r_d)$是用户被满足的概率,$r_d$是document和query的相关程度,f是一个单调函数。这代表着,document与query相关度越高,用户越容易被满足,所以停下来不再阅读。
    $I(\pi_i\in D_a)$是指示函数,当第i篇文档属于作者a,该函数值为1,否则为0。$e^\pi_a$是排序$\pi$中作者a的曝光度(exposure)。
    那么在所有结果中,作者a的曝光度如下:

$$e_a=\sum_{\pi\in \Pi}e^\pi_a$$

2.1.2 Measuring Author Relevance for a Single Ranking

    上一节是衡量对于作者的曝光度,这一节主要考虑作者的相关性。什么叫作者的相关性呢,它是衡量作者论文在排序中的相关性之和,也就是对作者论文重要性的考量。

$$r^\pi_a=\sum_{d\in D_a}p(s|d)$$

    $r_a^\pi$是排序$\pi$中作者a所有文章相关性的求和。

2.1.3 Measuring Group Fairness

    上面给出了单个作者的exposure和relevance,每个作者都有从属于的group,按group累加作者的fairness以及relevance就能分别得到group的exposure和relevance。

$$\epsilon_g=\frac{\sum_{a\in A_g}e_a}{\sum_{g'\in G}\sum_{a\in A_{g'}}e_a}$$

$$R_g=\frac{\sum_{a\in A_g}r_a}{\sum_{g'\in G}\sum_{a\in A_{g'}}r_a}$$

    所谓公平,就是让不同group的$\epsilon_g$和$R_g$差距尽可能一致。

$$\Delta_g=|\epsilon_g-R_g|$$

   最后对所有group求一个Gini coefficient

$\Delta=\frac{\sum_{g,g'\in G}|\Delta_g-\Delta_{g'}|}{2|G|\sum_{g\in G}\Delta_g}$

2.2 Measuring Relevance

  前面按group计算了exposure,这一节给出相关性$u_a^\pi$的计算。和$e_a^\pi$的公式几乎一样,就是把指示函数换成$p(s|\pi_i)$。

$$u_a^\pi=\sum^n_{i=1}[\gamma^{i-1}\Pi^{i-1}_{j=1}(1-p(s|\pi_j))]p(s|\pi_i)$$

$$U=\frac{1}{\Pi}\sum_{\pi\in \Pi}u^\pi$$

2.3 Trading Off Fairness and Relevance

    按作者给的文档原话说,理论上fairness和relevance能够达到最优,但是实际操作上,可能往往提高fairness会降低relevance。所以最终要按一定比例寻求一个平衡。

trec 2019 fair ranking track的更多相关文章

  1. China International Industry Fair 2019

    Today i visit the CIIF 2019, as a "professional visitor"  since i have made an appointment ...

  2. 2019.02.14 codechef Chef at the Food Fair(线段树+泰勒展开)

    传送门 题意:现在有nnn个位置,每个位置上有一个值aia_iai​. 要求支持如下两种操作: 区间乘vvv 求区间的(1−ai)(1-a_i)(1−ai​)之积 思路: 考虑转换式子: Ans=∏i ...

  3. COSC2309/2347 Semester 1, 2019

    Mobile Application DevelopmentCOSC2309/2347 Semester 1, 2019Movie Night PlannerAssignment 1 (20 mark ...

  4. Fair Scheduler中的Delay Schedule分析

    延迟调度的主要目的是提高数据本地性(data locality),减少数据在网络中的传输.对于那些输入数据不在本地的MapTask,调度器将会延迟调度他们,而把slot分配给那些具备本地性的MapTa ...

  5. Making every developer more productive with Visual Studio 2019

    Today, in the Microsoft Connect(); 2018 keynote, Scott Guthrie announced the availability of Visual ...

  6. Ultimate Facebook Messenger for Business Guide (Feb 2019)

    Ultimate Facebook Messenger for Business Guide (Updated: Feb 2019) By Iaroslav Kudritskiy November 2 ...

  7. CSc 352 (Spring 2019): Assignment

    CSc 352 (Spring 2019): Assignment 11Due Date: 11:59PM Wed, May 1The purpose of this assignment is to ...

  8. 2019 AI CITY CHALLENGE

    官网:    https://www.aicitychallenge.org/ 基于来自交通,信号系统,基础设施和运输的传感器数据,存在使运输系统更智能的巨大机会.不幸的是,由于几个原因,进展受到限制 ...

  9. 12 Best Live Chat Software for Small Business Compared (2019) 最佳的wordpress在线聊天工具推荐插件 来帮你和潜在客户互动

    12 Best Live Chat Software for Small Business Compared (2019)     Did you know that more than 67% of ...

随机推荐

  1. Unix及Linux编辑器vi/vim基本使用方法

  2. Java 新特性总结——简单实用

    lambda表达式 简介 lambda 表达式的语法 变量作用域 函数式接口 内置函数式接口 默认方法 Stream(流) 创建 stream Filter(过滤) Sorted(排序) Map(映射 ...

  3. mvc区分页面内请求判断是否是Html.action或Html.RenderAction请求

    ControllerContext.IsChildAction 来判断,如果用Html.Action或Html.RenderAction方法,这个属性返回true,否则返回false

  4. SpringBoot之SpringApplication Explain

    SpringApplication Explain The SpringApplication class provides a convenient way to bootstrap a Sprin ...

  5. 个人永久性免费-Excel催化剂功能第92波-地理地址与经纬度互转功能

    GPS设备和手机LBS的兴起,在地理信息存储过程中,在程序.应用级别是需要用经纬度去定位,而在数据分析的级别,特别是省市区镇街的分析,用到的是人可识别的文本类型存储,从设备中采集下来的数据和人工维护的 ...

  6. Excel催化剂开源第20波-条件格式版聚光灯功能,行列标示方便阅读

    Excel聚光灯功能,辅助数据查看,选择区域下的高亮显示所在行列位置,此功能已被广大Excel开发者研究得十分透彻,各种版本的聚光灯流转在网络里,同样地也是一大堆的VBA代码,难找.Net的现成代码, ...

  7. google、谷歌浏览截图

    对于前端好用的浏览器---谷歌浏览器(没有插件)截取全屏很难受! 特备是前端,想截图下来,好好的量一下容器之前的尺寸(手动恼火) 对于程序员来说不一定需要插件,有很多大佬应该都知道, 小白记忆不好,每 ...

  8. python:函数可以返回值--编写脚本计算24 + 34 / 100 - 1023

    1.脚本 def add(a,b):    return (a+b)def div(a,b,c):    return (a/b-c)x = div(34,100,1023)y = add(24,x) ...

  9. supervisor指南

    1 安装 yum install -y supervisor 如果提示没有这个安装包,则需要添加epel源 wget -O /etc/yum.repos.d/epel.repo http://mirr ...

  10. 搭建PowerDNS+LAP+NFS+MySQL主从半节点同步实现LAMP架构

    实验环境:(共7台机器) PowerDNS: 192.168.99.110    两台LAP: 192.168.99.120 和 192.168.99.130 NFS服务器:192.168.99.14 ...