trec 2019 fair ranking track
trec 2019 fair ranking track
最近实验室要求参加trec 2019新出的track:fair ranking track。这里整理一下该任务的思想和要求。这次track主要为学术论文数据的排序。
1 Protocol
会给定一个query集合Q,其中$q\in Q$。对于每个请求,会有一个query q和一个文档集合$D_q$。你需要做的就是根据q来重排序(rerank)$D_q$,重排序结果是$\pi$。最后把每一个请求都处理完返回$\pi$的集合的$\Pi$。过程如下:
Algorithm 1 Evaluation protocol
$\Pi$←{}
for q,$D_q\in Q$ do
$\pi$←SYSTEM(q,$D_q$)
$\Pi$←$\Pi+[\pi]$
end for
return $\Pi$
2 Evaluation
衡量指标主要分为两部分,相关性(revelance)和公平性(fairness)。
所谓相关性就是document和query的相关性,公平性主要为Author Exposure即论文作者的曝光度。
先介绍如何衡量作者的曝光度:
2.1 Measuring Fairness
2.1.1 Measuring Author Exposure for a Single Ranking
先为单个请求的重排序结果$\pi$计算作者的曝光度,某个作者a,在结果$\pi$的曝光度计算如下:
$$e_a^\pi=\sum^n_{i=1}[\gamma^{i-1}\Pi^{i-1}_{j=1}(1-p(s|\pi_j))]I(\pi_i\in D_a)$$
其中$\gamma$是一个给定的常数,$\gamma^{i-1}$用于表示排序后的document从上到下逐渐衰减的重要程度。$p(s|\pi_j)$表示用户看到排序的第j篇文档停下来的概率,该track假设用户停止的概率$p(s|\pi_j)$=$f(r_d)$,$f(r_d)$是用户被满足的概率,$r_d$是document和query的相关程度,f是一个单调函数。这代表着,document与query相关度越高,用户越容易被满足,所以停下来不再阅读。
$I(\pi_i\in D_a)$是指示函数,当第i篇文档属于作者a,该函数值为1,否则为0。$e^\pi_a$是排序$\pi$中作者a的曝光度(exposure)。
那么在所有结果中,作者a的曝光度如下:
$$e_a=\sum_{\pi\in \Pi}e^\pi_a$$
2.1.2 Measuring Author Relevance for a Single Ranking
上一节是衡量对于作者的曝光度,这一节主要考虑作者的相关性。什么叫作者的相关性呢,它是衡量作者论文在排序中的相关性之和,也就是对作者论文重要性的考量。
$$r^\pi_a=\sum_{d\in D_a}p(s|d)$$
$r_a^\pi$是排序$\pi$中作者a所有文章相关性的求和。
2.1.3 Measuring Group Fairness
上面给出了单个作者的exposure和relevance,每个作者都有从属于的group,按group累加作者的fairness以及relevance就能分别得到group的exposure和relevance。
$$\epsilon_g=\frac{\sum_{a\in A_g}e_a}{\sum_{g'\in G}\sum_{a\in A_{g'}}e_a}$$
$$R_g=\frac{\sum_{a\in A_g}r_a}{\sum_{g'\in G}\sum_{a\in A_{g'}}r_a}$$
所谓公平,就是让不同group的$\epsilon_g$和$R_g$差距尽可能一致。
$$\Delta_g=|\epsilon_g-R_g|$$
最后对所有group求一个Gini coefficient
$\Delta=\frac{\sum_{g,g'\in G}|\Delta_g-\Delta_{g'}|}{2|G|\sum_{g\in G}\Delta_g}$
2.2 Measuring Relevance
前面按group计算了exposure,这一节给出相关性$u_a^\pi$的计算。和$e_a^\pi$的公式几乎一样,就是把指示函数换成$p(s|\pi_i)$。
$$u_a^\pi=\sum^n_{i=1}[\gamma^{i-1}\Pi^{i-1}_{j=1}(1-p(s|\pi_j))]p(s|\pi_i)$$
$$U=\frac{1}{\Pi}\sum_{\pi\in \Pi}u^\pi$$
2.3 Trading Off Fairness and Relevance
按作者给的文档原话说,理论上fairness和relevance能够达到最优,但是实际操作上,可能往往提高fairness会降低relevance。所以最终要按一定比例寻求一个平衡。
trec 2019 fair ranking track的更多相关文章
- China International Industry Fair 2019
Today i visit the CIIF 2019, as a "professional visitor" since i have made an appointment ...
- 2019.02.14 codechef Chef at the Food Fair(线段树+泰勒展开)
传送门 题意:现在有nnn个位置,每个位置上有一个值aia_iai. 要求支持如下两种操作: 区间乘vvv 求区间的(1−ai)(1-a_i)(1−ai)之积 思路: 考虑转换式子: Ans=∏i ...
- COSC2309/2347 Semester 1, 2019
Mobile Application DevelopmentCOSC2309/2347 Semester 1, 2019Movie Night PlannerAssignment 1 (20 mark ...
- Fair Scheduler中的Delay Schedule分析
延迟调度的主要目的是提高数据本地性(data locality),减少数据在网络中的传输.对于那些输入数据不在本地的MapTask,调度器将会延迟调度他们,而把slot分配给那些具备本地性的MapTa ...
- Making every developer more productive with Visual Studio 2019
Today, in the Microsoft Connect(); 2018 keynote, Scott Guthrie announced the availability of Visual ...
- Ultimate Facebook Messenger for Business Guide (Feb 2019)
Ultimate Facebook Messenger for Business Guide (Updated: Feb 2019) By Iaroslav Kudritskiy November 2 ...
- CSc 352 (Spring 2019): Assignment
CSc 352 (Spring 2019): Assignment 11Due Date: 11:59PM Wed, May 1The purpose of this assignment is to ...
- 2019 AI CITY CHALLENGE
官网: https://www.aicitychallenge.org/ 基于来自交通,信号系统,基础设施和运输的传感器数据,存在使运输系统更智能的巨大机会.不幸的是,由于几个原因,进展受到限制 ...
- 12 Best Live Chat Software for Small Business Compared (2019) 最佳的wordpress在线聊天工具推荐插件 来帮你和潜在客户互动
12 Best Live Chat Software for Small Business Compared (2019) Did you know that more than 67% of ...
随机推荐
- spring boot admin抛出"status":401,"error":"Unauthorized"异常
打开spring boot admin的监控平台发现其监控的服务明细打开均抛出异常: Error: {"timestamp":1502749349892,"status& ...
- 摄像头驱动的使能配置、V4L2编程接口的设计应用
摄像头采集子系统 一.摄像头驱动的使能配置 摄像头软件驱动构架 摄像头采集系统由上图所示,硬件(摄像头) -> 驱动(Linux内核配置中,选择支持V4L2的驱动选项) -> V4L2接口 ...
- 一个测试文件与源文件位于不同模块时Jacoco覆盖率配置的例子
问题描述: 我们有个多模块项目,由于种种原因(更常见的可能是需要集成测试)测试文件和源文件不在一个模块,Jacoco的覆盖率无法正确显示,查询了一些资料,发现中文的例子比较少,就把我自己的Demo贴一 ...
- 自定义View之开关
资源文件 首先我们需要有两个图片文件,分别是开关的背景和开关的滑块 自定义View 1.写一个类继承View 2.copy该类的全路径名在布局文件使用, 3.找到这个控件,设置初始信息 4.根据需求绘 ...
- 给hexo添加宠物
开始 之前在博客园上看到,公告栏里有人竟然在养鱼,觉得很好玩!一直念念不忘的,于是就想着在hexo中也来养几只,因为我用的事Next的Muse主题,所以有一个非常合适的侧边栏,先来看看效果. 点击此处 ...
- 月薪12k的零基础自学前端必备手册
随着互联网的深入发展,前端开发工程师一跃成为市场上非常抢手的人才.很多同学,包括以前做UI的.Java的.或者对于IT完全零基础的同学都想学习前端.下图是网上流传甚广的一张前端学习思维导图,很多初学者 ...
- Java编程基础阶段笔记 day01 Java语言概述
目录内容 DOS命令 电脑配置 Java语言的特性 Java两种核心机制 Java语言环境搭建 第一个Java程序 注释 Java语句说明 编程风格 作业 常用的DOS命令 dir : 列出当 ...
- Java生鲜电商平台-统一异常处理及架构实战
Java生鲜电商平台-统一异常处理及架构实战 补充说明:本文讲得比较细,所以篇幅较长. 请认真读完,希望读完后能对统一异常处理有一个清晰的认识. 背景 软件开发过程中,不可避免的是需要处理各种异常,就 ...
- Gordon家族(一)
引子 Go语言的吉祥物是一只囊地鼠(gopher),由插画师Renee French设计,名叫Gordon,长得这个样子: 在Go官网上(https://golang.google.cn/)的Gord ...
- <java程序大集合>
1.以下关于开发java程序的描述错误的是(). A.开发java程序的步骤包括:编写源程序,编译,运行 B.编写的java源程序文件使用.java作为扩展名 C:java源文件经编译后,生成后娺为. ...