文章链接 https://www.kdd.org/kdd2016/papers/files/adf0361-yinA.pdf abstract 点击特征在长尾query上的稀疏性问题 基础相关性三大技术:排序函数,语义匹配特征,query改写 introduction 问题: 1)直接文本匹配的问题:query和doc的语义差异,query中的‘how much’如何匹配doc中的‘price’: 2)大量的长尾query使得点击模型失效: 3)用户视搜索引擎为智能问答系统,希望一键找到答案.…
7. RECENCY-SENSITIVE RANKING 作用: 为recency-sensitive的query提高排序质量: 对于这类query,用户不仅要相关的还需要最新的信息: 方法:recency-demoted relevance 1) 对每篇doc,按照它的freshness程度进行分级:very fresh, fresh, slightly out-dated, stale, 和 non-time-sensitive(与时间无关): 2) 在base relevance的基础上,…
ABSTRACT: 此文在相关性方面介绍三项关键技术:ranking functions, semantic matching features, query rewriting: 此文内容基于拥有百亿url索引的yahoo搜素引擎: Keywords: learning to rank; query rewriting; semantic matching; deep learning; 1. INTRODUCTION 1)搜索相关性的发展: 早期 - concentrated on text…
5. QUERY REWRITING 作用: query rewriting is the task of altering a given query so that it will get better results and, more importantly, to help solve the recall problem. can treat it as a machine translation problem: language of user queries(S) <=> l…
3. MACHINE LEARNED RANKING 1) 完全使用不好的数据去训练模型不可行,因为负面结果不可能覆盖到所有方面: 2) 搜索可以看做是个二分问题,在此实验中,我们使用gradient boosting trees(GBDT) with logistic loss,该方法可以用来减少首页出现的bad urls - 该方法首先确定urls与给定query相关与否的分界线(logistic loss): 而后在模型中加入Perfect.Excellent.Good的信息去区分urls…
想着CSDN还是不适合做论文类的笔记,那里就当做技术/系统笔记区,博客园就专心搞看论文的笔记和一些想法好了,[]以后中框号中间的都算作是自己的内心OS 有时候可能是问题,有时候可能是自问自答,毕竟是笔记嘛 心路历程记录:然后可能有很多时候都是中英文夹杂,是因为我觉得有些方法并没有很好地中文翻译的意思(比如configuration space),再加上英文能更好的搜索.希望大家能接受这种夹杂写法,或者接受不了的话直接关掉这个看原文 前言:这是一篇02年的关于Motion Planning - P…
论文阅读笔记 Improved Word Representation Learning with Sememes 一句话概括本文工作 使用词汇资源--知网--来提升词嵌入的表征能力,并提出了三种基于知网资源的词嵌入学习模型,在通用的中文词嵌入评测数据集上进行了评测,取得了较好的结果. 作者简介 该论文选自 ACL 2017,是清华大学孙茂松刘知远老师组的成果.论文的两名共同第一作者分别是牛艺霖和谢若冰. 牛艺霖,清华本科生. 谢若冰,清华研究生(2014-2017),清华本科生(2010-20…
文章来源:https://blog.csdn.net/u013058162/article/details/80470426 3D Deep Leaky Noisy-or Network 论文阅读 原文:Evaluate the Malignancy of Pulmonary Nodules Using the 3D Deep Leaky Noisy-or Network 博文参考:Doublle Tree的博客中Evaluate the Malignancy of Pulmonary Nodu…
Event StoryLine Corpus 论文阅读 本文是对 Caselli T, Vossen P. The event storyline corpus: A new benchmark for causal and temporal relation extraction[C]//Proceedings of the Events and Stories in the News Workshop. 2017: 77-86. 阅读的总结.有任何问题请邮件联系 arrogant262@gm…
[论文阅读]阿里DIN深度兴趣网络之总体解读 目录 [论文阅读]阿里DIN深度兴趣网络之总体解读 0x00 摘要 0x01 论文概要 1.1 概括 1.2 文章信息 1.3 核心观点 1.4 名词解释 0x02 解读思路 2.1 Memorization 和 Generalization 2.1.1 Memorization 2.1.2 Generalization 2.2 发展脉络 0x03 DNN 3.1 深度模型思路 3.2 DNN模型 3.3 工作机制 3.4 模型特点 0x04 DIN…
[论文阅读]阿里DIEN深度兴趣进化网络之总体解读 目录 [论文阅读]阿里DIEN深度兴趣进化网络之总体解读 0x00 摘要 0x01论文概要 1.1 文章信息 1.2 基本观点 1.2.1 DIN的问题 1.2.2 DIEN创新 1.3 名词解释 0x02 总体概要 2.1 模型架构 0x03 兴趣抽取层 3.1 之前工作 3.2 GRU 3.3 辅助损失 3.3.1 辅助损失 3.3.2 全局损失 3.3.3 辅助损失作用 3.4 总结 0x04 兴趣进化层 4.1 演化规律 4.2 AUG…
[论文阅读笔记] node2vec:Scalable Feature Learning for Networks 本文结构 解决问题 主要贡献 算法原理 参考文献 (1) 解决问题 由于DeepWalk的随机游走是完全无指导的随机采样,即随机游走不可控.本文从该问题出发,设计了一种有偏向的随机游走策略,使得随机游走可以在DFS和BFS两种极端搜索方式中取得平衡. (2) 主要贡献 Contribution: 本篇论文主要的创新点在于改进了随机游走的策略,定义了两个参数p和q,使得随机游走在BFS…
[论文阅读笔记] LouvainNE: Hierarchical Louvain Method for High Quality and Scalable Network Embedding 本文结构 解决问题 主要贡献 算法原理 参考文献 (1) 解决问题 本篇论文是针对现有表征算法计算开销比较大,不能够很好应用到大规模网络上的问题. (2) 主要贡献 Contribution: 提出一种快速且可扩展网络表征框架,LouvainNE,能够为包含数百亿边的网络生成高质量的表征向量. (3) 算法…
[论文阅读笔记] Structural Deep Network Embedding 本文结构 解决问题 主要贡献 算法原理 参考文献 (1) 解决问题 现有的表示学习方法大多采用浅层模型,这可能不能捕获具有高度非线性的网络结构,导致学习到一个局部最优的节点向量表示. (2) 主要贡献 Contribution: 提出一个半监督的深度模型SDNE,包含多个非线性层,同时优化一阶和二阶相似度的目标函数来保留原始网络的局部和全局网络结构,因此可能能够捕获高度非线性的网络结构. (3) 算法原理 简单…
[论文阅读笔记] Unsupervised Attributed Network Embedding via Cross Fusion 本文结构 解决问题 主要贡献 算法原理 实验结果 参考文献 (1) 解决问题 现在常常用来处理属性网络表征的方式有两种:(1)在网络结构上传播属性(2)通过自编码器架构. 这两种常用的属性网络表征方法有各自的局限性和优点:(1)基于传播的方法依赖于网络中现有的边来传播信息,因此往往偏向于建模网络结构信息而非节点属性信息,从而更加擅长于处理结构信息(可以通过多层叠…
1.难点-如何实现高效的通信 我们考虑下列的多任务优化问题: \[ \underset{\textbf{W}}{\min} \sum_{t=1}^{T} [\frac{1}{m_t}\sum_{i=1}^{m_t}L(y_{ti}, \langle \bm{w}_t, \bm{x}_{ti} \rangle)]+\lambda \text{pen}(\textbf{W}) \tag{1} \] 这里\(\text{pen}(\mathbf{W})\)是一个用于增强group sparse的正则项…
白翔的CRNN论文阅读 1.  论文题目 Xiang Bai--[PAMI2017]An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition 2.  论文思路和方法 1)  问题范围: 单词识别 2)  CNN层:使用标准CNN提取图像特征,利用Map-to-Sequence表示成特征向量: 3)  RNN层:使…
前两天,我和大家谈了如何阅读教材和备战数模比赛应该积累的内容,本文进入到数学建模七日谈第三天:怎样进行论文阅读. 大家也许看过大量的数学模型的书籍,学过很多相关的课程,但是若没有真刀真枪地看过论文,进行过模拟比赛,恐怕还是会捉襟见肘,不能够游刃有余地应对真正比赛中可能会遇到的一些困难.笔者就自己的经验稍稍给大家谈谈,在看了很多数学模型的书籍之后,如何通过论文阅读,将我们的水平上升一个新的台阶,达到一个质的飞跃! 首先,大家要搞清楚教材和论文的区别.教材的主要目的是介绍方法,前人总结出来的最经典的…
作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/ 更多论文阅读笔记 http://blog.csdn.net/colorant/article/details/8256145 == 目标问题 == 下一代的Hadoop框架,支持10,000+节点规模的Hadoop集群,支持更灵活的编程模型 == 核心思想 == 固定的编程模型,单点的资源调度和任务管理方式,使得Hadoop 1…
作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/ 更多论文阅读笔记 http://blog.csdn.net/colorant/article/details/8256145 == 目标问题 == 为了提高资源的利用率以及满足不同应用的需求,在同一集群内会部署各种不同的分布式运算框架(cluster computing framework),他们有着各自的调度逻辑. Mesos…
NIPS 2016论文:英特尔中国研究院在神经网络压缩算法上的最新成果 http://www.leiphone.com/news/201609/OzDFhW8CX4YWt369.html 英特尔中国研究院深度学习领域最新成果——“动态外科手术”算法 2016-09-05 11:33 转载 粉红熊熊 0条评论 雷锋网按:本文为英特尔中国研究院最新研究成果,主要介绍了一个名为“动态外科手术”算法,有效地解决了处理大型网络时重训练时间长,误剪枝率高的问题.利用该算法,我们可以轻易地将LeNet和Ale…
Ranking Relevance是搜索排序算法的各个影响因子中相当重要的一个部分.对于Ranking Relevance的计算,过去的技术往往分为两个大的方向:Click Behavior和Text Match. 1. Click Behavior类的feature 主要是利用用户的点击行为来计算query-doc relevance,直观上,点击越多的query-doc pair,relevance也越高,当然Click Behavior类的feature还包括:是否是首次点击,是否是最后一…
本文来自李纪为博士的论文 Deep Reinforcement Learning for Dialogue Generation. 1,概述 当前在闲聊机器人中的主要技术框架都是seq2seq模型.但传统的seq2seq存在很多问题.本文就提出了两个问题: 1)传统的seq2seq模型倾向于生成安全,普适的回答,例如“I don’t know what you are talking about”.为了解决这个问题,作者在更早的一篇文章中提出了用互信息作为模型的目标函数.具体见A Diversi…
论文阅读笔记 Word Embeddings A Survey 收获 Word Embedding 的定义 dense, distributed, fixed-length word vectors, built using word co-occurrence statistics as per the distributional hypothesis. 分布式假说(distributional hypothesis) word with similar contexts have the…
今天来看一看一个比较经典的语义分割网络,那就是FCN,全称如题,原英文论文网址:https://people.eecs.berkeley.edu/~jonlong/long_shelhamer_fcn.pdf 三位大佬:Jonathan Long Evan Shelhamer Trevor Darrell 这个网址是网上一个大佬记录的FCN的博客,同时深深感受到了自己与大佬的差距,但还是硬着头皮把论文阅读完成,贴出网址,和大家一起学习:https://blog.csdn.net/happyer8…
论文阅读:Prominent Object Detection and Recognition: A Saliency-based Pipeline  如上图所示,本文旨在解决一个问题:给定一张图像,我们最应该关注哪些区域?怎么将其分割出来?这是一个什么东东?这三个子问题为一体. Problem formulation: Given an image, determine the most influential item in the scene in terms of region of i…
Learning to Track at 100 FPS with Deep Regression Networks   ECCV 2016  论文笔记 工程网页:http://davheld.github.io/GOTURN/GOTURN.html GitHub 地址:https://github.com/davheld/GOTURN 本文第一次利用 Deep Learning 技术将跟踪的速度维持在 100fps,当然是使用 GPU 的前提下.本文的流程框架如下所示: 将跟踪看做是回归问题,…
这是一个导读,可以快速找到我记录的关于人工智能(深度学习)加速芯片论文阅读笔记. ISSCC 2017 Session14 Deep Learning Processors: ISSCC 2017关于Deep Learning Processors的Slides笔记,主要参考了[1]中的笔记,自己根据paper和slides读一遍,这里记一下笔记,方便以后查阅. 14.1 A 2.9TOPS/W Deep Convolutional Neural Network SoC in FD-SOI 28…
论文阅读——FCOS: Fully Convolutional One-Stage Object Detection 概述 目前anchor-free大热,从DenseBoxes到CornerNet.ExtremeNet,以及最近的FSAF.FoveaBox,避免了复杂的超参数设计,而且具有很好的检测效果.本文作者提出了一种全卷积的单阶段目标检测算法,类似于语义分割的做法使用像素级预测.该检测框架简单有效,而且可以方便地用于其他任务. 简介 再啰嗦一下基于anchor的检测算法的缺陷: 1.检测…
论文阅读——FoveaBox: Beyond Anchor-based Object Detector 概述 这是一篇ArXiv 2019的文章,作者提出了一种新的anchor-free的目标检测框架FoveaBox,直接学习目标存在的可能性(预测类别敏感的语义map)和bbox的坐标(为可能存在目标的每个位置生成无类别的bbox).该算法的单模型(基于ResNeXt-101-FPN )在COCO数据集上的AP达到42.1%.代码尚未开源. 介绍 anchor弊端:额外的超参数设计很复杂:设计的…