最近看了一篇比较好的文章,效果很好,简单记录一下. 这篇文章的核心思想是,融合两种不同类型的特征.文章中用的是SIFT和CNN提取的特征.还是神经大法好啊. 第一步就是建立两种不同特征的索引,文章用的是BoW类似的,为了加快检索速度,文章中使用了一种称为sparse boost的技术.简单说就是对每个特征向量求出它的协方差矩阵,按照从大到小的顺序进行排序,然后设置一个阈值,求出前k个正好大于这个阈值的索引值,其他的索引值全部置0. 第二步,构建模型. 对于每个特征向量,首先构建一个一模一样的向量…
SortedList 类 [C#] 命名空间: System.Collections 表示键/值对的集合,这些键和值按键排序并可按照键和索引访问. SortedList 是 Hashtable 和 Array 的混合.当使用 Item 索引器属性按照元素的键访问元素时,其行为类似于 Hashtable.当使用 GetByIndex 或 SetByIndex 按照元素的索引访问元素时,其行为类似于 Array. SortedList 在内部维护两个数组以将数组存储到列表中:即,一个数组用于键,另一…
Searching for Approximate Nearest Neighbours Nearest neighbour search is a common task: given a query object represented as a point in some (often high-dimensional) space, we want to find other objects in that space that lie close to it. For example,…
Pre: It is MY first time to see quite elegant a solution to seek a subspace for a group of local features. I list two related papers for your reference: “Local Feature Discriminant Projection” and “Binary Set Embedding for Cross-Modal Retrieval”. Thi…
小结: 1.覆盖索引 回表 2. All indexes in PostgreSQL are secondary indexes, meaning that each index is stored separately from the table's main data area (which is called the table's heap in PostgreSQL terminology). This means that in an ordinary index scan, ea…
Collaborative Knowledge base Embedding (CKE) 在推荐系统中存在着很多与知识图谱相关的信息,以电影推荐为例: 结构化知识(structural knowledge),例如导演.类别等: 图像知识(visual knowledge),例如海报.剧照等: 文本知识(textual knowledge),例如电影描述.影评等. CKE是一个基于协同过滤和知识图谱特征学习的推荐系统: CKE使用如下方式进行三种知识的学习: 结构化知识学习:TransR.Tran…
from: Dacheng Tao 悉尼大学 PROBLEM: time series retrieval: given the current multivariate time series segment, how to obtain its relevant time series segments in the historical data. Two challenging: 1. it requires a compact representation of the raw tim…
前置点评: 这篇文章比较朴素,创新性不高,基本是参照了google的word2vec方法,应用到推荐场景的i2i相似度计算中,但实际效果看还有有提升的.主要做法是把item视为word,用户的行为序列视为一个集合,item间的共现为正样本,并按照item的频率分布进行负样本采样,缺点是相似度的计算还只是利用到了item共现信息,1).忽略了user行为序列信息; 2).没有建模用户对不同item的喜欢程度高低. ------------------------------------------…
教材:<信息检索导论> 倒排索引 How to build Inverted Index? 1. Token sequence. 2. Sort by terms. 3. Dictionary & Postings 查询同时包含两单词的文档 [Qword1 and Qword2] 等高线式前进. O(x+y) [Qword1 and not Qword2] O(m*log2n) = m个中的any one都要查看n个中是否也有(二分查找). [Qword1 or not Qword2]…
[说明] 本文翻译自新加坡国立大学何向南博士 et al.发布在<World Wide Web>(2017)上的一篇论文<Neural Collaborative Filtering>.本人英语水平一般+学术知识匮乏+语文水平拙劣,翻译权当进一步理解论文和提高专业英语水平,translate不到key point还请见谅. 何博士的主页:http://www.comp.nus.edu.sg/~xiangnan/ 本文原文:http://www.comp.nus.edu.sg/~xi…
Week 4 OverviewHelp Center Week 4 On this page: Instructional Activities Time Goals and Objectives Key Phrases/Concepts Guiding Questions Readings and Resources Video Lectures Tips for Success Getting and Giving Help Instructional Activities Below is…
推荐系统的主要目的是从海量物品库中高效检索用户最感兴趣的物品,既然是"海量",意味着用户基本不可能浏览完所有的物品,所以才需要推荐系统来辅助用户高效获取感兴趣的信息.同样也正是因为"海量",由于算力的限制,复杂模型也是很难直接遍历每个物品算出分数来排序.如今的推荐系统通常大致分为召回 (retrieval) 和排序 (ranking) 两个阶段,召回是从全量物品库中快速得到一个候选集合,通常是几百到几千,后面的排序模块则使用更复杂的模型对候选集排序得到 top-k…
Index Seek是Sql Server执行查询语句时利用建立的索引进行查找,索引是B树结构,Sql Server先查找索引树的根节点,一级一级向下查找,在查找到相应叶子节点后,取出叶子节点的数据.对于聚集索引,叶子节点是整个表的数据,能够获取到所有列的数据,而对于非聚集索引,叶子节点存储的是索引列的数据,如果索引有包含列,那么叶子节点中存储有包含列的数据,获取的数据是索引列和包含列,如果还需要其他列的数据,那么必须进行key lookup,根据索引叶子节点包含的“行地址”信息到源表中去获取数…
深入理解 index merge 是使用索引进行优化的重要基础之一.理解了 index merge 技术,我们才知道应该如何在表上建立索引. 1. 为什么会有index merge 我们的 where 中可能有多个条件(或者join)涉及到多个字段,它们之间进行 AND 或者 OR,那么此时就有可能会使用到 index merge 技术.index merge 技术如果简单的说,其实就是:对多个索引分别进行条件扫描,然后将它们各自的结果进行合并(intersect/union). MySQL5.…
A clustered index determines the order in which the rows of a table are stored on disk. If a table has a clustered index, then the rows of that table will be stored on disk in the same exact order as the clustered index. An example will help clarify…
Josef和Andrew在2003年的ICCV上发表的论文[10]中,将文档检索的方法借鉴到了视频中的对象检测中.他们首先将图像的特征描述类比成单词,并建立了基于SIFT特征的vusual word dictionary,结合停止词.TF-IDF和余弦相似度等思想检索包含相同对象的图像帧,最后基于局部特征的匹配和空间一致性完成了对象的匹配.文档检索与计算机视觉之间渊源颇深,在CV领域常常会遇到要将图像的多个局部特征描述融合为一条特征向量的问题,比如常用的BoVW.VLAD和Fisher Vect…
Mahout版本:0.7,hadoop版本:1.0.4,jdk:1.7.0_25 64bit. 首先来总结一下 mahout算法源码分析之Collaborative Filtering with ALS-WR (三),这个写了三篇,基本都是写QR分解,然后矩阵进过处理得到U或者M的过程,但是还是没有讲出个所以然来.mahout官网上说其是根据这篇文献得来的Large-scale Parallel Collaborative Filtering for the Netflix Prize,本来我是想…
graphterm 0.40.1 : Python Package Index graphterm 0.40.1 Downloads ↓ A Graphical Terminal Interface Release Notes GraphTerm is a browser-based graphical terminal interface, that aims to seamlessly blend the command line and graphical user interfaces.…
最近关注了一些Deep Learning在Information Retrieval领域的应用,得益于Deep Model在对文本的表达上展现的优势(比如RNN和CNN),我相信在IR的领域引入Deep Model也会取得很好的效果. IR的范围可能会很广,比如传统的Search Engine(query retrieves documents),Recommendation System(user retrieves items)或者Retrieval based Question Answe…
http://www.ee.columbia.edu/ln/dvmm/publications/17/zhang2017visual.pdf Visual Translation Embedding Network for Visual Relation Detection Hanwang Zhang† , Zawlin Kyaw‡ , Shih-Fu Chang† , Tat-Seng Chua‡ †Columbia University, ‡National University of Si…
1. Embedding的使用 pytorch中实现了Embedding,下面是关于Embedding的使用. torch.nn包下的Embedding,作为训练的一层,随模型训练得到适合的词向量. 建立词向量层 embed = torch.nn.Embedding(n_vocabulary,embedding_size) 找到对应的词向量放进网络:词向量的输入应该是什么样子 实际上,上面通过随机初始化建立了词向量层后,建立了一个"二维表",存储了词典中每个词的词向量.每个mini-b…
一,问题描述 在Shakespeare文集(有很多文档Document)中,寻找哪个文档包含了单词“Brutus”和"Caesar",且不包含"Calpurnia".这其实是一个查询操作(Boolean Queries). 在Unix中有个工具grep,它能线性扫描一篇文档,然后找出某个单词是否在该文档中.因此,寻找哪篇文档包含了“Brutus”和“Caesar”可以用grep来实现.但是:不包含“Calpurnia”如何实现呢? 有时,还有一些更加复杂的情况:比如…
[论文标题]Collaborative Memory Network for Recommendation Systems    (SIGIR'18) [论文作者]—Travis Ebesu (Santa Clara University).—Bin Shen (Google).—Yi Fang (Santa Clara University) [论文链接]Paper(10-pages // Double column) [摘要] 在现代网络平台上,推荐系统对于保持用户对个性化内容的关注起着至关…
论文笔记之:Natural Language Object Retrieval 2017-07-10  16:50:43   本文旨在通过给定的文本描述,在图像中去实现物体的定位和识别.大致流程图如下: 此处,作者强调了一点不同之处: Natural language object retrieval differs from text-based image retrieval task as it involves spatial information about objects with…
1. 引言 word embedding技术如word2vec,glove等已经广泛应用于NLP,极大地推动了NLP的发展.既然词可以embedding,句子也应该可以(其实,万物皆可embedding,Embedding is All You Need ^_^).近年来(2014-2018),许多研究者在研究如何进行句子表示学习,从而获得质量较高的句子向量(sentence embedding).事实上,sentence embedding在信息检索,句子匹配,句子分类等任务上均有广泛应用,并…
http://www.jianshu.com/p/d44ce1e3ec2f 1. 前言 本篇主要介绍关键词的向量表示,也就是大家熟悉的word embedding.自Google 2013 年开源word2vec算法程序以后,它的简单.高效.实用,很快引起业界众人的关注和应用,为搜索引擎.[广告系统-谷歌的wide & deep learning][2].[推荐系统][1]等互联网服务提供新的基础技术和思路. 何为Embedding? 开篇之前首先需要明白一个概念何为Embedding?Embe…
原文链接:推荐系统中基于深度学习的混合协同过滤模型 近些年,深度学习在语音识别.图像处理.自然语言处理等领域都取得了很大的突破与成就.相对来说,深度学习在推荐系统领域的研究与应用还处于早期阶段. 携程在深度学习与推荐系统结合的领域也进行了相关的研究与应用,并在国际人工智能顶级会议AAAI 2017上发表了相应的研究成果<A Hybrid Collaborative Filtering Model with Deep Structure for Recommender Systems>,本文将分…
最近看了吴恩达老师的深度学习课程,又看了python深度学习这本书,对深度学习有了大概的了解,但是在实战的时候, 还是会有一些细枝末节没有完全弄懂,这篇文章就用来总结一下用keras实现深度学习算法的时候一些我自己很容易搞错的点. 一.与序列文本有关 1.仅对序列文本进行one-hot编码 比如:使用路透社数据集(包含许多短新闻及其对应的主题,包括46个不同的主题,每个主题有至少10个样本) from keras.datasets import reuters (train_data,train…
Week 2 OverviewHelp Center Week 2 On this page: Instructional Activities Time Goals and Objectives Key Phrases/Concepts Guiding Questions Readings and Resources Video Lectures Tips for Success Getting and Giving Help Instructional Activities Below is…
[Information Retrieval] 1.信息检索/获取(Information Retrieval,简称IR) 是从大规模非结构化数据(通常是文本)的集合(通常保存在计算机上)中找出满足用户信息需求的资料(通常是文档)的过程. 2.布尔检索模型 3.文档(document)是信息检索系统的检索对象,它们可以是一条条单独的记录或者是一本书的各章. 4.所有文档组成的文档集(collection),有时也称为语料库(corpus). 5.检索系统的效果(effectiveness): 1…