Information Retrieval】的更多相关文章

https://en.wikipedia.org/wiki/Information_retrieval 信息检索 (一种信息技术) 信息检索(Information Retrieval)是指信息按一定的方式组织起来, 并根据信息用户的需要找出有关的信息的过程和技术.狭义的信息检索就是信息检索过程的后半部分,即从信息集合中找出所需要的信息的过程,也就是我们常说的 信息查寻(Information Search 或Information Seek).一般情况下,信息检索指的就是广义的信息检索. 信息…
最近关注了一些Deep Learning在Information Retrieval领域的应用,得益于Deep Model在对文本的表达上展现的优势(比如RNN和CNN),我相信在IR的领域引入Deep Model也会取得很好的效果. IR的范围可能会很广,比如传统的Search Engine(query retrieves documents),Recommendation System(user retrieves items)或者Retrieval based Question Answe…
一,问题描述 在Shakespeare文集(有很多文档Document)中,寻找哪个文档包含了单词“Brutus”和"Caesar",且不包含"Calpurnia".这其实是一个查询操作(Boolean Queries). 在Unix中有个工具grep,它能线性扫描一篇文档,然后找出某个单词是否在该文档中.因此,寻找哪篇文档包含了“Brutus”和“Caesar”可以用grep来实现.但是:不包含“Calpurnia”如何实现呢? 有时,还有一些更加复杂的情况:比如…
[Information Retrieval II] 搜索引擎分类: 1.目录式搜索引擎. 2.全文搜索引擎. 3.元搜索引擎(Meta-Search Engine). 搜索引擎的4个阶段:下载(crawl) -> 分析(segment & pagerank)-> 索引(indexing)-> 查询(retrieval). crawler,也就是传说中的爬虫,或者蜘蛛. 下载.分析.索引被称为“离线部分”(offline part),也叫做在线系统:查询部分被称为“在线部分“(o…
[Information Retrieval] 1.信息检索/获取(Information Retrieval,简称IR) 是从大规模非结构化数据(通常是文本)的集合(通常保存在计算机上)中找出满足用户信息需求的资料(通常是文档)的过程. 2.布尔检索模型 3.文档(document)是信息检索系统的检索对象,它们可以是一条条单独的记录或者是一本书的各章. 4.所有文档组成的文档集(collection),有时也称为语料库(corpus). 5.检索系统的效果(effectiveness): 1…
Music information retrieval - Wikipedia https://en.wikipedia.org/wiki/Music_information_retrieval Music information retrieval (MIR) is the interdisciplinary science of retrieving information from music. MIR is a small but growing field of research wi…
1. 什么是IR? IR与数据库的区别? 答:数据库是检索结构化的数据,例如关系数据库:而信息检索是检索非结构化/半结构化的数据,例如:一系列的文本.信息检索是属于NLP(自然语言处理)里面最实用的一个场景,应用之一. 2. 什么是term-document incidence matrix? 答:文档中,出现了某个词记做1,未出现记做0的矩阵. e.g, 单词集合 W={w1, w2, w3, w4},文章集合 D={d1, d2, d3, d4, d5}. term-document inc…
https://arxiv.org/pdf/1705.10513.pdf 论文阅读笔记: https://www.cnblogs.com/liaohuiqiang/p/9694277.html https://blog.csdn.net/molong1208/article/details/78080161 IRGAN 可以利用GAN的思想,把两种检索模型结合起来,克服它们的缺点.如下图所示. 以生成式检索模型作为生成器,输入query,我们选取相关的document,构成数据对,作为生成数据.…
1.  解析文档一般要分析哪些方面? - 首先分析文档的格式,是docx,html,xml,pdf... - 其次分析文档的语言,是英语,汉语,日语,德语... - 使用的什么字符集,ASCII编码,或者是UFT-8,或者.... 2.  什么是Tokenization Process? 对于汉字,需要“分词”,比如把:“我们” ->  “我” “们” 而英文中,这个操作很简单,仅仅是空格而已:we are student -> "we" "are" &…
1. Heap's law. predict the number of new vocabulary. 参考:https://www.youtube.com/watch?v=JDp12gU-vEQ 2.…