Information retrieval (IR class2)

1. 解析文档一般要分析哪些方面？

　 - 首先分析文档的格式，是docx，html，xml，pdf...

　 - 其次分析文档的语言，是英语，汉语，日语，德语...

　 - 使用的什么字符集，ASCII编码，或者是UFT-8，或者....

2. 什么是Tokenization Process？

　　对于汉字，需要“分词”，比如把：“我们” -> “我” “们”

　　而英文中，这个操作很简单，仅仅是空格而已：we are student -> "we" "are" "student". 然而，有时也会出现问题，比如“don't" 该如何分词？？

3. 什么是stopword？

　　英文里，常出现的词语，类似 you, I, and, a, 之类的

4. 什么是Normalization ？　　

　　把所有词还原成一种形式。包括 stemming 和 lemmatization 。

　　stemming（词干）：去掉后缀（suffix），例如，police , policy , police 可以变成同一个 stem : polic

　　lemmatization（此行还原）例如，复数 -> 单数，动词过去式/单三式 -> 原形之类的。

5. Porter's algorithm ?

　　用来还原词干的一个算法，一个经典的规则：

　　　　- sses -> ss

　　　　 - ies -> i

　　　　 - ational -> ate

　　　　 - tional -> tion　

其实，正规化有很多方法，也有很多标准，stemming和 lemmatization也有很多不同的实现方法与规则。

6. 如何加速posting list的查找？

　　 skip pointer ，工作机制不太明白，继续学习中

8. 遇到词组的情况怎么解决？

　　答：目前主要有三种解决方法： 1⃣️二词法：就是把两个字组合作为一个词，例如，stanford university作为一个词，进行inverted index。如果是多个词的词组，就用AND连接biword。问题：列出所有的两分词，不太可能，耗费的存储空间太大。空间复杂度太高

　　　　　　　　　　　　　　　　2⃣️位置索引法：在inverted index的基础上，不仅记录文档，还另外记录该词出现在文档中的哪个位置。然后将starnford和university进行AND操作后，对比出现在同一个文档中的位置，是否相邻，如果是，则判断1，反之为0。缺点是匹配耗费的时间太多，时间复杂度太高

　　　　　　　　　　　　　　　　3⃣️ 二分-位置索引法：将两种方法结合起来。没有细究。

9. 遇到通配符(wild-card queries)的情况怎么解决？

　　　比如：用户想要输入 rotate，但是不知道怎么拼写，就输入了 rote* 或者 *tate

　　　三种方法：1⃣️。使用树的方法：对于后面省略的，使用B+树的查找，匹配后缀。对于前面省略的，使用树的翻顺序，匹配前缀

　　　　　　　　2⃣️。使用permuterm index(我称之为排列索引): 例子详见参考：https://people.eng.unimelb.edu.au/tcohn/comp90042/l3.pdf

　　　　　　　　　例如 ro*te -> te $ ro : $ 意思是以ro为开头，以te为结尾

　　　　　　　 3⃣️。使用n-gram index .

10. 什么是 POST （part of speech tage）

　　翻译成中文，简单来说就是，词性/词类标注。

　　例如， I played basketball in the park.

　　　　　noun : basketball, park.

　　　　 verb : play

在nlp处理时， I ， in， the 都可以直接归类于 “stop word”里面。

　以及，为了方便大家记住常用的英文缩写，我把参考链接粘贴到这里（参考: https://zhidao.baidu.com/question/170228690）。

　　　　Abbr (abbreviation) : 省略语

　　　　ie (which is to say) ：即

　　　　etc

　　　　prep 介词

　　　　conj 连接词

11. 另外，对于POST，有很多专业术语，可以参考https://cs.nyu.edu/grishman/jet/guide/PennPOS.html

CC(coordinating conjunction ): 衔接连词

　　 CD（cardinal number）：基数词

　　 PRP （personal pronoun）：代词

　　 VBZ（Verb，3drperson singular present）：动词单三式

　　 NNS （noun，plural）：名词复数

　　 IN （prepostion or subordinating conjunction）：介词或从属连词

　　 DT（determiner）：限定词

　　 NN（noun，singular or mass）：名词单数

Information retrieval (IR class2)的更多相关文章

Information retrieval (IR class1)
1. 什么是IR? IR与数据库的区别? 答:数据库是检索结构化的数据,例如关系数据库:而信息检索是检索非结构化/半结构化的数据,例如:一系列的文本.信息检索是属于NLP(自然语言处理)里面最实用的一 ...
Information retrieval信息检索
https://en.wikipedia.org/wiki/Information_retrieval 信息检索 (一种信息技术) 信息检索(Information Retrieval)是指信息按一定 ...
Deep Learning for Information Retrieval
最近关注了一些Deep Learning在Information Retrieval领域的应用,得益于Deep Model在对文本的表达上展现的优势(比如RNN和CNN),我相信在IR的领域引入Dee ...
Information Retrieval 倒排索引学习笔记
一,问题描述在Shakespeare文集(有很多文档Document)中,寻找哪个文档包含了单词“Brutus”和"Caesar",且不包含"Calpurnia&quo ...
Information Retrieval
[Information Retrieval] 1.信息检索/获取(Information Retrieval,简称IR) 是从大规模非结构化数据(通常是文本)的集合(通常保存在计算机上)中找出满足用 ...
Music information retrieval
Music information retrieval - Wikipedia https://en.wikipedia.org/wiki/Music_information_retrieval Mu ...
Information Retrieval II
[Information Retrieval II] 搜索引擎分类: 1.目录式搜索引擎. 2.全文搜索引擎. 3.元搜索引擎(Meta-Search Engine). 搜索引擎的4个阶段:下载(cr ...
IRGAN：A Minimax Game for Unifying Generative and Discriminative Information Retrieval Models
https://arxiv.org/pdf/1705.10513.pdf 论文阅读笔记: https://www.cnblogs.com/liaohuiqiang/p/9694277.html htt ...
information retrieval (CMU 11642)
1. Heap's law. predict the number of new vocabulary. 参考:https://www.youtube.com/watch?v=JDp12gU-vEQ ...

随机推荐

GitHub中PR(Pull request)操作
1. 贡献代码: 贡献代码,通俗的说,就是自己修改了代码,希望合并到别人的Repository(仓库)中.将自己的智慧贡献给开源社区.下面将详细讲解步骤 1.1 第一步:fork 在GitHub社区闲 ...
break,continue,return的区别 x
这三个东西特别坑,一定要记准了!! 1)break 直接跳出当前的循环,从当前循环外面开始执行,忽略循环体中任何其他语句和循环条件测试.他只能跳出一层循环: 注意:如果你的循环是嵌套循环,那么 ...
欢迎使用CSDN的markdown编辑器
以下是蒻鞫第一次打开CSDN-markdown编译器的温馨提示,感觉CSDN好贴心,不作任何用途,仅为纪念,若存在违法侵权行为,请联系留言,立即删除. List item 这里写欢迎使用Markdo ...
Spring注解不生效
如果在使用spring中,发现注解不生效,检查下如下配置是否配置. 1:一般情况下@Autowired默认是不生效的,配置之后,才会生效 <context:annotation-config / ...
Jedis API操作redis数据库
1.配置文件 classpath路径下,新建redis.properties配置文件配置文件内容 # Redis settings redis.host=127.0.0.1 redis.port=6 ...
CF786E ALT
题意有一棵 $n$ 个点的树和 $m$ 个人,第 $i$ 个人从 $u_i$ 走到 $v_i$ 现在要发宠物,要求一个人要么他自己发到宠物,要么他走的路径上的都有宠物. 求最小代 ...
Android数据绑定DataBinding（一）入门篇
早上看到了一篇推文"还在使用繁琐的findViewById,跟着尝试了一下DataBinding,之前使用ButteKnife就已经干掉了findViewById.因为写过微信小程序,那种在 ...
java打jar包与找不到依赖包详解
eclipse打jar包与找不到依赖包详解 eclipse打工具jar 1.项目右键-->export -->搜索java 2.选择JAR file 3.打包 eclipse打包可执行ja ...
python pip settools 安装基于源码 gdal安装需要c++相关库
《你不知道的JavaScript（上）》笔记——this全面解析
首先要理解调用位置: 调用位置就是函数在代码中被调用的位置(而不是声明的位置). 最重要的是要分析调用栈(就是为了到达当前执行位置所调用的所有函数). 我们关心的调用位置就在当前正在执行的函数的前一个 ...

Information retrieval (IR class2)

Information retrieval (IR class2)的更多相关文章

随机推荐

热门专题