阶段性总结

Boolean retrieval

单词搜索

【Qword1 and Qword2】               O(x+y)

【Qword1 and Qword2】- 改进: Galloping Search   O(2a*log2(b/a))

【Qword1 and not Qword2】        O(m*log2n) 

【Qword1 or not Qword2】           O(m+n)

【Qword1 and Qword2 and Qword3 and ...】     O(Total_Length * log2k)

句子搜索

1. Biword Indexes

2. Positional Index --> Proximity Queries

Index Construction

构建过程中的Sort的探索:

  1. 基于块的排序索引方法
  2. 内存式单遍扫描索引构建方法
  3. 动态索引 - Dynamic Indexing

Compression

Heaps’ law: M = kTb

Zipf’s law: cfi = K/i

  • 压缩Dictionary 
  • 压缩Posting list

思路:基本查询,构建,然后压缩

Tolerant Retrieval & Spelling Correction & Language Model

WILD-CARD QUERIES

  • prefix 
  • suffix
  • "mon*ing"
  • “Permuterm vocabulary"
  • K-gram indexes

Spelling Correction

(1) Error detection

(2) Error correction

Language Model

查询似然模型 --> 混合模型:Jelinek-Mercer method

求Query在Md 中出现的概率,然后Ranking.

Probabilistic Model

  • 二值独立模型 - Binary Independence Model

针对一个Query,某Term是否该出现在文档中呢?

一篇New doc出现,遂统计every Term与该doc的关系,得到Ci。

Link Analysis

In degree i 正比于 1/iα ,  例如: α = 2.1

1. Number of In Degree.

2. "Flow" Model

    • small graphs.
    • large graphs. (Markov渐进性质)
      • Spider traps
      • Dead Ends

Ranking - top k

精确方式:

Consine Similarity: tf-idf

精确加速:

使用Quick Select:n + k * log(k) : "find top k" + "sort top k"

Threshold Methods - MaxScore Method

模糊加速:

Index Elimination (heuristic function)

3 of 4 query terms

Champion List

Cluster Pruning Method

  

Evaluation

无序检索结果的评价方法
有序检索结果的评价方法


大目标 --> 小目标

• Text Categorization:
  – Classify an entire document

• Information Extraction (IE):
  – Identify and classify small units within documents

  1. segmentation: 提取Term (NE) 语法
  2. classification: 认识Term (type, Chunking) 语义
  3. association: 聚类Term

Named Entity Extraction (NE):
  – A subset of IE
  – Identify and classify proper names: "People, locations, organizations"


Main tasks
Named Entity Recognition
• Relation Extraction

Pattern-based Relation Extraction

– Relation extraction and its difficulties

  1. – Use of POS Tags
  2. – Use of Constituent Parse
  3. – Use of Dependency Parse

1.

2.

3.

[IR] Information Extraction的更多相关文章

  1. HDU 4868 Information Extraction(2014 多校联合第一场 H)

    看到这道题时我的内心是奔溃的,没有了解过HTML,只能靠窝的渣渣英语一点一点翻译啊TT. Information Extraction 题意:(纯手工翻译,有些用词可能在html中不是一样的,还多包涵 ...

  2. spatial-temporal information extraction典型方法总结

    ==================================== 咳咳咳 由于科研的直接对象就是video sequence,所以,如何更好地提取spatial-temporal inform ...

  3. [阅读笔记]Zhang Y. 3D Information Extraction Based on GPU.2010.

    1.立体视觉基础 深度定义为物体间的距离 视差定义为同一点在左图(reference image) 和右图( target image) 中的x坐标差. 根据左图中每个点的视差得到的灰度图称为视差图. ...

  4. Maximum Entropy Markov Models for Information Extraction and Segmentation

    1.The use of state-observation transition functions rather than the separate transition and observat ...

  5. 本人AI知识体系导航 - AI menu

    Relevant Readable Links Name Interesting topic Comment Edwin Chen 非参贝叶斯   徐亦达老板 Dirichlet Process 学习 ...

  6. ACM会议列表与介绍(2014/05/06)

    Conferences ACM SEACM Southeast Regional Conference ACM Southeast Regional Conference the oldest, co ...

  7. ### Paper about Event Detection

    Paper about Event Detection. #@author: gr #@date: 2014-03-15 #@email: forgerui@gmail.com 看一些相关的论文. 1 ...

  8. 机器学习经典书籍&论文

    原文地址:http://blog.sina.com.cn/s/blog_7e5f32ff0102vlgj.html 入门书单 1.<数学之美>PDF6 作者吴军大家都很熟悉.以极为通俗的语 ...

  9. KDD2015,Accepted Papers

    Accepted Papers by Session Research Session RT01: Social and Graphs 1Tuesday 10:20 am–12:00 pm | Lev ...

随机推荐

  1. 常用基础OC 集合

    //    2016年07月19日17:50:53    集合 //七.NSSet 集合对象(容器类,) //  1. 使用类方法创建对象 NSSet *set1 = [NSSet set];  // ...

  2. Jquery EasyUI封装简化操作

    //confirm function Confirm(msg, control) { $.messager.confirm('确认', msg, function (r) { if (r) { eva ...

  3. Delphi -- Compiler helper for initializing/finalizing variable

    it CompilerhelperForInitializingFinalizingVariable; interface { Compiler helper for initializing/fin ...

  4. Activity后台运行一段时间回来crash问题的分析与解决

    最近做项目的时候碰到一个棘手的问题,花了不少时间才找到原因并解决.特此记录这个被我踩过的坑,希望其他朋友遇到此问题不要调到这坑里去了. 问题描述: 1.背景:我的app中某个界面的Activity是继 ...

  5. GTD中定位篇

    一:为什么要定位? 每天我们的大脑涌现很多想法和要处理很多事情,如果我们没有一套流模式处理这些想法和事情,我们大脑将会处于混战忙碌中,很快就被淹没. 定位的目的: 就是有一套流模式有序的分界我们想法和 ...

  6. 【转】Android类动态加载技术

    http://www.blogjava.net/zh-weir/archive/2011/10/29/362294.html Android应用开发在一般情况下,常规的开发方式和代码架构就能满足我们的 ...

  7. Android Studio生成javadoc出错的解决办法

    一般使用Android Studio生成javadoc会有两个问题: 空指针异常 文档乱码 解决办法如下: 第1个问题:Tools --> Generate JavaDoc -->打开对话 ...

  8. 参数传递的四种形式----- URL,超链接,js,form表单

    什么时候用GET,  查,删, 什么时候用POST,增,改  (特列:登陆用Post,因为不能让用户名和密码显示在URL上) 4种get传参方式 <html xmlns="http:/ ...

  9. 一次完整的HTTP事务分析

    在浏览器中输入一个地址,按下回车之后,到用户看到页面之前,发生了什么? https://www.processon.com/view/link/56c6679ce4b0f0c4285e69c0

  10. UICollectionView瀑布流的实现原理(转)

    http://ios.jobbole.com/85689/ 和使用 UIScollView 创刊一个瀑布流是一样的方式 7cc829d3gw1f4nq2oc09zj20j00hvq90.jpg 我的 ...