阶段性总结

Boolean retrieval

单词搜索

【Qword1 and Qword2】               O(x+y)

【Qword1 and Qword2】- 改进: Galloping Search   O(2a*log2(b/a))

【Qword1 and not Qword2】        O(m*log2n) 

【Qword1 or not Qword2】           O(m+n)

【Qword1 and Qword2 and Qword3 and ...】     O(Total_Length * log2k)

句子搜索

1. Biword Indexes

2. Positional Index --> Proximity Queries

Index Construction

构建过程中的Sort的探索:

  1. 基于块的排序索引方法
  2. 内存式单遍扫描索引构建方法
  3. 动态索引 - Dynamic Indexing

Compression

Heaps’ law: M = kTb

Zipf’s law: cfi = K/i

  • 压缩Dictionary 
  • 压缩Posting list

思路:基本查询,构建,然后压缩

Tolerant Retrieval & Spelling Correction & Language Model

WILD-CARD QUERIES

  • prefix 
  • suffix
  • "mon*ing"
  • “Permuterm vocabulary"
  • K-gram indexes

Spelling Correction

(1) Error detection

(2) Error correction

Language Model

查询似然模型 --> 混合模型:Jelinek-Mercer method

求Query在Md 中出现的概率,然后Ranking.

Probabilistic Model

  • 二值独立模型 - Binary Independence Model

针对一个Query,某Term是否该出现在文档中呢?

一篇New doc出现,遂统计every Term与该doc的关系,得到Ci。

Link Analysis

In degree i 正比于 1/iα ,  例如: α = 2.1

1. Number of In Degree.

2. "Flow" Model

    • small graphs.
    • large graphs. (Markov渐进性质)
      • Spider traps
      • Dead Ends

Ranking - top k

精确方式:

Consine Similarity: tf-idf

精确加速:

使用Quick Select:n + k * log(k) : "find top k" + "sort top k"

Threshold Methods - MaxScore Method

模糊加速:

Index Elimination (heuristic function)

3 of 4 query terms

Champion List

Cluster Pruning Method

  

Evaluation

无序检索结果的评价方法
有序检索结果的评价方法


大目标 --> 小目标

• Text Categorization:
  – Classify an entire document

• Information Extraction (IE):
  – Identify and classify small units within documents

  1. segmentation: 提取Term (NE) 语法
  2. classification: 认识Term (type, Chunking) 语义
  3. association: 聚类Term

Named Entity Extraction (NE):
  – A subset of IE
  – Identify and classify proper names: "People, locations, organizations"


Main tasks
Named Entity Recognition
• Relation Extraction

Pattern-based Relation Extraction

– Relation extraction and its difficulties

  1. – Use of POS Tags
  2. – Use of Constituent Parse
  3. – Use of Dependency Parse

1.

2.

3.

[IR] Information Extraction的更多相关文章

  1. HDU 4868 Information Extraction(2014 多校联合第一场 H)

    看到这道题时我的内心是奔溃的,没有了解过HTML,只能靠窝的渣渣英语一点一点翻译啊TT. Information Extraction 题意:(纯手工翻译,有些用词可能在html中不是一样的,还多包涵 ...

  2. spatial-temporal information extraction典型方法总结

    ==================================== 咳咳咳 由于科研的直接对象就是video sequence,所以,如何更好地提取spatial-temporal inform ...

  3. [阅读笔记]Zhang Y. 3D Information Extraction Based on GPU.2010.

    1.立体视觉基础 深度定义为物体间的距离 视差定义为同一点在左图(reference image) 和右图( target image) 中的x坐标差. 根据左图中每个点的视差得到的灰度图称为视差图. ...

  4. Maximum Entropy Markov Models for Information Extraction and Segmentation

    1.The use of state-observation transition functions rather than the separate transition and observat ...

  5. 本人AI知识体系导航 - AI menu

    Relevant Readable Links Name Interesting topic Comment Edwin Chen 非参贝叶斯   徐亦达老板 Dirichlet Process 学习 ...

  6. ACM会议列表与介绍(2014/05/06)

    Conferences ACM SEACM Southeast Regional Conference ACM Southeast Regional Conference the oldest, co ...

  7. ### Paper about Event Detection

    Paper about Event Detection. #@author: gr #@date: 2014-03-15 #@email: forgerui@gmail.com 看一些相关的论文. 1 ...

  8. 机器学习经典书籍&论文

    原文地址:http://blog.sina.com.cn/s/blog_7e5f32ff0102vlgj.html 入门书单 1.<数学之美>PDF6 作者吴军大家都很熟悉.以极为通俗的语 ...

  9. KDD2015,Accepted Papers

    Accepted Papers by Session Research Session RT01: Social and Graphs 1Tuesday 10:20 am–12:00 pm | Lev ...

随机推荐

  1. JSP九大内置对象详细介绍

    内置对象的特点: 1.由JSP规范提供,不用编写者实例化. 2.通过Web容器实现和管理 3. 所有JSP页面均可使用 4.只有在脚本元素的表达式或代码段中才可使用(<%=使用内置对象%> ...

  2. Activiti 查询最新版本的流程定义

    package com.mycom.processDefinition; import java.io.File; import java.io.IOException; import java.io ...

  3. JVM中的垃圾收集算法和Heap分区简记

    如何判断垃圾对象? 垃圾收集的第一步就是先需要算法来标记哪些是垃圾,然后再对垃圾进行处理.   引用计数(ReferenceCounting)算法 这种方法比较简单直观,FlashPlayer/Pyt ...

  4. 三、oracle 体系结构

    1.oracle内存由SGA+PGA所构成 2.oracle数据库体系结构数据库的体系结构是指数据库的组成.工作过程与原理,以及数据在数据库中的组织与管理机制. oracle工作原理: 1).在数据库 ...

  5. EWM ODO清理功能

    ERP OBD下传到EWM会自动产生拣货任务(通常做法),但如果EWM因库存不足或其它原因无法拣货时一般要差异确认,对ODO行项目进行0确认.但问题是零确认后EWM标准流程是无法回传ERP的. ERP ...

  6. github host你懂得,如果你是程序员请不要乱传,求求了

    可用截止测试时间 2015-01-12 github相关的hosts 207.97.227.239 github.com 65.74.177.129 www.github.com 207.97.227 ...

  7. fidder 抓 https包配置方法(ios & android & pc浏览器)

    1. fidder抓https包的基本配置,可参见以下博文 http://blog.csdn.net/idlear/article/details/50999490 2. 遇到问题:抓包看只有Tunn ...

  8. http协议读书笔记3-Web服务器

    一.web服务器的实现 web服务器逻辑实现了HTTP协议和相关的TCP连接处理,管理着web资源,并负责提供Web服务器的管理功能.web服务器逻辑和操作系统共同负责管理TCP连接.底层操作系统负责 ...

  9. 用CAKeyframeAnimation构建动画路径

    复杂路径的动画,我们可以借助关键关键帧动画(CAKeyframeAnimation)来实现,给其的path属性设置相应的路径信息即可. 以下为一个红色的小球按照指定的路径运动的动画. 此动画关键在于如 ...

  10. Android学习之ProgressBar

    ProgressBar用于向用户显示某个耗时操作完成的百分比,避免长时间执行某个耗时操作时让用户感觉程序失去了响应,从而提高用户界面的友好性. 请看下面的界面布局: <LinearLayout ...