阶段性总结

Boolean retrieval

单词搜索

【Qword1 and Qword2】               O(x+y)

【Qword1 and Qword2】- 改进: Galloping Search   O(2a*log2(b/a))

【Qword1 and not Qword2】        O(m*log2n) 

【Qword1 or not Qword2】           O(m+n)

【Qword1 and Qword2 and Qword3 and ...】     O(Total_Length * log2k)

句子搜索

1. Biword Indexes

2. Positional Index --> Proximity Queries

Index Construction

构建过程中的Sort的探索:

  1. 基于块的排序索引方法
  2. 内存式单遍扫描索引构建方法
  3. 动态索引 - Dynamic Indexing

Compression

Heaps’ law: M = kTb

Zipf’s law: cfi = K/i

  • 压缩Dictionary 
  • 压缩Posting list

思路:基本查询,构建,然后压缩

Tolerant Retrieval & Spelling Correction & Language Model

WILD-CARD QUERIES

  • prefix 
  • suffix
  • "mon*ing"
  • “Permuterm vocabulary"
  • K-gram indexes

Spelling Correction

(1) Error detection

(2) Error correction

Language Model

查询似然模型 --> 混合模型:Jelinek-Mercer method

求Query在Md 中出现的概率,然后Ranking.

Probabilistic Model

  • 二值独立模型 - Binary Independence Model

针对一个Query,某Term是否该出现在文档中呢?

一篇New doc出现,遂统计every Term与该doc的关系,得到Ci。

Link Analysis

In degree i 正比于 1/iα ,  例如: α = 2.1

1. Number of In Degree.

2. "Flow" Model

    • small graphs.
    • large graphs. (Markov渐进性质)
      • Spider traps
      • Dead Ends

Ranking - top k

精确方式:

Consine Similarity: tf-idf

精确加速:

使用Quick Select:n + k * log(k) : "find top k" + "sort top k"

Threshold Methods - MaxScore Method

模糊加速:

Index Elimination (heuristic function)

3 of 4 query terms

Champion List

Cluster Pruning Method

  

Evaluation

无序检索结果的评价方法
有序检索结果的评价方法


大目标 --> 小目标

• Text Categorization:
  – Classify an entire document

• Information Extraction (IE):
  – Identify and classify small units within documents

  1. segmentation: 提取Term (NE) 语法
  2. classification: 认识Term (type, Chunking) 语义
  3. association: 聚类Term

Named Entity Extraction (NE):
  – A subset of IE
  – Identify and classify proper names: "People, locations, organizations"


Main tasks
Named Entity Recognition
• Relation Extraction

Pattern-based Relation Extraction

– Relation extraction and its difficulties

  1. – Use of POS Tags
  2. – Use of Constituent Parse
  3. – Use of Dependency Parse

1.

2.

3.

[IR] Information Extraction的更多相关文章

  1. HDU 4868 Information Extraction(2014 多校联合第一场 H)

    看到这道题时我的内心是奔溃的,没有了解过HTML,只能靠窝的渣渣英语一点一点翻译啊TT. Information Extraction 题意:(纯手工翻译,有些用词可能在html中不是一样的,还多包涵 ...

  2. spatial-temporal information extraction典型方法总结

    ==================================== 咳咳咳 由于科研的直接对象就是video sequence,所以,如何更好地提取spatial-temporal inform ...

  3. [阅读笔记]Zhang Y. 3D Information Extraction Based on GPU.2010.

    1.立体视觉基础 深度定义为物体间的距离 视差定义为同一点在左图(reference image) 和右图( target image) 中的x坐标差. 根据左图中每个点的视差得到的灰度图称为视差图. ...

  4. Maximum Entropy Markov Models for Information Extraction and Segmentation

    1.The use of state-observation transition functions rather than the separate transition and observat ...

  5. 本人AI知识体系导航 - AI menu

    Relevant Readable Links Name Interesting topic Comment Edwin Chen 非参贝叶斯   徐亦达老板 Dirichlet Process 学习 ...

  6. ACM会议列表与介绍(2014/05/06)

    Conferences ACM SEACM Southeast Regional Conference ACM Southeast Regional Conference the oldest, co ...

  7. ### Paper about Event Detection

    Paper about Event Detection. #@author: gr #@date: 2014-03-15 #@email: forgerui@gmail.com 看一些相关的论文. 1 ...

  8. 机器学习经典书籍&论文

    原文地址:http://blog.sina.com.cn/s/blog_7e5f32ff0102vlgj.html 入门书单 1.<数学之美>PDF6 作者吴军大家都很熟悉.以极为通俗的语 ...

  9. KDD2015,Accepted Papers

    Accepted Papers by Session Research Session RT01: Social and Graphs 1Tuesday 10:20 am–12:00 pm | Lev ...

随机推荐

  1. CSS揭秘读书笔记 (一)

    CSS揭秘读书笔记      (一) 一.半透明边框 要想实现半透明边框可以使用border: border: 10px  solid  hsla(0,0%,100%,.5); background: ...

  2. 诚聘Android开发工程师

    职位要求1.有1年以上Android应用项目经验或相关经验: 2.熟悉Android操作系统和Android SDK,GUI编程及GDI的使用:熟练掌握Android 的 UI 系统控件及常用布局.动 ...

  3. PHP之負載均衡下的session共用

    最近忙於開發台灣運動彩券第四版的程式,所以已經很久沒有上來寫東西了,今天隨便寫點東西和大家分享. 首先說一下負載均衡,相信大家都知道負載均衡可以很好地解決網站大流量的問題,負載均衡就是把用戶的請求分發 ...

  4. 我用了13行代碼開發出来的PHP框架

    我只用13行代碼開發的PHP框架,如果您對框架不理解,不知道框架究竟幫您做了什麽事,可以下載此框架看一下, 另外如果您想開發自己的框架也可以由這個框架的思路進行擴展. 源碼下載地址:http://do ...

  5. Swift - UIView的无损截图

    Swift - UIView的无损截图 效果 源码 // // UIView+ScreensShot.swift // Swift-Animations // // Created by YouXia ...

  6. Docker实践(5)—资源隔离

    Docker使用cgroup实现CPU,内存和磁盘IO等系统资源的限制. CPU Docker现在有2个与CPU资源相关的参数,-c可以指定CPU的占比,--cpuset可以绑定CPU.例如,指定容器 ...

  7. 发布订阅 - 基于A2DFramework的事件机制实现

    SUMMARY 能做什么 DEMO 原理图 应用场景 能做什么 A2DFramework的事件机制是基于发布订阅模式改进得来的一套API,中间件部分实现了msmq.redis.Supersocket可 ...

  8. Codeforces Beta Round #80 (Div. 2 Only)【ABCD】

    Codeforces Beta Round #80 (Div. 2 Only) A Blackjack1 题意 一共52张扑克,A代表1或者11,2-10表示自己的数字,其他都表示10 现在你已经有一 ...

  9. android studio svn不显示问题

    今天更新android studio SDK 重启后发现SVN功能没有了,工具栏也没有了更新提交按钮,刚开始以后是SVN程序可以不行了(在我的电脑提交更新没问题)我在官网下了最新1.9.4 打开and ...

  10. Web - 客户端存储的几种方式

    客户端存储主要方便一些APP离线使用.今天就来说说客户端存储的方法有多少? 说在最前面的一句:所有的客户端存储都有一个原则:读写的数据必须要同域 1 Cookie Cookie是一项很老的技术的,就是 ...