[IR] Information Extraction
阶段性总结
Boolean retrieval
单词搜索
【Qword1 and Qword2】 O(x+y)
【Qword1 and Qword2】- 改进: Galloping Search O(2a*log2(b/a))
【Qword1 and not Qword2】 O(m*log2n)
【Qword1 or not Qword2】 O(m+n)
【Qword1 and Qword2 and Qword3 and ...】 O(Total_Length * log2k)
句子搜索
1. Biword Indexes
2. Positional Index --> Proximity Queries
Index Construction
构建过程中的Sort的探索:
- 基于块的排序索引方法
- 内存式单遍扫描索引构建方法
- 动态索引 - Dynamic Indexing
Compression
Heaps’ law: M = kTb
Zipf’s law: cfi = K/i
- 压缩Dictionary
- 压缩Posting list
思路:基本查询,构建,然后压缩
Tolerant Retrieval & Spelling Correction & Language Model
WILD-CARD QUERIES
- prefix
- suffix
- "mon*ing"
- “Permuterm vocabulary"
- K-gram indexes
Spelling Correction
(1) Error detection
(2) Error correction
Language Model
查询似然模型 --> 混合模型:Jelinek-Mercer method
求Query在Md 中出现的概率,然后Ranking.
Probabilistic Model
- 二值独立模型 - Binary Independence Model
针对一个Query,某Term是否该出现在文档中呢?
一篇New doc出现,遂统计every Term与该doc的关系,得到Ci。
Link Analysis
In degree i 正比于 1/iα , 例如: α = 2.1
1. Number of In Degree.
2. "Flow" Model
- small graphs.
- large graphs. (Markov渐进性质)
- Spider traps
- Dead Ends
Ranking - top k
精确方式:
Consine Similarity: tf-idf
精确加速:
使用Quick Select:n + k * log(k) : "find top k" + "sort top k"
Threshold Methods - MaxScore Method
模糊加速:
Index Elimination (heuristic function)
3 of 4 query terms
Champion List
Cluster Pruning Method
Evaluation
无序检索结果的评价方法
有序检索结果的评价方法
大目标 --> 小目标
• Text Categorization:
– Classify an entire document
• Information Extraction (IE):
– Identify and classify small units within documents
- segmentation: 提取Term (NE) 语法
- classification: 认识Term (type, Chunking) 语义
- association: 聚类Term
• Named Entity Extraction (NE):
– A subset of IE
– Identify and classify proper names: "People, locations, organizations"
Main tasks
• Named Entity Recognition
• Relation Extraction
Pattern-based Relation Extraction
– Relation extraction and its difficulties
- – Use of POS Tags
- – Use of Constituent Parse
- – Use of Dependency Parse
1.
2.
3.
[IR] Information Extraction的更多相关文章
- HDU 4868 Information Extraction(2014 多校联合第一场 H)
看到这道题时我的内心是奔溃的,没有了解过HTML,只能靠窝的渣渣英语一点一点翻译啊TT. Information Extraction 题意:(纯手工翻译,有些用词可能在html中不是一样的,还多包涵 ...
- spatial-temporal information extraction典型方法总结
==================================== 咳咳咳 由于科研的直接对象就是video sequence,所以,如何更好地提取spatial-temporal inform ...
- [阅读笔记]Zhang Y. 3D Information Extraction Based on GPU.2010.
1.立体视觉基础 深度定义为物体间的距离 视差定义为同一点在左图(reference image) 和右图( target image) 中的x坐标差. 根据左图中每个点的视差得到的灰度图称为视差图. ...
- Maximum Entropy Markov Models for Information Extraction and Segmentation
1.The use of state-observation transition functions rather than the separate transition and observat ...
- 本人AI知识体系导航 - AI menu
Relevant Readable Links Name Interesting topic Comment Edwin Chen 非参贝叶斯 徐亦达老板 Dirichlet Process 学习 ...
- ACM会议列表与介绍(2014/05/06)
Conferences ACM SEACM Southeast Regional Conference ACM Southeast Regional Conference the oldest, co ...
- ### Paper about Event Detection
Paper about Event Detection. #@author: gr #@date: 2014-03-15 #@email: forgerui@gmail.com 看一些相关的论文. 1 ...
- 机器学习经典书籍&论文
原文地址:http://blog.sina.com.cn/s/blog_7e5f32ff0102vlgj.html 入门书单 1.<数学之美>PDF6 作者吴军大家都很熟悉.以极为通俗的语 ...
- KDD2015,Accepted Papers
Accepted Papers by Session Research Session RT01: Social and Graphs 1Tuesday 10:20 am–12:00 pm | Lev ...
随机推荐
- 常用基础OC 集合
// 2016年07月19日17:50:53 集合 //七.NSSet 集合对象(容器类,) // 1. 使用类方法创建对象 NSSet *set1 = [NSSet set]; // ...
- Jquery EasyUI封装简化操作
//confirm function Confirm(msg, control) { $.messager.confirm('确认', msg, function (r) { if (r) { eva ...
- Delphi -- Compiler helper for initializing/finalizing variable
it CompilerhelperForInitializingFinalizingVariable; interface { Compiler helper for initializing/fin ...
- Activity后台运行一段时间回来crash问题的分析与解决
最近做项目的时候碰到一个棘手的问题,花了不少时间才找到原因并解决.特此记录这个被我踩过的坑,希望其他朋友遇到此问题不要调到这坑里去了. 问题描述: 1.背景:我的app中某个界面的Activity是继 ...
- GTD中定位篇
一:为什么要定位? 每天我们的大脑涌现很多想法和要处理很多事情,如果我们没有一套流模式处理这些想法和事情,我们大脑将会处于混战忙碌中,很快就被淹没. 定位的目的: 就是有一套流模式有序的分界我们想法和 ...
- 【转】Android类动态加载技术
http://www.blogjava.net/zh-weir/archive/2011/10/29/362294.html Android应用开发在一般情况下,常规的开发方式和代码架构就能满足我们的 ...
- Android Studio生成javadoc出错的解决办法
一般使用Android Studio生成javadoc会有两个问题: 空指针异常 文档乱码 解决办法如下: 第1个问题:Tools --> Generate JavaDoc -->打开对话 ...
- 参数传递的四种形式----- URL,超链接,js,form表单
什么时候用GET, 查,删, 什么时候用POST,增,改 (特列:登陆用Post,因为不能让用户名和密码显示在URL上) 4种get传参方式 <html xmlns="http:/ ...
- 一次完整的HTTP事务分析
在浏览器中输入一个地址,按下回车之后,到用户看到页面之前,发生了什么? https://www.processon.com/view/link/56c6679ce4b0f0c4285e69c0
- UICollectionView瀑布流的实现原理(转)
http://ios.jobbole.com/85689/ 和使用 UIScollView 创刊一个瀑布流是一样的方式 7cc829d3gw1f4nq2oc09zj20j00hvq90.jpg 我的 ...