翻译 | Placing Search in Context The Concept Revisited

原文

摘要

[1] Keyword-based search engines are in widespread use today as a popular means for Web-based information retrieval.

[2] Although such systems seem deceptively simple, a considerable amount of skill is required in order to satisfy non-trivial information needs.

[3] This paper presents a new conceptual paradigm for performing search in context, that largely automates the search process, providing even non-professional users with highly relevant results.

[4] This paradigm is implemented in practice in the IntelliZap system, where search is initiated from a text query marked by the user in a document she views, and is guided by the text surrounding the marked query in that document (“the context”).

[5] The context-driven information retrieval process involves semantic keyword extraction and clustering to automatically generate new, augmented queries.

[6] The latter are submitted to a host of general and domain-specific search engines.

[7] Search results are then semantically reranked, using context. Experimental results testify that using context to guide search, effectively offers even inexperienced users an advanced search tool on the Web.

模型改进

第一节

[1] The core of IntelliZap technology is a semantic network, which provides a metric for measuring distances between pairs of words.

[2] The basic semantic network is implemented using a vector-based approach, where each word is represented as a vector in multi-dimensional space.

[3] To assign each word a vector representation, we first identified 27 knowledge domains (such as computers, business and entertainment) roughly partitioning the whole variety of topics.

[4] We then sampled a large set of documents in these domains on the Internet Word vectors were obtained by recording the frequencies of each word in each knowledge domain.

[5] Each domain can therefore be viewed as an axis in the multi-dimensional space.

[6] The distance measure between word vectors is computed using a correlation-based metric:

第二节

[1] Unfortunately, there are no accepted procedures for evaluating performance of semantic metrics.

[2] Following Resnik [1999], we evaluated different metrics by computing correlation between their scores and human-assigned scores for a list of word pairs.

[3] The intuition behind this approach is that a good metric should approximate human judgments well.

[4] While Resnik used a list of 30 noun pairs from Miller and Charles [1991], we opted for a more comprehensive evaluation.

[5] To this end, we prepared a diverse list of 350 noun pairs representing various degrees of similarity,10 and employed 16 subjects to estimate the “relatedness” of the words in pairs on a scale from 0 (totally unrelated words) to 10 (very much related or identical words).

[6] The vector-based metric achieved 41% correlation with averaged human scores, and the WordNet-based metric achieved 39% correlation11,12 A linear combination of the two metrics achieved 55% correlation with human scores.

[7] Currently, our semantic network is defined for the English language, though the technology can be adapted for other languages with minimal effort.

[8] This would require training the network using textual data for the desired language, properly partitioned into domains.

[9] Linguistic information can be added, subject to the availability of adequate tools for the target language (e.g., EuroWordNet for European languages [Euro WordNet] or EDR for Japanese [Yokoi 1995]).

翻译

摘要

[1] 基于关键字的搜索引擎作为一种流行的基于Web的信息检索手段,在今天得到了广泛的应用。

[2] 虽然这样的系统看起来似乎很简单,但为了满足非琐碎的信息需求,需要大量的技巧。

[3] 本文提出了一种新的在上下文中执行搜索的概念范式,它在很大程度上自动化了搜索过程,甚至为非专业用户召回了高度相关的结果。

[4] 这种范例是在 Intellizap 系统中实现的。在该系统中,搜索从用户在其所查看的文档中标记的文本查询开始,并由该文档中标记的查询周围的文本(“上下文”)来引导。

[5] 上下文驱动的信息检索过程包括语义关键字提取和聚类,从而自动生成新的、扩充的查询。

[6] 后者被提交给一系列通用和特定于域的搜索引擎。

[7] 然后使用上下文对搜索结果进行语义重新排序。实验结果表明,利用上下文来引导搜索,甚至可以有效地为没有经验的用户提供一种先进的网络搜索工具。

模型改进

第一节

[1] Intellizap技术的核心是一个语义网络,它为测量成对词之间的距离提供了一个度量标准。

[2] 基本语义网络是使用基于向量的方法实现的,其中每个词在多维空间中表示为一个向量。

[3] 为了给每个单词分配一个向量表示,我们首先确定了27个知识域(如计算机、商业和娱乐),大致划分了各种主题。

[4] 然后,我们对这些领域中的大量文档进行了抽样,通过记录每个知识领域中每个单词的频率,获得了互联网上的单词向量。

[5] 因此,可以将每个域看作多维空间中的一个轴。

[6] 单词向量之间的距离度量是使用基于相关性的度量来计算的:

第二节

[1] 不幸的是,没有可以被接受的手段来评估语义度量的性能。

[2] 继 Resnik[1999] 之后,我们通过计算机器打分与人类对指定的单词打分列表之间的相关性,来评估不同的指标。

[3] 这种方法背后的直觉是,一个好的度量应该很好地近似人类的判断。

[4] 虽然 Resnik 使用了 Miller 和 Charles[1991] 的 30 个名词对列表,但我们选择了更全面的评估。

[5] 为此,我们准备了一份 350 个不同的名词词对的列表,分别代表不同程度的相似性,由 10 个和 16 个受试者,以从0(完全无关的词)到10(非常相关或相同的词)的尺度来估计词对间的“相关性”。

[6] 基于向量的度量与平均人类分数的相关性达到41%,基于 WordNet 的度量与平均人类分数的相关性达到 39%,11,12这两个度量的线性组合与人类分数的相关性达到55%。

[7] 目前,我们的语义网络是为英语定义的,尽管这项技术可以用最少的努力适应其他语言。

[8] 这需要使用目标语言的文本数据对网络进行培训,并将其正确划分为域。

[9] 可根据目标语言的适当工具(例如,欧洲语言的 EurowordNet [欧元wordNet] 或日语的 EDR[Yokoi 1995])添加语言信息。

翻译 | Placing Search in Context The Concept Revisited的更多相关文章

  1. 【MT】牛津的MT教程

    Preamble This repository contains the lecture slides and course description for the Deep Natural Lan ...

  2. Saw a tweet from Andrew Liam Trask, sounds like Oxford DeepNLP 2017 class have all videos slides practicals all up. Thanks Andrew for the tip!

    Saw a tweet from Andrew Liam Trask, sounds like Oxford DeepNLP 2017 class have all videos/slides/pra ...

  3. (转)Go语言并发模型:使用 context

    转载自:https://segmentfault.com/a/1190000006744213 context golang 简介 在 Go http包的Server中,每一个请求在都有一个对应的 g ...

  4. [转] Go 的并发模式:Context

    [转] Go 的并发模式:Context tips:昨天看了飞雪无情的关于 Context 的文章,对 go 中 Context 有了一个初步的认识.今天看到一个 go 官方博客的关于 Context ...

  5. 【翻译】Awesome R资源大全中文版来了,全球最火的R工具包一网打尽,超过300+工具,还在等什么?

    0.前言 虽然很早就知道R被微软收购,也很早知道R在统计分析处理方面很强大,开始一直没有行动过...直到 直到12月初在微软技术大会,看到我软的工程师演示R的使用,我就震惊了,然后最近在网上到处了解和 ...

  6. 第九篇:在SOUI中使用多语言翻译

    为UI在不同地区显示不同的语言是产品国际化的一个重要要求. 在SOUI中实现了一套类似QT的多语言翻译机制:布局XML不需要调整,程序代码也不需要调整,只需要为不同地区的用户提供不同的语言翻译文件即可 ...

  7. golang语言中的context详解,Go Concurrency Patterns: Context

    https://blog.golang.org/context Introduction In Go servers, each incoming request is handled in its ...

  8. BFC (Block formatting context)

     一:BFC 是什么      MDN解释: A block formatting context is a part of a visual CSS rendering of a Web page. ...

  9. elasticsearch源码分析之search模块(server端)

    elasticsearch源码分析之search模块(server端) 继续接着上一篇的来说啊,当client端将search的请求发送到某一个node之后,剩下的事情就是server端来处理了,具体 ...

随机推荐

  1. wordpress chronus主题 显示文章阅读数

    wordpress chronus主题 显示文章阅读数 第一步:将下面的代码拷贝到文件 /wp-content/themes/chronus/inc/template-tags.php 中 funct ...

  2. F#周报2019年第9期

    新闻 对于F#,Visual Studio 2019 RC有哪些更新 Visual Studio 2019 RC现在已经发布 C#版本与工具的升级 如何移植桌面应用程序到.NET Core 3.0 对 ...

  3. C语言:二进制模5

    输入一串字符,若是二进制则求其模五的值. 要求:1.若输入的字符包含除0.1以外的值,则输出:invalid 2.若输入的为二进制字符串,则输出所计算的其模五的值 3.若其输入字符均为0.1,但是第一 ...

  4. 单片机stm32小白入门级学习路线“图”

     学习stm32的是真的越来越多了,当然我也是其中语言,所以对于stm32的学习路线非常的感兴趣,所以我也分享一下  虽然是盗图吧  不过也算是分享 ,下边有觉得不错的视频资料  也奉上   (stm ...

  5. 在Fastreport里使用的CRC函数

    如标题, 是在Fastreport的脚本里运行的CRC计算函数, 包括CRC-16/CRC-32 基本是从网上找的代码, 然后改出来的 至于为什么要在FR的脚本里运行....呵呵 不要在意这些细节(找 ...

  6. burp抓取ios设备https数据包

    参考了网上其他相关教程,自己动手试了一次,有效的方法可确定为: 1.让PC机和移动端处于同一局域网, 2.burp设定监听所有接口,并监听一个端口 3.手机端设置代理,方式为手动,ip地址填PC在局域 ...

  7. mysql_主从同步

    在这里我就不说怎么搭建 Mysql 数据库了!如果有需要可以参照我前面的博文. 此博文主要说配置 Linux  数据库   主从   下面我们开始进入正题. master:192.168.31.200 ...

  8. Caused by: java.lang.ClassNotFoundException: org.springframework.integration.handler.support.HandlerMethodArgumentResolversHolder

    <dependency> <groupId>org.springframework.cloud</groupId> <artifactId>spring ...

  9. 微信小程序--地图组件与api-模拟器上返回的scale 与真机上不同--bindregionchange触发图标一直闪现问题

    场景:根据地理定位获取不同地区的充电桩位置,要求 1.平移的时候,跟随坐标变化展示不同区域的坐标点信息 2.不同的缩放等级,14以下,展示聚合点数据,14以上,展示真正的站点信息: 3.点击聚合点的时 ...

  10. Windows10 正式企业版激活

    一.镜像 https://www.landiannews.com/archives/51102.html 二.ISO镜像文件比对SHA1值,判定文件是否被篡改 https://msdn.itellyo ...