soso官方：搜索引擎的对检索结果常用的评测方法

http://www.wocaoseo.com/thread-188-1-1.html
很久很久以前，搜索引擎还不象今天的百花齐放，人们对它的要求较低，只要它能把互连网上相关的网站搜出来，搜到的网站尽量多一点，无关的网站能少一点就能满足。所以那时候，人们评测搜索引擎的方法是用几个关键词，测试对比它们的搜索速度、搜索数量和无关网站的多少。简单说就是全快准。而那时的搜索引擎技术大家差别不大，所以这样的评测方法是可行的。

　　此后，独特的搜索引擎技术此起彼伏，层出不穷，到现在明显处于战国时代。但是，人们的评测方法却没多大变化，现在常见的评测还是简单的用几个关键词比较搜索速度、搜索结果数量和各自介绍的搜索准确性。

　　远的不说，就在2001年第一季度升级后的askjeeves，你既可以象打普通电话一样在任何地方用手中的任何电话拨通askjeeves的电话号码，也可以在线惦记页面上的标记进入在线语音状态，用你电脑上的话筒和音箱交流。然后你随便口头向它提一个要求，它会把你的语音转换成文字，然后分析你的要求，到它的700万标准问题答案、200万多媒体和其他储备库以及internet上去寻找答案，找到后再转换成语音回答你。

　　想象一下，如果你问它：“最近美国大选悬而未决，美国人怎么想？”过了一会儿，电脑或电话回答你：“根据最新的调查，假如最后是布什当选，80%的美国人会接受他为合法总统，假如最后是戈尔当选，79%的美国人会接受他为合法总统。”如果你问它：“上届世界杯决赛的球都是谁进的？“ 它在回答你姓名的同时还调出决赛进球的音视频片段让你欣赏（当然音视频片段的前提是你用的不是电话而是电脑）。

　　虽然，askjeeves认为它们的语音转换功能和搜索速度已经到了可以商业化的程度，但它还是会有很多不成熟之处的，如果拿几个关键词来测试它的搜索速度和查准率、查全率，和众多的普通搜索引擎相比，该把它排在哪里呢？如果排在很后边，难道它就是很差劲的搜索引擎吗？

　　单是评测internet搜索引擎已是件很难的事，而很多评测结果是给普通网民看的，势必要把Yahoo，新浪等门户包括进去，对于它们而言，internet搜索只是一部分，其它各种搜索功能怎么办？你要是不算，偏偏网民用得多；要是算吧，更是一团乱麻，何从比起？

我们先分析一下几个重要评测要素的能力缺陷：
一：查全率

　　既然是搜索引擎，首先比搜索范围是天经地义的事，如果这条不及格，后边的评测好象也不用参加了。由于收录网页的数量都是各搜索引擎自己宣布的，未可全信，而同一个关键词的搜索结果却是显而易见的，所以一般的评测都以这个为准。

　　但以这个为准还是有很多毛病，多数象样一点的搜索引擎我都可以找出一批关键词来证明它的搜索结果是最全的。因为网页索引数量虽然有大小，但robot和spider程序不同，索引范围和索引标准也不尽相同，在最大的搜索引擎上搜不到的有可能在小得多的搜索引擎上搜到。

　　有的搜索引擎支持“的，about，了，of，啊，么”等虚词助词搜索，有的不支持，这又如何来比？哪次评测提到过？

关键词除了内容难选择，在长短上也不好定。有的搜索引擎完全不支持单个汉字搜索，怎么算它？一般都只比较单关键词搜索，而多关键词的搜索呢？长句的搜索呢？甚至有搜索引擎能支持任意文章或片段作为关键词，这样比较出来的结果跟单关键词搜索出来的可是不一样的，更别提没法比的功能了。象excite这样语义搜索的引擎，还有支持模糊搜索的引擎，别的搜索引擎搜索结果极少甚至为零的关键词它们可以搜出一大堆结果，这又如何比较？

　　最后一点，搜索引擎是可以针对特定的关键词进行结果优化的，评测的公正性谁来保证？如果其中某个被评测搜索引擎事先知道所用的关键词，那么只要轻松优化一下，冠军就非它莫属了。
二：搜索速度

　　比完了查全率，就该比搜索速度了，如果有搜索引擎索引的网页虽多，但是搜索一次要五、六秒或更长，直接请它出局吧，没有比下去的意义了。

　　速度的问题首先还是在关键词，单关键词搜索快的不一定多关键词搜索快。

　　然后是访问量的问题，对一个日访问量一亿以上的搜索引擎和一个日访问量几万的搜索引擎作同样的测试本身已是不公平。

　　还有网页索引数量的问题，一个搜索引擎索引了10亿的网页，另一个搜索引擎索引了一千万的网页，让它们对同一个关键词在各自的数据库里搜索比搜索速度，这样的结果如何让人信服？

　　除了事先优化的问题外，有的搜索引擎本就具有记忆搜索结果加速调用的能力，一个关键词哪怕第一词搜索花了10秒，第二次搜索也许就2秒了，第三次，第四次，到你去测试的时候已经永远是0.0001秒了。这样，如果你选常见词测试，它快得惊人，如果来个偏僻词，也许老半天出不来，到底该选什么关键词？常用和偏僻各占多少？这真是一笔糊涂帐。

　　搜索引擎不是放在实验室的本地机上测试用的，而是给普通网友用的，所以这搜索时间应该还包括搜索界面和搜索结果的传输过程在内。一个搜索引擎搜索时间花了0.0001秒，但是传输结果网页花了3秒，另一个搜索花了0.5秒，但是传输网页结果花了一秒，你说哪个搜索引擎算快？真正用的时候，你选那个3.0001秒以后看到搜索结果的还是1.5秒以后看到搜索结果的？
三：查准率

　　这个相当重要，搜到的东西即使又多又快，但你想要的那条结果不知道要翻多少页才能找到，那这搜索结果要来何用？这样的搜索引擎只有在查稀罕东西时才有用，但是要查稀罕东西应该去元搜索引擎呀，干吗要用它？查准率的评价标准很难定，得看你查什么，你要查一个特定的网站和找一群相似网站根本就是两回事。查准率的关键还是在于要搜什么和选择什么关键词，评测人可以随意定夺的，然后影响到评测结果的可靠性。
四：死链接

　　普通搜索引擎总有些搜索结果是点不进去的，少到百分之一二，多到百分之八九，这个也常被用作评测条件之一。但是象google使用了网页快照功能，几乎不存在死链接问题，就算搜索结果中的那个网站已关闭，你还是可以看到google自己储存的网页。这种死链接怎么计算？
五：用户负担

　　还没见过国内搜索引擎评测有谁用过这一项，但它是评价搜索引擎优劣的重要因素，包括很多方面。搜索引擎是给人用的，一定要让人用得舒服方便快捷，任何妨碍和延迟用户到达最终搜索结果的都算用户负担。

　　首先是搜索界面，一个只有搜索框的纯粹搜索引擎界面跟一个带有广告和大量网页内容的门户相比，它们带给用户的搜索负担是高下立判的。

　　其次是搜索结果描述，搜索结果网页的文字描述是长还是短，网页文字描述采用索引带关键词的部分还是索引网页的开始几行还是索引网页的主要内容，关键词是否高亮显示又采用什么颜色，是否显示网页地址，还有搜索结果页面的布局，这些对于用户的搜索负担区别大大的有。

　　再者就是对用户操作步骤的影响，是否可以用鼠标启动搜索，搜索结果每页显示数量是否只有10条，翻页的便捷与否，搜索框是两个还是一个，放在上边还是下边，一次搜索后关键词是否还在搜索框中显示，这些每一条都会影响搜索效率。
六：其它还有

   是否支持Site搜索，

   internet索引数据库更新时间长短，

   搜索引擎的稳定性，

   对高级搜索的支持能力强弱等也应该加以评测。

　　一个人想得不一定周到，可能还有其它重要评测要素没被我提及，网友若想到，望告知。看到这里，大家对目前常用搜索引擎评测方法的局限性一定有所了解了。soso官方：搜索引擎的对检索结果常用的评测方法 ...

本主题由 jiaoda015 于 6 分钟前移动

soso官方：搜索引擎的对检索结果常用的评测方法的更多相关文章

soso官方：网页分类技术介绍
http://www.wocaoseo.com/thread-190-1-1.html 1. 技术背景分类问题是人类所面临的一个非常重要且具有普遍意义的问题.将事物正确的分类,有助于人 ...
soso官方：基于相关排序的判断
http://www.wocaoseo.com/thread-186-1-1.html 议程概述检索词用户的信息需求网页的自有信息网页的附属信息相关性的计算框架概述相关性的表象检索词 ...
（摘录）26个ASP.NET常用性能优化方法
数据库访问性能优化数据库的连接和关闭访问数据库资源需要创建连接.打开连接和关闭连接几个操作.这些过程需要多次与数据库交换信息以通过身份验证,比较耗费服务器资源. ASP.NET中提供了连接池(Co ...
python字符串常用内置方法
python字符串常用内置方法定义: 字符串是一个有序的字符的集合,用与存储和表示基本的文本信息. python中引号中间包含的就是字符串. # s1='hello world' # s2=&quo ...
26个ASP.NET常用性能优化方法
数据库访问性能优化数据库的连接和关闭访问数据库资源需要创建连接.打开连接和关闭连接几个操作.这些过程需要多次与数据库交换信息以通过身份验证,比较耗费服务器资源. ASP.NET中提供了连接池(Co ...
【终结版】C#常用函数和方法集汇总
C#里面的常用的函数和方法非常重要,然而做题的时候会经常忘记这些封装好的方法,所以我总结一下 C#常用函数和方法集. [1]C#操作字符串的常用使用方法在 C# 中,您可以使用字符数组来表示字符串, ...
SERVLET类常用接口及方法
SERVLET类常用接口及方法 2011-09-09 16:14:43 [size=xx-small]SERVLET类常用接口及方法2007年04月05日星期四 04:46 P.M.基本类和接 ...
sphinx中文版Coreseek中文检索引擎安装和使用方法(Linux)
sphinx中文版Coreseek中文检索引擎安装和使用方法(Linux) 众所周知,在MYSQL数据库中,如果你在百万级别数据库中使用 like 的话那你一定在那骂娘,coreseek是一个 ...
Python | Python常用函数、方法示例总结（API）
目录前言 1. 运算相关 2. Sring与数字 3. 列表相关 4. 集合相关 5. 序列化类型 6. 字典相关 7. 输入输出 8. 文件相关 9. json模块 10. unittest测试模 ...

随机推荐

Python 字典(Dictionary) items()方法
描述 Python 字典(Dictionary) items() 函数以列表返回可遍历的(键, 值) 元组数组.高佣联盟 www.cgewang.com 语法 items()方法语法: dict.it ...
EC R 87 div2 D. Multiset 线段树树状数组二分
LINK:Multiset 主要点一下二分和树状数组找第k大的做法. 线段树的做法是平凡的开一个数组实现就能卡过. 考虑如树状数组何找第k大二分+查询来判定是不优秀的. 考虑树状数组上倍增来做. ...
luogu P3829 [SHOI2012]信用卡凸包凸包点的旋转
LINK:信用卡凸包当 R==0的时候显然是一个点的旋转之后再求凸包即可. 这里先说点如何旋转如果是根据原点旋转的话经过一个繁杂的推导可以得到一个矩阵. [cosw,-sinw] [sinw, ...
（数据科学学习手札91）在Python中妥善使用进度条
本文示例代码已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介在日常运行程序的过程中常常涉及到循环迭代过程,对 ...
day9.关于文件的操作
一.文件操作 """ fp = open("文件名",mode="模式",encoding="utf-8") ...
Spring中使用MyBatis Generator
简介 MyBatis Generator 是由MyBatis官方提供的MyBatis代码生成器.可以根据数据库表生成相关代码,比如POJO.Mapper接口.SQL Map xml等. 使用方式 MB ...
自身写Android组合多个布局的经历
今天不总结课程了,留着有时间补上. 今天的是ExpandListView,就是可以扩展的列表视图. 今天我做了个总结,然后模仿了扣扣的聊天界面,仅仅写了三个页面而已,用到的xml和活动就不下于10个, ...
学习 Python，这 22 个包怎能不掌握？
如今全球各个行业内 Python 的使用状况怎么样呢? 很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手.很多已经做案例的人,却不知道如何去 ...
PhpStorm配置Apache与php的运行环境详细教程
本文主要说明如何在phpstorm中配置已经安装好的PHP与apache.首先需要在本地安装php,这里我安装的是phpstudy 进入PHPstorm的界面点击file 下的settings 在La ...
2020-07-23：开启rdb后，redis的启动流程是怎样的？
福哥答案2020-07-23: Redis 在完成初始化全局服务器配置,加载配置文件,初始化服务器,开始加载持久化的数据到内存中.如果启用了 appendonly 了,则Redis从 appendfi ...

soso官方：搜索引擎的对检索结果常用的评测方法

soso官方：搜索引擎的对检索结果常用的评测方法的更多相关文章

随机推荐

热门专题