上文《搜索引擎原理SEO优化上首页之蜘蛛Spider》详细介绍了蜘蛛的分类、抓取入口、抓取策略和更新策略。搜索引擎已把页面抓取回来,接下来是解析页面内容,主要包含判断页面类型、提取页面主题、去除页面噪声、去停止词、中文分词并登记统计、去重建立关键词索引库。

1. 判断页面类型

判断页面是普通页面还是PDF、WPS、PPT、TXT等特殊页面;区分文本、图片、视频等内容形式,识别页面网站论坛、商城、视频站、文字站等。

2. 提取网页主题

目前搜索引擎基本无识别JS、Ajax、Flash、图片、视频、frame和iframe框架结构里面内容,主要抓取文本处理,通过文本关键词检索信息。提取网页Title、Keywords、Description等页面级特征内容。这些特征在网页内容相关性中占很高比重,正常情况,也表明了该网页的主题。

3. 消除页面噪声

消除无关广告、登录框、版权声明等噪声内容,提取主题内容。这部分不是很严谨,各搜索引擎的处理也不尽相同,一般推荐内容、锚文本、导航等还是很有价值。

4. 中文分词

分词是中文搜索引擎特有的步骤,搜索引擎需要识别哪些字可以组合成词,各搜索引擎都有自己的海量词库,基于词库匹配,把网页内容分切,如“旅游景点推荐”可能分成“旅游/景点/推荐”或“旅游景点/景点推荐”等结果。中文分词主要有基于词典的匹配和基于统计两种方式,它们各有优劣,实际使用中都是混合使用这种方法,既可以快速高效,又能识别新词消除歧义。

百度搜索引擎可以通过快照页面,查看输入的文字被分割成什么关键词,如下

分词的目的是为了理解页面内容,会先剔除的、了、得、啊、吧等停止词,这样网页文本的主题内容就更突出。当然虚词也不是绝对的,比如在“啊”为主题介绍该字读音、意义、用法等新华字典页面,“啊”是主题关键词。关键词排名优化就是要不断跟踪和分析搜索引擎的词条和历史数据。

5. 统计分析页面

分词之后,搜索引擎会统计页面各词出现的次数,计算密度,这样搜索引擎就能识别该网页内容相关性。建议大家关键词布局密度在2%~8%之间,太低容易被识别成主题内容相关性低,太高可能会被认定为关键词堆砌作弊,容易受处罚。

内容相关性,除了网页Title、Keywords、Description、词密度外,H标签(H1标签分量也很重,一般用于文章标题,H2,、H3标签也略有效果,一般用于分段主题,H4之后就没作用)、加粗标签标注的内容会明显比其他普通内容更受重视。另外,核心关键词出现在网页前面比后面效果好。锚文本链接相关性作为重要数据收集分析。

6. 去重创建索引

搜索引擎喜欢原创内容,不喜欢大量重复性的内容页,在完成上面步骤就可以对页面内容特征识别,去重重复内容页面。

经过上面流程,已经把记录了页面关键词集合,并记录了词频率、位置、格式(H标签、加粗、锚文本)等权重因子,搜索引擎将页面及关键词表创建索引结构,索引有两种结构:正向索引结构和倒排索引结构。正向索引结构中,每个文件对应一个文件ID,文件内容被表示为关键词的集合。

搜索引擎的用户是通过关键词检索的,正向索引不利于查询效率,搜索引擎会把正向索引转成倒排索引。倒排索引结构是关键词到文件集合的映射。只有被建立索引的页面才会被用户检索到。

收录和索引

收录:只要是能被搜索引擎蜘蛛抓取过,分析后,认为有存在价值的页面,就会被收录。

索引:搜索引擎已经收录了的页面,并认为内容对用户有意义的见面,才可能会被创建索引,才可能有流量。网站排名优化都是基于已经创建了索引的页面。

精灵儿工作室提醒大家,只要网站结构清晰,内容有价值,规律更新网站,然后站长平台提交链接和发外链可以提高搜索引擎对网站的收录和索引量,2~7天seo优化上首页是很有可能的。

百度优先建创建索引的原则

百度蜘蛛抓了多少页面并不是最重要的,重要的是有多少页面被建索引库。搜索引擎的索引库是分层级的,优质的网页会被分配到重要索引库,普通网页会待在普通库,再差一些的网页会被分配到低级库去当补充材料。目前60%的检索需求只调用重要索引库即可满足,这就是为什么有些网站的收录量超高流量却一直不理想。

进入优质索引库的前提是对用户的价值。包括却不仅于:

(1)有时效性且有价值的页面

(2)内容优质的专题页面

(2)高价值原创内容页面

(4)重要个人页面

哪些网页无法建入索引库

上述优质网页进了索引库,那其实互联网上大部分网站根本没有被百度收录。并非是百度没有发现他们,而是在建库前的筛选环节被过滤掉了。最初环节就被过滤的情形:

(1)重复内容的网页

(2)有些内容使用了百度spider无法解析的技术,如JS、Ajax、Flash、图片、视频等

(3)加载速度过慢的网页

(4)很多主体不突出的网页。

(5) 部分作弊网页

SEO优化上首页之搜索引擎原理内容处理与索引的更多相关文章

  1. SEO优化上首页之搜索引擎原理简要

    搜索引擎(Search Engine)是特定的计算机程序,它根据一定的策略.从互联网上搜集信息,对信息进行处理后,为用户提供检索服务,并将用户结果展示给用户. 搜索引擎优化(Search Engine ...

  2. SEO优化上首页之搜索引擎蜘蛛Spider原理

    Spider,蜘蛛,又名网页网络爬虫.网络机器人,是按照一定策略不断抓取互联网网页的特定程序.蜘蛛抓回的页面创建索引后参与排名,等待用户检索.为了网站优化自然排名上首页,精灵儿工作室下面详细剖析Spi ...

  3. SEO优化上首页之搜索引擎作弊案例与反作弊原理

    搜索引擎流量价值巨大,有不少人专门研究排名机制,利用搜索引擎漏洞作弊,寻求快速提高网站排名,进而获取更多的流量和利益,甚至有的网站优化公司专门提供作弊服务.搜索引擎为了杜绝这种情况,必须能过滤大量垃圾 ...

  4. SEO优化上首页之搜索引擎排名规则

    搜索引擎建立索引的网页数以万亿计,用户搜索的关键词也是海量,如果每个用户提交搜索请求后,搜索引擎都去数以万亿的索引中重新排名网页,效率将非常低下.根据2-8法则,80%是查询是集中在相同的20%内容上 ...

  5. SEO优化上首页之搜索引擎用户需求理解

    经过前面<搜索引擎原理SEO优化上首页之网络蜘蛛Spider>和<搜索引擎原理SEO优化上首页之内容处理与创建索引>介绍,搜索引擎已经完成页面抓取和分析,并把原始页面.索引等信 ...

  6. 网站SEO优化如何让百度搜索引擎绝的你的网站更有抓取和收录价值呢?_孙森SEO

    今天孙森SEO为大家唠唠网站到底该如何优化才会让百度搜索引擎绝的你的网站更有抓取和收录价值呢? 第一方面:网站创造高品质的内容,可以为用户提供独特的价值. 1.百度作为搜索引擎,网站内容必须满足 搜索 ...

  7. SEO 网站页面SEO优化之页面title标题优化

    在seo优化中,标题的优化占着举足轻重的地位,无论是从用户体验的角度出发,还是从搜索引擎的排名效果出发,title标题都是页面优化最最重要的因素.笔者总结了优化title标题应该注意的六个方面: ①. ...

  8. VUE的Seo优化 如何实现

    今天看到这样一个问题,在vue中,如何进行seo优化呢? 大家应该都知道,seo优化主要是做搜索引擎的排名,但是ajax异步又不支持seo,同时对于url #/的写法,搜索引擎也没办法爬取网站内其他路 ...

  9. WEB前端-搜索引擎工作原理与SEO优化

    一.搜索引擎工作原理 搜索引擎的工作分为三个阶段,即爬行,索引和检索 1.爬行  搜索引擎具有网络爬虫或蜘蛛来执行爬网,每次抓取工具访问网页时,它都会复制该网页并将其网址添加到索引中. 在“蜘蛛”抓取 ...

随机推荐

  1. Android UI组件----用相对布局RelativeLayout做一个登陆界面

    [声明] 欢迎转载,但请保留文章原始出处→_→ 生命壹号:http://www.cnblogs.com/smyhvae/ 文章来源:http://www.cnblogs.com/smyhvae/p/3 ...

  2. pjax 和 ajax 的区别

    pjax 是一个 jQuery 插件,它通过 ajax 和 pushState 技术提供了极速的(无刷新 ajax 加载)浏览体验,并且保持了真实的地址.网页标题,浏览器的后退(前进)按钮也可以正常使 ...

  3. 在 Linux 上创建虚拟机规模集和部署高度可用的应用

    利用虚拟机规模集,可以部署和管理一组相同的.自动缩放的虚拟机. 可以手动缩放规模集中的 VM 数,也可以定义规则,以便根据资源使用情况(如 CPU 使用率.内存需求或网络流量)进行自动缩放. 在本教程 ...

  4. MySQL案例09:Last_IO_Error: Got fatal error 1236 from master when reading data from binary log

    刚处理完“挖矿”事件,在做最后一个MySQL NBU备份的时候,发现从库有问题,好奇的是怎么主从状态异常没有告警呢?先不管这么多了,处理了这个问题再完善告警内容. 一.错误信息 从库show slav ...

  5. iOS设计模式 - 责任链

    iOS设计模式 - 责任链 原理图 说明 在责任链模式里,很多对象由每一个对象对其下家的引用而连接起来形成一条链.请求在这个链上传递,直到链上的某一个对象决定处理此请求.发出这个请求的客户端并不知道链 ...

  6. [翻译] BKZoomView

    BKZoomView https://github.com/freshking/BKZoomView A UIView that will zoom into its parent view. It ...

  7. UITabBar设置详解

    UITabBar设置详解 效果图 说明 1. 设置tabBarItem中的图片以及标题 2. 设置标题文本样式 3. 修改tabBar背景色 源码 https://github.com/YouXian ...

  8. Hadoop HBase概念学习系列之HBase里的高表设计概念(表设计)(二十八)

    在下面这篇博文里,我给各位博客们,分享了创建HBase表,但这远不止打好基础. HBase编程 API入门系列之create(管理端而言)(8) 在关系型数据库里,表的高表和宽表是不存在的.在如HBa ...

  9. ZT CSDN 如何以最快的速度计算出一个二进制数中1的个数? [

    一道算法面试题:如何以最快的速度计算出一个二进制数中1的个数? [问题点数:10分,结帖人weicai_chen] 收藏 weicai_chen weicai_chen 等级: 结帖率:95.12% ...

  10. 【ORACLE】使用中注意事项(二)

    问题1:ORACLE在插入数据的时候,有时候中文变成????? 原因:由于当前计算机的字符集和服务器上的字符集不一致,导致中文乱码. 解决方案: 在当前使用的计算机中设置环境变量 在我的电脑上右键属性 ...