上文《搜索引擎原理SEO优化上首页之蜘蛛Spider》详细介绍了蜘蛛的分类、抓取入口、抓取策略和更新策略。搜索引擎已把页面抓取回来,接下来是解析页面内容,主要包含判断页面类型、提取页面主题、去除页面噪声、去停止词、中文分词并登记统计、去重建立关键词索引库。

1. 判断页面类型

判断页面是普通页面还是PDF、WPS、PPT、TXT等特殊页面;区分文本、图片、视频等内容形式,识别页面网站论坛、商城、视频站、文字站等。

2. 提取网页主题

目前搜索引擎基本无识别JS、Ajax、Flash、图片、视频、frame和iframe框架结构里面内容,主要抓取文本处理,通过文本关键词检索信息。提取网页Title、Keywords、Description等页面级特征内容。这些特征在网页内容相关性中占很高比重,正常情况,也表明了该网页的主题。

3. 消除页面噪声

消除无关广告、登录框、版权声明等噪声内容,提取主题内容。这部分不是很严谨,各搜索引擎的处理也不尽相同,一般推荐内容、锚文本、导航等还是很有价值。

4. 中文分词

分词是中文搜索引擎特有的步骤,搜索引擎需要识别哪些字可以组合成词,各搜索引擎都有自己的海量词库,基于词库匹配,把网页内容分切,如“旅游景点推荐”可能分成“旅游/景点/推荐”或“旅游景点/景点推荐”等结果。中文分词主要有基于词典的匹配和基于统计两种方式,它们各有优劣,实际使用中都是混合使用这种方法,既可以快速高效,又能识别新词消除歧义。

百度搜索引擎可以通过快照页面,查看输入的文字被分割成什么关键词,如下

分词的目的是为了理解页面内容,会先剔除的、了、得、啊、吧等停止词,这样网页文本的主题内容就更突出。当然虚词也不是绝对的,比如在“啊”为主题介绍该字读音、意义、用法等新华字典页面,“啊”是主题关键词。关键词排名优化就是要不断跟踪和分析搜索引擎的词条和历史数据。

5. 统计分析页面

分词之后,搜索引擎会统计页面各词出现的次数,计算密度,这样搜索引擎就能识别该网页内容相关性。建议大家关键词布局密度在2%~8%之间,太低容易被识别成主题内容相关性低,太高可能会被认定为关键词堆砌作弊,容易受处罚。

内容相关性,除了网页Title、Keywords、Description、词密度外,H标签(H1标签分量也很重,一般用于文章标题,H2,、H3标签也略有效果,一般用于分段主题,H4之后就没作用)、加粗标签标注的内容会明显比其他普通内容更受重视。另外,核心关键词出现在网页前面比后面效果好。锚文本链接相关性作为重要数据收集分析。

6. 去重创建索引

搜索引擎喜欢原创内容,不喜欢大量重复性的内容页,在完成上面步骤就可以对页面内容特征识别,去重重复内容页面。

经过上面流程,已经把记录了页面关键词集合,并记录了词频率、位置、格式(H标签、加粗、锚文本)等权重因子,搜索引擎将页面及关键词表创建索引结构,索引有两种结构:正向索引结构和倒排索引结构。正向索引结构中,每个文件对应一个文件ID,文件内容被表示为关键词的集合。

搜索引擎的用户是通过关键词检索的,正向索引不利于查询效率,搜索引擎会把正向索引转成倒排索引。倒排索引结构是关键词到文件集合的映射。只有被建立索引的页面才会被用户检索到。

收录和索引

收录:只要是能被搜索引擎蜘蛛抓取过,分析后,认为有存在价值的页面,就会被收录。

索引:搜索引擎已经收录了的页面,并认为内容对用户有意义的见面,才可能会被创建索引,才可能有流量。网站排名优化都是基于已经创建了索引的页面。

精灵儿工作室提醒大家,只要网站结构清晰,内容有价值,规律更新网站,然后站长平台提交链接和发外链可以提高搜索引擎对网站的收录和索引量,2~7天seo优化上首页是很有可能的。

百度优先建创建索引的原则

百度蜘蛛抓了多少页面并不是最重要的,重要的是有多少页面被建索引库。搜索引擎的索引库是分层级的,优质的网页会被分配到重要索引库,普通网页会待在普通库,再差一些的网页会被分配到低级库去当补充材料。目前60%的检索需求只调用重要索引库即可满足,这就是为什么有些网站的收录量超高流量却一直不理想。

进入优质索引库的前提是对用户的价值。包括却不仅于:

(1)有时效性且有价值的页面

(2)内容优质的专题页面

(2)高价值原创内容页面

(4)重要个人页面

哪些网页无法建入索引库

上述优质网页进了索引库,那其实互联网上大部分网站根本没有被百度收录。并非是百度没有发现他们,而是在建库前的筛选环节被过滤掉了。最初环节就被过滤的情形:

(1)重复内容的网页

(2)有些内容使用了百度spider无法解析的技术,如JS、Ajax、Flash、图片、视频等

(3)加载速度过慢的网页

(4)很多主体不突出的网页。

(5) 部分作弊网页

SEO优化上首页之搜索引擎原理内容处理与索引的更多相关文章

  1. SEO优化上首页之搜索引擎原理简要

    搜索引擎(Search Engine)是特定的计算机程序,它根据一定的策略.从互联网上搜集信息,对信息进行处理后,为用户提供检索服务,并将用户结果展示给用户. 搜索引擎优化(Search Engine ...

  2. SEO优化上首页之搜索引擎蜘蛛Spider原理

    Spider,蜘蛛,又名网页网络爬虫.网络机器人,是按照一定策略不断抓取互联网网页的特定程序.蜘蛛抓回的页面创建索引后参与排名,等待用户检索.为了网站优化自然排名上首页,精灵儿工作室下面详细剖析Spi ...

  3. SEO优化上首页之搜索引擎作弊案例与反作弊原理

    搜索引擎流量价值巨大,有不少人专门研究排名机制,利用搜索引擎漏洞作弊,寻求快速提高网站排名,进而获取更多的流量和利益,甚至有的网站优化公司专门提供作弊服务.搜索引擎为了杜绝这种情况,必须能过滤大量垃圾 ...

  4. SEO优化上首页之搜索引擎排名规则

    搜索引擎建立索引的网页数以万亿计,用户搜索的关键词也是海量,如果每个用户提交搜索请求后,搜索引擎都去数以万亿的索引中重新排名网页,效率将非常低下.根据2-8法则,80%是查询是集中在相同的20%内容上 ...

  5. SEO优化上首页之搜索引擎用户需求理解

    经过前面<搜索引擎原理SEO优化上首页之网络蜘蛛Spider>和<搜索引擎原理SEO优化上首页之内容处理与创建索引>介绍,搜索引擎已经完成页面抓取和分析,并把原始页面.索引等信 ...

  6. 网站SEO优化如何让百度搜索引擎绝的你的网站更有抓取和收录价值呢?_孙森SEO

    今天孙森SEO为大家唠唠网站到底该如何优化才会让百度搜索引擎绝的你的网站更有抓取和收录价值呢? 第一方面:网站创造高品质的内容,可以为用户提供独特的价值. 1.百度作为搜索引擎,网站内容必须满足 搜索 ...

  7. SEO 网站页面SEO优化之页面title标题优化

    在seo优化中,标题的优化占着举足轻重的地位,无论是从用户体验的角度出发,还是从搜索引擎的排名效果出发,title标题都是页面优化最最重要的因素.笔者总结了优化title标题应该注意的六个方面: ①. ...

  8. VUE的Seo优化 如何实现

    今天看到这样一个问题,在vue中,如何进行seo优化呢? 大家应该都知道,seo优化主要是做搜索引擎的排名,但是ajax异步又不支持seo,同时对于url #/的写法,搜索引擎也没办法爬取网站内其他路 ...

  9. WEB前端-搜索引擎工作原理与SEO优化

    一.搜索引擎工作原理 搜索引擎的工作分为三个阶段,即爬行,索引和检索 1.爬行  搜索引擎具有网络爬虫或蜘蛛来执行爬网,每次抓取工具访问网页时,它都会复制该网页并将其网址添加到索引中. 在“蜘蛛”抓取 ...

随机推荐

  1. 你写的什么垃圾代码让Vsync命令不能及时处理呢?(2)

    接上篇 1.TraceView Traceview看起来复杂,其实很简单: 上部分图中,X代表时间消耗,Y轴代表各个线程中的方法,且使用了不同颜色表示.面积越款,时间越长. 下部分为分析面板,分析面板 ...

  2. 转 Js窗体window大小设置

    网页可见区域宽:document.body.clientWidth  网页可见区域高:document.body.clientHeight  网页可见区域宽:document.body.offsetW ...

  3. [IIS] IIS网站对文件读写无权限的解决方案(Access等)

    Access数据库无写权限:在NTFS文件安全属性中加入对IIS_IUSRS用户的修改权限即可.

  4. MySQL 5.7.24 privileges有哪些?

    root@localhost:3306.sock [mysql]>select version();+------------+| version()  |+------------+| 5.7 ...

  5. 全网数据定时备份方案[cron + rsync]

    1.1.1. Rsync(远程同步)介绍 [Rsync等价scp  cp  rm共3个命令的和] 1.什么是Rsync: Linux下面开源的,很快,功能很多,可以实现全量及增量的本地或者远程数据同步 ...

  6. 第0篇 如何访问win10的C$等默认共享

    近日换新机器,装了win10,但想从旧机器访问win10的\\ip\D$拷数据过去,首先发现怎么也连不上win10的共享,于是把win10防火墙中“文件和打印机共享”的“专用”(即内网)勾选上终于可以 ...

  7. 剑指offer 07斐波那契数列

    现在要求输入一个整数n,请你输出斐波那契数列的第n项(从0开始,第0项为0).n<=39 java版本: public class Solution { public static void m ...

  8. 如何访问WEB-INFO目录中的jsp文件

    说明:应用服务器把WEB-INF指为禁访目录,即直接在浏览器里是不能访问的. 如何访问如下: 1.在项目的web.xml文件中去配置servlet <servlet> <servle ...

  9. zabbix的日常监控-API

    Zabbix API提供两项主要功能: 远程管理Zabbix配置 远程检索配置和历史数据 官方文档:https://www.zabbix.com/documentation/3.4/zh/manual ...

  10. javascript 大中小括号的区别

    小括号 JavaScript中小括号有五种语义 语义1,函数声明时参数表 function func(arg1,arg2){ // ... } 语义2,和一些语句联合使用以达到某些限定作用 // 和f ...