搜索引擎
  基本工作原理
  信息收集功能
  技术点
SEO优化核心
  优化重点
  SEO优化
    网站URL
    title信息
    meta信息
    图片ALT
    flash信息
    frame框架
  网页重要度特征

  之前有看到一个师兄的个人博客做得很漂亮、每次打开百度后直接搜索该师兄的名字,该博客每次都排列在第一位,很神奇的事情,要知道关于SEO在很多人看来都是一门大学问。故特此简单学习一下搜索引擎的基本知识和SEO,希望能对这方面有所了解!

搜索引擎

基本工作原理

搜索引擎的基本工作原理包括以下三个过程: 
  1、抓取网页。每个独立的搜索引擎都有自己的网页抓取程序爬虫,爬虫通过超链接从一个网站爬到另外一个网站,通过超链接分析连续访问抓取更多网页,被爬取得网页被称为网页快照。 
  爬虫抓取网页的常用策略: 
a.深度优先、b.宽度优先、c.权重优先(层次的多与少;连接的外链多少与质量)、d.重访抓取(全部重访;单个重访) 
  2、处理网页。抓取到了网页后,引擎还要做大量的预处理工作,如数据分析、建立索引库等,才能提供检索服务。其中,最重要的就是提取关键词,建立索引库和索引。其中还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度和复杂度等。 
  数据处理: 
a.网页结构化(删除html代码,提取内容)、b.消噪(留下网页的主题内容)、c.查重(查找重复的页面删除)、d.分词(将内容分为N个单词,排列,存进索引库)、e.链接分析(计算链接权重) 
  3、提供检索服务。由检索器根据用户输入的查询关键字,在索引库中快速检出文档,进行文档和查询的相关度评价,对将要输出的结果进行排序,并将查询结果返回给用户。

信息收集功能

搜索引擎的自动信息收集功能分为两种:

  • 定期搜索(如Google一般为28天,主动搜索提取网站信息和网址加入自己的数据库)
  • 提交网站搜索(网站拥有者主动向搜索引擎提交网址,在一定时间内定向向你的网站进行搜索) 
    当用户以关键字查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法–通常根据网页中关键词的匹配程度、出现位置、频次,链接质量等,计算出个网页的相关度和排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。

技术点

  搜索引擎设计的技术点:技术点主要集中在处理网页和抓取网页部分:如查询处理、排序算法、页面抓取算法、CACHE机制、ANTI-SPAM等等。

SEO优化核心

  SEO:Search Engine Optimization,搜索引擎优化。简单来说就是提高网站搜索友好度、使网站搜索排名提高。

优化重点

  1、网站的程序架构要尽量保持简洁,去除花销的代码,可以尝试JS调用。搜索引擎优化本身就与用户体验相通相倚,相互结合,除此之外,繁琐的代码不但会影响网站页面的加载速度,让用户体验降低。 
  2、做足站内SEO的细节功夫。从大范围上讲,是要对程序进行趋简洁化的修正,而细节来说,就是在URL静态化、title、keyword、description的写法,keyword已经不被搜索引擎投以任何的重视。 
  3、做足站外SEO的方方面面。包括交换友情链接的注意和做普通外链时候应该如何操作、控制等,切勿想着走捷径,想着群发外链或者一次性购买大量高权重外链。这些都是SEO的错误思维和策略。我们一般推荐大家做一般性传统SEO。 
  4、用户体验。在搜索引擎上获得排名的原因是因为我们为用户提供了有价值的内容。从发展角度去看,我们都应该朝着做用户、做产品、做服务的方面去发展。

SEO优化

网站URL

  网站创建具有良好描述性、规范、简单的url,有利于用户更方便的记忆和判断网页的内容,也有利于搜索引擎更有效的抓取你的网站。 
  处理方式:

  • 在系统中只使用正常形式URL,不让用户接触到非正常形式的URL。
  • 不把session id、统计代码等不必要的内容放进URL中。
  • 不同形式的URL,301永久跳转到正常形式。
  • 防止用户输错而启动的备用域名,301永久跳转到主域名。
  • 使用robots.txt禁止Baiduspider抓取您不想向用户展示的形式。

title信息

  网页的title用于告诉用户和搜索引擎这个网页的主要内容是什么,而且当用户在百度网页搜索中搜索到你的网页的时候,title会作为最重要的内容显示在摘要中。搜索引擎在判断一个网页内容权重时,title是主要参考信息之一。 
  描述建议

  • 首页,网站名称,或者网站名称_提供服务介绍or 产品介绍
  • 频道页:频道名称_网站名称
  • 文章页:文章title_频道名称_网站名称 
    需要注意的是: 
    1、标题要主题明确,包含这个网页中最重要的内容。 
    2、简明精炼,不罗列与网站内容不相关的信息。 
    3、用户浏览通常是从左向右的,重要的内容应该放在title的靠前的位置。 
    4、使用用户所熟知的语言描述。

meta信息

  meta description是meta标签的一部分,位于html的区。 
  meta description是对网页内容的精简概括,如果meta description描述与网页内容相符,百度会将meta description当作摘要的选择目标之一。虽然它不是权值计算的参考因素,这个标签存在与否不影响网页权值,只会用作搜索结果摘要的一个选择目标。 
推荐做法: 
  网站首页、频道页、产品参数页等没有大段文字可以用作摘要的网页最合适使用description。 
  为每个网页创建不同meta description,避免所有的页面都使用同样的描述。 
  长度合理,不过长不过短。

图片ALT

  建议为图片加alt说明,因为这样可以让搜索引擎了解图片的内容。

flash信息

  Baiduspider只能读懂文本内容,flash、图片等非文本内容暂时不能处理,放置在flash、图片中的文字,百度无法识别。 
  所以如果一定要使用flash,建议给object标签添加注释信息。 
  这些信息会被看作是对Flash的描述信息。让搜索引擎更好的了解您flash的内容。

frame框架

  不建议使用frame和iframe框架结构,通过iframe显示的内容可能会被百度丢弃。

网页重要度特征

  体现网页重要度的特征有: 
  1、网页的入度大,表明被其他网页引用的次数多。 
  2、某网页的父网页入度大。 
  3、网页的镜像度高,说明网页比较热门,从而显得很重要。 
  4、网页的目录深度小,易于用户浏览到。这里定义的目录深度是指除去域名部分的目录层次。

浅说搜索引擎和SEO的更多相关文章

  1. 2015最新百度搜索引擎(seo优化)排名算法

    多少年来,对于弄清百度排名算法成为了一代又一代站长的最高目标.随着百度推出了搜索引擎网页质量**,直接揭开了神秘的百度排名算法,这是作为站长福音啊.现在小编就来为大家介绍一下. 首先想要得到直接需要的 ...

  2. 网络爬虫与搜索引擎优化(SEO)

    爬虫及爬行方式 爬虫有很多名字,比如web机器人.spider等,它是一种可以在无需人类干预的情况下自动进行一系列web事务处理的软件程序.web爬虫是一种机器人,它们会递归地对各种信息性的web站点 ...

  3. 网站入住各大搜索引擎的seo优化技巧

    最近在公司上班的时候做了一个工业物联网的项目,上层主管提出要求,让这个网站入住各大搜索引擎,也就是说在各大搜索引擎中输入与网站相关的关键字就能搜索到我们自己的网站.刚开始自己一脸懵逼,因为之前自己并没 ...

  4. 网站优化不等于搜索引擎优化SEO

    对于SEO相信搞网络营销的人基本上都知道这个名词,英文全称为search engine optimization,中文一般叫搜索引擎优化,也有的叫搜索引擎定位(Search Engine Positi ...

  5. 网站搜索引擎优化(SEO)的18条守则

    1.永远不要放过网页的title,这个地方应该是你每次优化的重点. 2.请不要在title,deion,keyword里写太多东西,越是贪婪,得到的就越少. 3.网页的头部和底部是很重要的,对于搜索引 ...

  6. 网站搜索引擎优化SEO策略及相关工具资源

    网站优化的十大奇招妙技 1. 选择有效的关键字: 关键字是描述你的产品及服务的词语,选择适当的关键字是建立一个高排名网站的第一步.选择关键字的一个重要的技巧是选取那些常为人们在搜索时所用到的关键字. ...

  7. 82.使用vue后怎么针对搜索引擎做SEO优化?

    什么是SEO 搜索引擎优化(Search engine optimization,简称SEO),指为了提升网页在搜索引擎自然搜索结果中(非商业性推广结果)的收录数量以及排序位置而做的优化行为,是为了从 ...

  8. WordPress博客系统搜索引擎优化seo全攻略方法

    WordPress的文章.评论等很多数据都是存放在数据库的,所以搭建wordpress网站的时间,网站的空间不需要多大,而数据库一定要充足,而在WordPress数据库中主要使用 wp_posts 表 ...

  9. 前端里面如何进行搜索引擎优化(SEO)

    如何进行SEO优化: (1) 避免head标签js堵塞: 所有放在head标签里面的js和css都会堵塞渲染:如果这些css和js需要加载很久的话,那么页面就空白了: 解决办法:一是把script放到 ...

随机推荐

  1. 并发编程(Concurrent programming)

    并发编程(Concurrent programming) 1.并发编程概述 2.委托(delegate) 3.事件(event) 4.线程(thread) 5.线程池(threadPool) 6.任务 ...

  2. 【原】Github+Hexo+NextT搭建个人博客【1】

    该系列博客列表请访问:http://www.cnblogs.com/penglei-it/category/934299.html 摘要 GitHub 是一个开源项目的托管网站,相信很多人都听过.在上 ...

  3. GPT & UEFI Install Windows7

    安装介质以FAT或者FAT32分区安装介质添加UEFI支持文件(Windows7及其以前的系统,不支持UEFI启动) 从Windows8的安装文件中提取Bootmgfw.efi文件,重命名为BOOTX ...

  4. win10安装tensorflow-gpu

    1.安装anaconda (最好使用清华源下载) 2.打开cmd conda create -n tensorflow pip python=3.6 activate tensorflow pip i ...

  5. 机器学习初入门03 - Matplotlib

    这一部分很简单,所以以代码的形式给出,在实际学习开发中,Matplotlib最好只把它当成一个画图的工具来用,没有必要深究其实现原理是什么. 一.折线图的绘制 import pandas as pd ...

  6. Java 8 新特性---------Stream

    Java 8 API添加了一个新的抽象称为流Stream,可以让你以一种声明的方式处理数据. Stream使用一种类似用SQL语句从数据库查询数据的直观方式来提供一种对Java集合运算和表达的高阶抽象 ...

  7. Todo&Rocket

    Todo是怎么实现的? 前面两篇博客分别介绍了MVC和Backbone.js的逻辑,但是实战获真知,在来一篇来显示下Todo是怎么通过Backbone.js连接起来的. 忽略掉所有的代码,我们只是打开 ...

  8. Scrum Meeting NO.4

    Scrum Meeting No.4 1.会议内容 今天我们开始着手重构前端通讯模块的代码.用封装性较好的HttpClient代替了源代码中比较底层的访问方式,并按照约定的json格式处理HttpRe ...

  9. Leetcode题库——47.全排列II

    @author: ZZQ @software: PyCharm @file: permuteUnique.py @time: 2018/11/16 13:34 要求:给定一个可包含重复数字的序列,返回 ...

  10. Adobe X沙箱

    一.Adobe X沙箱简介 Adobe Reader X自从引入沙箱以来,对其攻击的难度就提高了很多.Reader X的沙箱是基于Google的Chrome沙箱,Chrome是开源的,Reader X ...