robots.txt使用和优化技巧

一、利于网站优化的robots.txt使用技巧

1、在线建站提供方便之路。当我们将域名解析到服务器，可以访问站点了，可是这个时候站点还没有布局好，meta标签还一塌糊涂。乳沟此时的站点被搜索引擎蜘蛛抓取收录了，到时再更改就很不利于SEO优化。这时就可以利用robots.txt文件来设置所有搜索引擎蜘蛛不允许查询站点的所有内容。其语法格式为：

User-agent: *
Disallow: /

2、定制搜索引擎蜘蛛抓取指定内容，能让你根据站点情况来选择怎样和搜索引擎打交道。这里有两层意思。

（1）定制搜索引擎。如果你不屑度娘的所作所为的话，可以这样子让它只能对你吹胡子瞪眼。其语法格式为：

User-agent: baiduspider
Disallow: /

注：常见的搜索引擎机器人名称。

名称                                             搜索引擎
Baiduspider                               http://www.baidu.com
Scooter                                       http://www.altavista.com
ia_archiver                                 http://www.alexa.com
Googlebot                                  http://www.google.com
FAST-WebCrawler                   http://www.alltheweb.com
Slurp                                           http://www.inktomi.com
MSNBOT                                  http://search.msn.com

（2）定制站点内容。也就是说你可以指定某个目录允许spider爬行，某个目录禁止spider爬行。如所有搜索引擎蜘蛛，允许抓取目录abc下的内容，禁止抓取目录def下的内容，其语法格式为：

User-agent: *
Allow: /abc/
Disallow: /def/

3、引导搜索引擎抓取网站内容。这里最典型的做法有

（1）引导蜘蛛抓取你的网站地图。其语法格式为：

User-agent: *
sitemap：sitemap-url

（2）防止蜘蛛抓取你的网站重复内容。

4、404错误页面问题。如果你的服务器自定应了404错误页面而在你站点根目录没有配置robots.txt文件，那么搜索引擎蜘蛛会将其视为robots.txt文件，这将影响搜索引擎对你网站页面的收录。

二、特定程序建站robots.txt的写法。这里只是提供通用的，具体的情况自己斟酌哦。

1、DedeCMS建站的robots.txt文件写法

User-agent: *
Disallow: /plus/feedback_js.php
Disallow: /plus/feedback.php
Disallow: /plus/mytag_js.php
Disallow: /plus/rss.php
Disallow: /plus/search.php
Disallow: /plus/recommend.php
Disallow: /plus/stow.php
Disallow: /plus/count.php
Disallow: /include
Disallow: /templets
Disallow: /member

2、WordPress建站的robots.txt文件写法

User-agent: *
Disallow: /wp-admin
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-includes
Disallow: /?s=
Sitemap: http://www.***.com/sitemap.xml

3、phpcms建站的robots.txt文件写法

User-agent: *
Disallow: /admin
Disallow: /data
Disallow: /templates
Disallow: /include
Disallow: /languages
Disallow: /api
Disallow: /fckeditor
Disallow: /install
Disallow: /count.php
Disallow: /comment
Disallow: /guestbook
Disallow: /announce
Disallow: /member
Disallow: /message
Disallow: /spider
Disallow: /yp
Disallow: /vote
Disallow: /video

4、discuz论坛的robots.txt文件写法

User-agent: *
Allow: /redirect.php
Allow: /viewthread.php
Allow: /forumdisplay.php
Disallow: /?
Disallow: /*.php

转载自：http://www.chinaz.com/web/2011/0324/167374.shtml

robots.txt使用和优化技巧的更多相关文章

SEO优化-robots.txt解读
一.什么是robots.txt robots.txt 文件由一条或多条规则组成.每条规则可禁止(或允许)特定抓取工具抓取相应网站中的指定文件路径. 通俗一点的说法就是:告诉爬虫,我这个网站,你哪些能看 ...
网站SEO优化之Robots.txt文件写法。
作为网站开发者或网站管理员一定知道网站对搜索引擎的优化有多重要,好的网站不仅要有漂亮的界面,良好的用户体验,还要有较高的更新频率.要被百度.google这样的搜索引擎大量收录,才能增加网站展示量,访问 ...
织梦dedecms网站六大SEO优化技巧（转帖）
一个排名好的网站离不开好的cms,当然不同cms各有各的好处,因此我们在上线新网站的时候,要针对不同的情况因地制宜,选择不同的网站管理系统来做seo优化,现在使用比较流行的cms是织梦dedecms, ...
SEO优化技巧总结
SEO优化技巧总结一:了解搜索引擎基础知识搜索引擎:由蜘蛛程序沿着链接爬行和抓取网上的大量页面,存进数据库,经过预处理,用户在搜索框输入关键词后,搜索引擎排序从数据库中挑选出符合搜索关键词要求 ...
robots.txt网站爬虫文件设置
目录: 什么是robots.txt robots.txt使用误区 robots.txt使用技巧什么是robots.txt? robots.txt是搜索引擎中访问网站的时候要查看的第一个文件.Robo ...
网站之robots.txt文件
一.robots.txt是什么? robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被搜索引擎访问的部分,或者指定搜索引擎只收录指定的内容. 当一个搜索引擎(又称搜索 ...
网络安全：robots.txt防止向黑客泄露后台地址和隐私目录的写法
做优化的朋友都知道网站的robots的目的是让搜索引擎知道我们网站哪些目录可以收录,哪些目录禁止收录.通常情况蜘蛛访问网站时,会首先检查你的网站根目录是否有robots文件,如果有,则会根据此文件来进 ...
SEO之robots.txt
[关键词:robot.txt,sitemap,User-Agent,Disallow,Allow][声明:摘自Wikipedia] 1. 定义:robots.txt(统一小写)是一种存放于网站根目录下 ...
MySQL 性能优化技巧
原文地址:MySQL 性能优化技巧博客地址:http://www.extlight.com 一.背景最近公司项目添加新功能,上线后发现有些功能的列表查询时间很久.原因是新功能用到旧功能的接口,而这 ...

随机推荐

js如何判断客户端是iOS还是Android等移动终端
判断原理:JavaScript是前端开发的主要语言,我们可以通过编写JavaScript程序来判断浏览器的类型及版本.JavaScript判断浏览器类型一般有两种办法,一种是根据各种浏览器独有的属性来 ...
剑指offer-从上往下打印二叉树22
题目描述从上往下打印出二叉树的每个节点,同层节点从左至右打印. class Solution: # 返回从上到下每个节点值列表,例:[1,2,3] def PrintFromTopToBottom( ...
https的主体过程
https其实就是基于SSL的http.加密后的http信息按理是不会被篡改和查看的. https的过程总体上是按照下面来进行的: 1.客户端发起请求,服务端返回一个SSL证书,证书里面有一公钥A. ...
ZOJ 2532 Internship（最大流找关键割边）
Description CIA headquarter collects data from across the country through its classified network. Th ...
Java 集合框架之 Map
Hashtable Hashtable 的实例有两个参数影响其性能:初始容量和加载因子.容量是哈希表中桶的数量,初始容量就是哈希表创建时的容量.注意,哈希表的状态为 open:在发生“哈希冲突” ...
Alpha 冲刺4
队名:日不落战队安琪(队长) 今天完成的任务组织第四次站立式会议. 完成40%草稿箱前端界面. 明天的计划剩下的60%草稿箱前端界面. 如果还有时间,尝试去调用数据. 还剩下的任务回收站前端界 ...
Alpha 冲刺3
队名:日不落战队安琪(队长) 今天完成的任务组织第三次站立式会议. 完成了个人信息前端界面. 明天的计划草稿箱前端界面. 个人信息扩展界面框架. 还剩下的任务回收站前端界面. 信息修改前端界面 ...
nuget程序包还原失败:未能解析此远程名称
一个简便的方法就是取消下载缺少的程序包. 步骤如下: 1,工具--NuGet程序包管理器--程序包管理器设置 2,NuGet Package Manager--常规,取消勾选.
/var/redis/run/redis_6379.pid exists, process is already running or crashed的解决办法
命令:service redis start /var/redis/run/redis_6379.pid exists, process is already running or crashed 引 ...
重载和const参数
const仅能用于在定义函数签名时,区分是为引用定义参数,还是为指针定义参数.定义基本类型type(如int等),从重载的观点来看,const int和int是相同的. const long& ...

robots.txt使用和优化技巧

robots.txt使用和优化技巧的更多相关文章

随机推荐

热门专题