Robots.txt在项目中的运用

在开发公司一个项目的过程中，有这样一个需求

该网站上面有一个search功能，可以search该网站上的任何包括特定内容的网页

现在有一个需求，就是针对几个特定的页面，我们希望网站上的search功能查找不到它们，同时呢，还需要搜索引擎(比如 google, bing等)无法搜索到这几个页面

关于网站上自带的search功能查找不到这几个网页，在后台使用C#代码就可以实现

而如何来确保搜索引擎(eg: google, bing等)无法搜索到这几个页面，如何实现呢

我采取的是使用Robots.txt来实现

Robots.txt原来的内容如下:

User-agent: *

Sitemap: https://mysite.com/sitemap.xml

这个表示任何搜索引擎，抓取工具的用户代理都可以访问这个网站的所有页面资源. 网站的地图文件位于 https://mysite.com/sitemap.xml

假设我们需要针对搜索引擎屏蔽的文件如下:

https://mysite.com/mytest1

https://mysite.com/mytest2

https://mysite.com/mytest3

那么，我们需要修改Robots.txt文件如下

User-agent: *

Sitemap: https://mysite.com/sitemap.xml

disallow: /mytest1

disallow: /mytest2

disallow: /mytest3

这样，就可以确保这三个页面不被任何搜索引擎抓取

Robots.txt在项目中的运用的更多相关文章

Linux企业级项目实践之网络爬虫（29）——遵守robots.txt
Robots协议(也称为爬虫协议.机器人协议等)的全称是"网络爬虫排除标准"(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以 ...
robots.txt网站爬虫文件设置
目录: 什么是robots.txt robots.txt使用误区 robots.txt使用技巧什么是robots.txt? robots.txt是搜索引擎中访问网站的时候要查看的第一个文件.Robo ...
细说robots.txt
robots.txt Robots协议(也称为爬虫协议.机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可 ...
网站robots.txt探测工具Parsero
网站robots.txt探测工具Parsero robots.txt文件是网站根目录下的一个文本文件.robots.txt是搜索引擎中访问网站的时候要查看的第一个文件.当搜索引擎访问一个站点时,它 ...
网络爬虫 robots协议 robots.txt
网络爬虫网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成.传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上 ...
爬虫之robots.txt
robots是网站跟爬虫间的协议,用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限,也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件. 当一个搜索蜘蛛访问一个站点时,它 ...
web之robots.txt
什么是roots协议 robots协议也叫robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被 ...
前端项目中的必要文件-【robots.txt】
放在src文件下:: robots.txt 告诉搜索引擎,该网站的被允许扒取得网页和静止扒取得 facicon.ico 网站地址栏的显示图 humans.txt ...
在Prefetcher中取消robots.txt的限制
Robots.txt是一种专门用于搜索引擎网络爬虫的文件,当构造一个网站时,如果作者希望该网站的内容被搜索引擎收录,就可以在网站中创建一个纯文本文件robots.txt,在这个文件中,声明该网站不想被 ...

随机推荐

web框架详解之tornado 三 url和分页
一.代码目录构建 controllers :处理业务逻辑的 account:处理账户相关的上面目录作用和内容 controllers 包 :处理业务逻辑的 account:处理账户相关的 home ...
something important
docker run ubuntu /bin/echo 'Hello world' 运行这条命令,docker做了什么 Well, Docker containers only run as long ...
关于 tornado.simple_httpclient SimpleAsyncHTTPClient fetch下载大文件，默认60s的问题
遇到了线上发布任务失败的情况,要发布的包大小77M,网络OK,手动测试速度是1.7M,下载77M文件用时17s左右,理论上完全没有问题但是,从日志看确实是download的时候,60s 超时了,而且 ...
sqlite3简单教程整理
一.Ubuntu下安装sqlite3 1.介绍:sqlite3是linux上的小巧的数据库,一个文件就是一个数据库. 2.安装: 要安装sqlite3,可以在终端提示符后运行下列命令: sud ...
python_unittest详解
一整体结构概览 unittest原名为PyUnit,是由java的JUnit衍生而来.对于单元测试,需要设置预先条件,对比预期结果和实际结果. 整体结构:unittest库提供了test cases ...
HIVE- 大数据运维之hive管理
我现在在一家公司负责大数据平台(CDH平台)的运维管理,最常遇见的问题我总结出来,并且继续在下面更新.希望方便自己以后trouble shooting以及方便各位同行解决问题与学习. 关于做运维有几个 ...
python的字符串操作函数之一览
s.strip(chars) s.find(x,start,end) s.index(x.start,end)#见上: s.format()#见上: s.partition(x)#见上: s.repl ...
CSS缎带效果
1. [代码]ribbon.html <!DOCTYPE HTML><html><head><style type="text/css&qu ...
jenkins-小知识点
如果想停止jenkins运行控制面板-服务-查看本地服务-选中jenkins 1.启动类型改为手动 2.改为禁止使用的时候,每次都改一下状态
Linux-awk command
简介 awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大.简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再 ...

Robots.txt在项目中的运用

Robots.txt在项目中的运用的更多相关文章

随机推荐

热门专题