如何屏蔽各大AI公司爬虫User Agent
罗列各大AI公司Scraper爬虫Crawler使用的User Agent,教您如何在robots.txt里面屏蔽这些爬虫的访问,禁止它们下载您的网站内容以训练 AI 模型,保护数据,降低带宽,防止宕机
GPTBot
GPTBot 是 OpenAI 使用的网络爬虫,用于下载 LLM(大型语言模型)的训练数据,为 ChatGPT 等人工智能产品提供支持。
30%的大站屏蔽了它
User-agent: GPTBot
Disallow: /
ChatGPT-User
ChatGPT-User 由 OpenAI 的 ChatGPT 根据用户prompts提示派遣的。它的回答通常包含网站内容摘要,而不是直接转发给用户。
10%的大站屏蔽了它
User-agent: ChatGPT-User
Disallow: /
cohere-ai
Cohere 是一家提供高级 LLM(大型语言模型)访问权限的公司,其他公司可利用这些 LLM 增强其人工智能产品。cohere-ai 是一个未经确认的代理,可能由 Cohere 的人工智能聊天产品在需要检索互联网内容时根据用户prompts提示派遣。
1%的大站屏蔽了它
User-agent: cohere-ai
Disallow: /
Google-Extended
Google-Extended 是谷歌用来下载人工智能训练内容的网络爬虫,用于其人工智能产品(如 Bard 和 Vertex 人工智能生成应用程序接口)。
11%的大站屏蔽了它
User-agent: Google-Extended
Disallow: /
CCBot
CCBot 是 Common Crawl 使用的一种网络爬虫,用于维护一个开放源代码的网络爬行数据存储库,任何人都可以使用该存储库。该资源库已被用于训练许多 LLM(大型语言模型),包括 OpenAI 的 GPT-3。
13%的大站屏蔽了它
User-agent: CCBot
Disallow: /
Omgilibot
Omgilibot 是 Webz.io 用来维护网络抓取数据存储库的网络爬虫,Webz.io 将其出售给其他公司,包括那些用它来训练人工智能模型的公司。
1%的大站屏蔽了它
User-agent: omgilibot
Disallow: / User-agent: omgili
Disallow: /
FacebookBot
FacebookBot 是 Meta 用来下载人工智能语音识别技术训练数据的网络爬虫。
0%的大站屏蔽了它
User-agent: FacebookBot
Disallow: /
anthropic-ai
anthropic-ai 是一个未经证实的代理,可能是 Anthropic 用来下载 LLM(大型语言模型)训练数据的,比如AI产品Claude。
2%的大站屏蔽了它
User-agent: anthropic-ai
Disallow: /
Twitterbot
Twitterbot 是一个常用的代理。它目前没有被归类为人工智能或与人工智能相关的任何类别。Twitter现更名为X。不确定是不是Grok的User Agent。埃隆-马斯克Elon Musk的人工智能公司 xAI 推出了一款名为 Grok 的人工智能聊天机器人。
11%的大站屏蔽了它
User-agent: Twitterbot
Disallow: /
更多AI公司爬虫User Agent不定时更新
如何屏蔽各大AI公司爬虫User Agent的更多相关文章
- AI时代大点兵-国内外知名AI公司2018年最新盘点
AI时代大点兵-国内外知名AI公司2018年最新盘点 导言 据腾讯研究院统计,截至2017年6月,全球人工智能初创企业共计2617家.美国占据1078家居首,中国以592家企业排名第二,其后分别是英国 ...
- 【贪心科技】贪心科技内容合伙人关于AI公司及创业的演讲笔记
贪心科技内容合伙人关于AI公司及创业的演讲笔记 视频 目录 一.投资角度对 AI 的两个基本认知 二.简单分析 AI 公司的两个纬度四个层面 三.AI 垂直行业应用的三点中美对比 四.给创业者的四个建 ...
- 全球百大最有前景AI公司出炉,中国成独角兽最强诞生地
https://new.qq.com/omn/20190210/20190210B0BVK2.html 硅谷最强智库之一的 CB Insights 日前发布 AI 100 2019 报告,在这 100 ...
- 计算机硕士工资一览表 08年最新各大IT公司薪水行
编号:1017时间:2016年6月13日11:26:20功能:计算机硕士工资一览表 08年最新各大IT公司薪水行 URL :http://blog.csdn.net/icerock2000/artic ...
- 大IT公司笔试
都是一些非常非常基础的题,是我最近参加各大IT公司笔试后靠记忆记下来的,经过整理献给与我一样参加各大IT校园招聘的同学们,纯考Java基础功底,老手们就不用进来了,免得笑话我们这些未出校门的孩纸们,但 ...
- 2013应届毕业生各大IT公司待遇整理汇总篇(转)
不管是应届毕业生还是职场中人,在找工作时都必然会对待遇十分关注,而通常都是面试到最后几轮才知道公司给出的待遇.如果我们事先就了解大概行情,那么就会在面试之前进行比较,筛选出几个心仪的公司,这样才能集中 ...
- 世界十大OTA公司盘点
世界十大OTA公司盘点 文/刘照慧(执惠旅游联合创始人,首发百度百家) 全球在线旅游公司(OTA)经过多年发展,已经形成较为成熟的商业模式,各大巨头跑马圈地,格局初现, 这两篇文章就梳理出全球按市值( ...
- 各大IT公司校园招聘程序猿笔试、面试题集锦
转自:http://blog.csdn.net/hackbuteer1/article/details/7959921#t4 百度一面 1.给定一个字符串比如“abcdef”,要求写个函数编程“def ...
- 2013各大IT公司薪资标准
以此鼓励自己 :http://jinhua.19lou.com/forum-874-thread-115901362964023509-1-1.html 以下三个是老大级别的公司 [微软] 研 ...
- AI 公司与比赛
科大讯飞 网站:https://www.iflytek.com/ 比赛:http://challenge.xfyun.cn/2019/ AI 大学:https://www.aidaxue.com/ 华 ...
随机推荐
- Web攻防--JNDI注入--Log4j漏洞--Fastjson反序列化漏洞
JNDI注入 什么是JNDI JNDI全称为 Java Naming and Directory Interface(Java命名和目录接口),是一组应用程序接口,为开发人员查找和访问各种资源提供了统 ...
- KRPANO资源分析工具下载网展全景图
示:目前分析工具中的全景图下载功能将被极速全景图下载大师替代,相比分析工具,极速全景图下载大师支持更多的网站(包括各类KRPano全景网站,和百度街景) 详细可以查看如下的链接: 极速全景图下载大师官 ...
- web应用及微信小程序版本更新检测方案实践
背景: 随着项目体量越来越大,用户群体越来越多,用户的声音也越来越明显:关于应用发版之后用户无感知,导致用户用的是仍然还是老版本功能,除非用户手动刷新,否则体验不到最新的功能:这样的体验非常不好,于是 ...
- 解决WPF+Avalonia在openKylin系统下默认字体问题
一.openKylin简介 openKylin(开放麒麟) 社区是在开源.自愿.平等和协作的基础上,由基础软硬件企业.非营利性组织.社团组织.高等院校.科研机构和个人开发者共同创立的一个开源社区,致力 ...
- Python使用socket的UDP协议实现FTP文件服务
简介 本示例主要是用Python的socket,使用UDP协议实现一个FTP服务端.FTP客户端,用来实现文件的传输.在公司内网下,可以不适用U盘的情况下,纯粹使用网络,来实现文件服务器的搭建,进而实 ...
- 08-03_阅读flask上下文前夕补充、flask请求上下文、数据库连接池
文章目录 阅读flask上下文前夕补充 01 偏函数 02 __add__的使用 03 chain函数 2 flask请求上下文 1 首先分析请求上下文对象(ctx)创立 2 把请求对象(ctx)添加 ...
- Redis系列之——Redis-Cluster
文章目录 一 Redis Cluser介绍背景 1.1问题 1.2 解决 二 数据分布(分布式数据库) 2.1 存在问题 2.2 分区方式 2.2.1 顺序分区 2.2.2 哈希分区 2.2.2 .1 ...
- PostgreSQL学习笔记-3.基础知识:CROSS、INNER、LEFT OUTER、RIGHT OUTER、FULL OUTER、UNION
PostgreSQL JOIN 子句用于把来自两个或多个表的行结合起来,基于这些表之间的共同字段. 在 PostgreSQL 中,JOIN 有五种连接类型: CROSS JOIN :交叉连接INNER ...
- 记一次Redis Cluster Pipeline导致的死锁问题
作者:vivo 互联网服务器团队- Li Gang 本文介绍了一次排查Dubbo线程池耗尽问题的过程.通过查看Dubbo线程状态.分析Jedis连接池获取连接的源码.排查死锁条件等方面,最终确认是因为 ...
- Groovy初学者指南
本文已收录至GitHub,推荐阅读 Java随想录 微信公众号:Java随想录 原创不易,注重版权.转载请注明原作者和原文链接 目录 Groovy & Java Groovy语法 动态类型 元 ...