当前位置: 首页 > news >正文

SEO系列--robots.txt的用法

原文网址:SEO系列--robots.txt的用法-CSDN博客

简介

本文介绍网站的robots.txt文件的用法。

Robots是站点与搜索引擎爬虫沟通的重要渠道,站点通过robots文件声明本网站中不想被搜索引擎抓取的部分或者只让搜索引擎抓取指定内容。

搜索引擎使用spider(爬虫)程序自动获取网页信息。spider访问网站时,首先检查该网站根域下是否有robots.txt的纯文本文件,比如:https://example.com/robots.txt。

如果robots.txt不存在或者为空文件,表示允许所有的搜索引擎robot访问和收录。

robots.txt文件格式

robots.txt文件放置于根目录下,比如:https://example.com/robots.txt,包含一条或更多的记录,这些记录通过回车分割。

一条记录的格式如下所示:

<field>:<optional space><value><optionalspace>
  1. 可以使用#进行注解
  2. 通常以一行或多行User-agent开始,后面加上若干Disallow和Allow行

通配符

可以使用通配符*和$来模糊匹配url。

*:匹配0或多个任意字符
$:匹配行结束符。

User-agent

该项的值用于描述搜索引擎robot的名字。至少要有一条User-agent记录。如果有多条User-agent记录说明有多个robot会受到"robots.txt"的限制。

如果设为*,则允许所有robot访问。即:User-agent:*。(这样的记录只能有一条)。

如果加入"User-agent:SomeBot"和若干Disallow、Allow行,那么名为"SomeBot"只受到"User-agent:SomeBot"后面的 Disallow和Allow行的限制。

Disallow

表示不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀。

例如:

  • Disallow:/help:禁止robot访问/help.html、/helpabc.html、/help/index.html
  • Disallow:/help/:允许robot访问/help.html、/helpabc.html,不能访问/help/index.html。

Allow

表示允许访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀。

例如:

  • Allow: /hibaidu:允许robot访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。

Sitemap

表示站点地图的地址:

Sitemap: https://abc.com/mysitemap.txt

对于百度来说,支持以下两种Sitemap格式:

  1. txt文本格式
  2. xml格式

示例

最常用的配置 

User-agent: *
Allow: /
Disallow: /*?*Sitemap: https://abc.com/mysitemap.xml

例1.允许所有的robot访问

User-agent: *
Allow: /

(或者也可以建一个空文件robots.txt)。

一般情况下,防止参数里有垃圾信息,导致网站收录量变少或被ban,要禁止带参数:

User-agent: *
Allow: /
Disallow: /*?*

例2.禁止所有搜索引擎访问网站的任何部分

user-agent: *
Disallow: /

例3.仅禁止Baiduspider访问您的网站

user-agent: Baiduspider
Disallow: /

例4.仅允许Baiduspider访问您的网站

User-agent: Baiduspider
Allow: /User-agent:*
Disallow: /

例5.仅允许Baiduspider以及Googlebot访问

User-agent: Baiduspider
Allow: /User-agent: Googlebot
Allow: /User-agent: *Disallow: /

例6.禁止spider访问特定目录

User-agent: *
Disallow: /cgi-bin/
Disallow: /~joe/

在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,不允许robot访问这三个目录。需要注意的是:对每一个目录必须分开声明,而不能写成这样:Disallow: /cgi-bin/ /temp/

例7.允许访问特定目录中的部分url

User-agent: *
Allow:/tmp/hi
Allow: /~joe/look
Allow: /cgi-bin/see
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/

例8.使用*限制访问url

禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。

User-agent: *
Disallow: /cgi-bin/*.htm


例9.使用$限制访问url

仅允许访问以.htm为后缀的URL。

User-agent: *
Allow: *.htm$
Disallow: /

例10.禁止Baiduspider抓取网站上所有图片

仅允许抓取网页,禁止抓取任何图片。

user-agent: Baiduspider
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /".pngs
Disallow: /*.bmps

例12.仅允许Baiduspider抓取网页和.gif格式图片

允许抓取网页和gif格式图片,不允许抓取其他格式图片

User-agent: Baiduspider
Allow: * .gif$
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.png$
Disallow: /*.bmp$

例13.仅禁止Baiduspider抓取.Jpg格式图片

User-agent: Baiduspider
Disallow: /*.jpg$

http://www.lryc.cn/news/293473.html

相关文章:

  • 环形链表(快慢指针)
  • vue day06
  • ffmpeg 输入文件,输入出udp-ts 指定pid、Programid ts流参数
  • 操作系统透视:从历史沿革到现代应用,剖析Linux与网站服务架构
  • 金蝶82新建员工信息维护菜单,并新建导入模板,导入时出现不能在此处导入模板
  • 套你npm镜像
  • [网络安全]IIS---FTP服务器 、serverU详解
  • 校园自助洗浴设施运维服务认证的介绍
  • NetCore iText7 根据PDF模板 导出PDF文件
  • Notion 开源替代品:兼容 Miro 绘图 | 开源日报 No.162
  • LangChain 81 LangGraph 从入门到精通三
  • Python学习从0到1 day13 Python数据容器.4.set集合、dict字典,映射
  • Java生成微信小程序二维码的方式有哪些?
  • 一箭11星,吉利未来出行星座第二个轨道面部署完成!
  • 【持续学习系列(九)】《Continual Learning with Pre-Trained Models: A Survey》
  • redis的AOF
  • TDengine 签约杭州云润,助力某大型水表企业时序数据处理
  • 迷宫(蓝桥杯省赛C/C++)
  • Elastic Search
  • elementUI中el-tree组件单选没有复选框时,选中、current-node-key高亮、刷新后保留展开状态功能的实现
  • Ubuntu上开启FTP服务教程
  • C语言数组指针详解与应用
  • 计算机服务器中了DevicData勒索病毒如何解密,DevicData勒索病毒解密流程
  • 面试150 位1的个数 位运算
  • Mysql的BufferPool
  • 嵌入式中物联网核心技术有哪些
  • C语言入门到精通之练习36:一个最优美的图案(在TC中实现)。
  • 【Nginx】nginx入门
  • 【数据结构】并查集(路径压缩)
  • FreeMark ${r‘原样输出‘} ${r“原样输出“}