SEO_网站优化_培训教程_新站整站快速排名_【上排名】
8年只专研SEO算法,10万+网站SEO经验,大数据模型化分析,平台系统化操作,先优化排名后付费,全方位解决企业SEO难题。百度排名第一

什么是robots.txt有什么作用以及如何使用它

什么是robots.txt文件以及如何使用它

一般信息

  • robots.txt语法的基础知识
  • 用法示例

Robots.txt和SEO

  • 删除图像排除
  • 添加对sitemap.xml文件的引用
  • 杂项评论

Robots.txt – 常规信息

Robots.txt是位于站点根目录中的文本文件,用于指定搜索引擎的爬虫和蜘蛛您想要或不希望他们访问的网站页面和文件。通常,网站所有者会努力被搜索引擎注意到,但有些情况下不需要它:例如,如果您存储敏感数据,或者您希望通过不对带有图像的重页进行索引来节省带宽。

当爬虫访问站点时,它首先请求名为“/robots.txt”的文件。如果找到此类文件,则爬网程序会检查它是否有网站索引说明。

注意:网站只能有一个robots.txt文件。需要将插件域的robots.txt文件放置到相应的文档根目录。

robots.txt文件由包含两个字段的行组成:一行包含用户代理名称(搜索引擎抓取工具),以及一条或多条以指令

Disallow是表示什么意思呢?

disallow 一般是用在robots.txt中的。表示禁止搜索引擎抓取。
Disallow,正是robots.txt文件中设置禁止搜索引擎收录哪些目录的一个词语。
如:
1. 允许所有SE(搜索引擎)收录本站:robots.txt为空就可以,什么都不要写。
2. 禁止所有SE(搜索引擎)收录网站的某些目录:
User-agent: *
Disallow: /目录名1/
Disallow: /目录名2/
Disallow: /目录名3/
3. 禁止某个SE(搜索引擎)收录本站,例如禁止百度:
User-agent: Baiduspider
Disallow: /
4. 禁止所有SE(搜索引擎)收录本站:
User-agent: *
Disallow: /
它的用途是告诉上一子集,确定某个对象用的。

 Disallow开头的行: 

Robots.txt包含以UNIX文本格式创建。

robots.txt语法的基础知识

通常,robots.txt文件包含如下内容:

User-agent:*
Disallow:/ cgi-bin /
Disallow:/ tmp /
Disallow:/〜different /

在这个例子中有三个目录:’/ cgi -bin /’,’/ tmp /’和’/ ~infacy /’从索引中排除。

注意:每个目录都写在一个单独的行上。你不能在一行中写’Disallow:/ cgi-bin / / tmp /’,也不能将一个指令Disallow或User-agent分成几行 – 使用一个新行将指令彼此分开。

用户代理字段中的“星标”(*)表示“任何网络爬虫”。因此,不支持“Disallow:* .gif”或“User-agent:Mozilla *”类型的指令 – 请注意这些逻辑错误,因为它们是最常见的错误。

其他常见的错误是拼写错误 – 错误拼写的目录,用户代理,在User-agent和Disallow之后缺少冒号等。当你的robots.txt文件变得越来越复杂,并且很容易出错时,有一些验证派上用场的工具:https://tools.aizhan.com/robots/
使用示例

以下是robots.txt用法的一些有用示例:

防止所有网络抓取工具对整个网站进行索引:

用户代理:*
禁止:/ 

允许所有网络抓取工具为整个网站编制索引:

  用户代理:*
禁止: 


仅防止索引中的多个目录:

User-agent:*
Disallow:/ cgi-bin / 


防止特定Web爬网程序对站点进行索引:

User-agent:Bot1
Disallow:/ 

允许对特定Web爬网程序进行索引并阻止对其他人进行索引:

User-agent:Opera 9
Disallow:
User-agent:*
Disallow:/ 

防止索引中的所有文件,除了一个文件。

这很难,因为指令’Allow’不存在。相反,您可以将所有文件移动到某个子目录并阻止其索引,但允许索引的文件除外:

User-agent:*
Disallow:/ docs / 

您也可以在此处使用在线robots文件生成器。

Robots.txt和SEO

删除图像

排除某些CMS版本中的默认robots.txt文件设置为排除图像文件夹。在最新的CMS版本中不会出现此问题,但需要检查旧版本。

这种排除意味着您的图片不会被编入索引并包含在百度图片搜索中,这是您想要的,因为它会增加您的搜索引擎优化排名。

如果您想更改此设置,请打开robots.txt文件并删除以下行:

   Disallow:/ images / 

添加对sitemap.xml文件的引用 

如果您有一个sitemap.xml文件(并且您应该增加它,因为它会增加你的搜索引擎优化排名),最好在robots.txt文件中包含以下行:

  例如seoorsem网站的sitemap:http://www.seoorsem.com/sitemap.xml 

(此行需要使用您的域名和站点地图文件进行更新)。

杂项评论

  • 默认情况下,不要阻止CSS,Javascript和其他资源文件。这可以防止百度蜘蛛正确呈现网页并了解您的网站是否针对移动设备进行了优化。
  • 您还可以使用该文件来阻止对特定页面进行索引,例如登录页面或404页面,但最好使用漫游器元标记。
  • 将disallow语句添加到robots.txt文件不会删除内容。它只是阻止访问蜘蛛。如果有要删除的内容,最好使用元无索引。
  • 通常,永远不应使用robots.txt文件来处理重复内容。还有更好的方法,比如Rel = canonical标签,它是网页HTML头部的一部分。
  • 请记住,robots.txt并不精确。您可以使用其他工具,这些工具可以做得更好,例如百度和360网站站长工具中的参数处理工具,x-robots-tag和元机器人标记。

根据你的网站结构阻止

每一个博客可以通过各种方式构建:

a)基于类别
b)基于标签
c)在两者的基础上 – 没有一个
d)基于日期的档案

a)如果您的网站是按类别结构化的,则无需将标记归档编入索引。在“ 设置”菜单下的“ 永久链接”选项页中找到您的标记库。如果该字段留空,则标记库只是“标记”:    禁止:/ tag / b)如果您的网站是标记结构,则需要阻止类别存档。找到您的类别库并使用以下指令: Disallow:/ category / c)如果同时使用类别和标签,则不需要使用任何指令。如果你不使用它们,你需要阻止它们: Disallow:/ tags /    Disallow:/ category / d)

如果您的网站是基于基于日期的存档构建的,您可以通过以下方式阻止这些存档:

Disallow:/ 2010 /
Disallow:/ 2011 /
Disallow:/ 2012 /
Disallow:/ 2013 / 

注意:您无法使用Disallow:/ 20 * / here这样的指令将阻止每个以数字“20”开头的博文或页面。

WordPress中的重复内容问题

默认情况下,WordPress具有重复的页面,这对您的SEO排名没有任何好处。要修复它,我们建议您不要使用robots.txt,而是采用更微妙的方式:’rel = canonical’标记,用于在网站的部分放置唯一正确的规范网址。这样,网络抓取工具只会抓取网页的规范版本。

打赏
版权声明:本文为seoorsem原创文章,转载请附上博文链接!排名第一 » 什么是robots.txt有什么作用以及如何使用它
分享到: 更多 (0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

强烈推荐

高性能SSD云服务器ECS抗攻击,高可用云数据库RDS

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏