搜索引擎优化术语表 / X-Robots-Tag

X-Robots-Tag

什么是 X-Robots 标签?

X-Robots-Tag 是 HTTP 响应标头中的一个可选组件,用于通知搜索引擎如何抓取和索引网页。与专用于 HTML 网页的 meta robots 标签不同,X-Robots-Tag 可用于图像、文本文件和 PDF 等非 HTML 文件。

下面是一个带有 X-Robots-Tag 的 HTTP 响应示例:

HTTP/1.1 200 OK Date:Tue, 15 Nov 2022 11:38:17 GMT Content-encoding: gzip (...) X-Robots-Tag: noindex (...)

X-Robots 标签为何重要?

X-Robots 标签非常重要,因为它允许你控制搜索引擎如何索引和抓取 HTML 网页以及其他文件类型。这项功能对于管理内容类型繁多的大型网站尤其有用。主要优势包括

  • 灵活性:将指令应用于 PDF、图片和视频等非 HTML 文件。
  • 全局应用:使用该标签可将规则应用于整个站点或特定目录和文件类型。
  • 正则表达式:采用高级模式,有效锁定多个 URL。

X-Robots-Tag 的通用指令

您可以在 X-Robots-Tag 中使用任何对 meta robots 标签有效的指令。以下是一些常用指令:

  • noindex:防止页面或文件被搜索引擎索引。
  • nofollow:防止搜索引擎跟踪页面上的链接。
  • 无:等同于 "noindex、nofollow"。
  • noarchive:防止搜索引擎显示页面的缓存版本。
  • nosnippet:防止搜索引擎在搜索结果中显示网页片段。

例如,要指示 Googlebot 不要索引或跟踪 PDF 文件中的任何链接,您可以使用

<Files ~ "\.pdf$"> Header set X-Robots-Tag "noindex, nofollow" </Files>

如何设置 X-Robots-Tag

在 Apache 服务器上

您可以在 .htaccess 文件或 httpd.conf 文件中设置 X-Robots-Tag 。以下是如何对所有 PDF 文件应用 noindex 指令:

<Files ~ "\.pdf$"> Header set X-Robots-Tag "noindex" </Files>

在 NGINX 服务器上

对于 NGINX,可以在网站的 .conf 文件中添加指令:

location ~*\.pdf$ { add_header X-Robots-Tag "noindex"; }

为特定爬虫设置指令

您可以通过命名为特定爬虫指定指令:

标题设置 X-Robots-Tag "googlebot: noindex, nofollow"

查看 X-Robots 标签

与 robots 元标签不同,X-Robots-Tag 是 HTTP 响应头的一部分,在 HTML 代码中不可见。下面是如何在 Google Chrome 浏览器中查看它的方法:

  1. 在谷歌浏览器中加载 URL。
  2. 右键单击页面,选择 "检查",打开开发工具。
  3. 选择 "网络 "选项卡。
  4. 重新载入页面。
  5. 在左侧面板上选择相关文件;右侧面板上将显示 HTTP 头信息,包括 X-Robots 标记。

常见问题

我可以在 HTML 网页中使用 X-Robots-Tag 吗?

是的,但它更常用于非 HTML 文件。对于 HTML 网页,在 HTML 代码中使用 meta robots 标签更方便。

如何测试我的 X-Robots-Tag 是否正常工作?

使用浏览器开发工具中的检查工具检查 HTTP 响应头。您还可以使用Google 的 URL 检查工具等在线工具。

X-Robots-Tag 是否可以覆盖 robots.txt?

不,X-Robots-Tag 不能覆盖 robots.txt 指令。如果某个 URL 在 robots.txt 中被禁止,搜索引擎将不会抓取该 URL,因此也不会看到 X-Robots-Tag 指令。

通过了解和正确使用 X-Robots 标签,您可以更精细地控制搜索引擎如何与网站的各种文件类型进行交互,从而提高网站的搜索引擎优化和用户体验。