什么是 X-Robots 标签？

X-Robots-Tag

X-Robots-Tag 是 HTTP 响应标头中的一个可选组件，用于通知搜索引擎如何抓取和索引网页。与专用于 HTML 网页的 meta robots 标签不同，X-Robots-Tag 可用于图像、文本文件和 PDF 等非 HTML 文件。

下面是一个带有 X-Robots-Tag 的 HTTP 响应示例：

HTTP/1.1 200 OK Date：Tue, 15 Nov 2022 11:38:17 GMT Content-encoding: gzip (...) X-Robots-Tag: noindex (...)

X-Robots 标签为何重要？

X-Robots 标签非常重要，因为它允许你控制搜索引擎如何索引和抓取 HTML 网页以及其他文件类型。这项功能对于管理内容类型繁多的大型网站尤其有用。主要优势包括

您可以在 X-Robots-Tag 中使用任何对 meta robots 标签有效的指令。以下是一些常用指令：

例如，要指示 Googlebot 不要索引或跟踪 PDF 文件中的任何链接，您可以使用

<Files ~ "\.pdf$"> Header set X-Robots-Tag "noindex, nofollow" </Files>

您可以在 .htaccess 文件或 httpd.conf 文件中设置 X-Robots-Tag 。以下是如何对所有 PDF 文件应用 noindex 指令：

<Files ~ "\.pdf$"> Header set X-Robots-Tag "noindex" </Files>

对于 NGINX，可以在网站的 .conf 文件中添加指令：

location ~*\.pdf$ { add_header X-Robots-Tag "noindex"; }

您可以通过命名为特定爬虫指定指令：

标题设置 X-Robots-Tag "googlebot: noindex, nofollow"

与 robots 元标签不同，X-Robots-Tag 是 HTTP 响应头的一部分，在 HTML 代码中不可见。下面是如何在 Google Chrome 浏览器中查看它的方法：

是的，但它更常用于非 HTML 文件。对于 HTML 网页，在 HTML 代码中使用 meta robots 标签更方便。

使用浏览器开发工具中的检查工具检查 HTTP 响应头。您还可以使用Google 的 URL 检查工具等在线工具。

不，X-Robots-Tag 不能覆盖 robots.txt 指令。如果某个 URL 在 robots.txt 中被禁止，搜索引擎将不会抓取该 URL，因此也不会看到 X-Robots-Tag 指令。

通过了解和正确使用 X-Robots 标签，您可以更精细地控制搜索引擎如何与网站的各种文件类型进行交互，从而提高网站的搜索引擎优化和用户体验。