我们应该应用的指令是

nusaiba129 · Post by **nusaiba129** » Sun Mar 23, 2025 10:02 am

通过创建 robots.txt 文件，我们可以将信息发送给各种索引机器人或关注一个特定的收件人。最常见的解决方案是向所有可用搜索引擎的机器人发送指令。

用户代理：*

然而，专门针对 Google 机器人的正确构建规则如下所示：

用户代理：Googlebot

禁止和允许
这些规则定义特定机器人可以访问哪些 URL 和目录。

爬虫程序可以自动访问页面上的所有 URL。考虑到上述抓取波斯尼亚和黑塞哥维那电报数据库预算，一个好的解决方案是阻止访问某些子页面。

这正是 Disallow 指令的用途。

用户代理：Gogglebot

禁止：/wp-admin/

那么为什么我们需要允许规则？

在每种情况下，我们可能都必须处理异常。这同样适用于机器人对网站子页面的访问。如果阻止规则里面有一个URL我们想允许爬虫访问，我们可以使用Allow命令。

在这种情况下，正确的构造如下所示

用户代理：Googlebot

禁止：/wp-admin/

允许：/wp-admin/admin-ajax.php/

我们还可以拆分文件，为不同搜索引擎的机器人包含不同的规则，从而创建两个单独的指令。

Sitemap.xml 文件
robots.txt 文件也是放置 XML 站点地图 URL 的最佳位置。这使得索引机器人更容易访问网站的子页面。 XML 格式的站点地图支持 SEO 流程并显示网站的层次结构。

根据Google的指南，地图URL应该完整，以便搜索引擎机器人能够正确读取。