通过创建 robots.txt 文件,我们可以将信息发送给各种索引机器人或关注一个特定的收件人。最常见的解决方案是向所有可用搜索引擎的机器人发送指令。
用户代理:*
然而,专门针对 Google 机器人的正确构建规则如下所示:
用户代理:Googlebot
禁止和允许
这些规则定义特定机器人可以访问哪些 URL 和目录。
爬虫程序可以自动访问页面上的所有 URL。考虑到上述抓取 波斯尼亚和黑塞哥维那电报数据库 预算,一个好的解决方案是阻止访问某些子页面。
这正是 Disallow 指令的用途。
用户代理:Gogglebot
禁止:/wp-admin/
那么为什么我们需要允许规则?
在每种情况下,我们可能都必须处理异常。这同样适用于机器人对网站子页面的访问。如果阻止规则里面有一个URL我们想允许爬虫访问,我们可以使用Allow命令。
在这种情况下,正确的构造如下所示
用户代理:Googlebot
禁止:/wp-admin/
允许:/wp-admin/admin-ajax.php/
我们还可以拆分文件,为不同搜索引擎的机器人包含不同的规则,从而创建两个单独的指令。
Sitemap.xml 文件
robots.txt 文件也是放置 XML 站点地图 URL 的最佳位置。这使得索引机器人更容易访问网站的子页面。 XML 格式的站点地图 支持 SEO 流程并显示网站的层次结构。
根据Google的指南,地图URL应该完整,以便搜索引擎机器人能够正确读取。