我们应该应用的指令是

Data used to track, manage, and optimize resources.
Post Reply
nusaiba129
Posts: 651
Joined: Tue Dec 24, 2024 3:59 am

我们应该应用的指令是

Post by nusaiba129 »

通过创建 robots.txt 文件,我们可以将信息发送给各种索引机器人或关注一个特定的收件人。最常见的解决方案是向所有可用搜索引擎的机器人发送指令。


用户代理:*

然而,专门针对 Google 机器人的正确构建规则如下所示:

用户代理:Googlebot

禁止和允许
这些规则定义特定机器人可以访问哪些 URL 和目录。

爬虫程序可以自动访问页面上的所有 URL。考虑到上述抓取 波斯尼亚和黑塞哥维那电报数据库 预算,一个好的解决方案是阻止访问某些子页面。

这正是 Disallow 指令的用途。

用户代理:Gogglebot

禁止:/wp-admin/

那么为什么我们需要允许规则?

在每种情况下,我们可能都必须处理异常。这同样适用于机器人对网站子页面的访问。如果阻止规则里面有一个URL我们想允许爬虫访问,我们可以使用Allow命令。

在这种情况下,正确的构造如下所示

用户代理:Googlebot

禁止:/wp-admin/

允许:/wp-admin/admin-ajax.php/

我们还可以拆分文件,为不同搜索引擎的机器人包含不同的规则,从而创建两个单独的指令。

Sitemap.xml 文件
robots.txt 文件也是放置 XML 站点地图 URL 的最佳位置。这使得索引机器人更容易访问网站的子页面。 XML 格式的站点地图 支持 SEO 流程并显示网站的层次结构。

根据Google的指南,地图URL应该完整,以便搜索引擎机器人能够正确读取。
Post Reply