Page 1 of 1

关键是要有意识地使用 disallow 指令

Posted: Tue Dec 24, 2024 9:53 am
by nusaiba129
。 尽管 Lidl.de 使用 Disallow 指令 /cc.js* 阻止了单个 JavaScript 文件,但似乎它不会影响网站的渲染过程。这里要注意的重要一点是,它们只阻止单个 JavaScript 文件,不会影响网站上的其他 URL 路径。因此,他们使用的所有其他 JavaScript 和 CSS 资源应该仍然可以被爬虫访问。 拥有一个大型电子商务网站,您可能很容易忘记所有添加的指令。


始终尽可能多地包含要阻止抓取的 URL 的路径片段。这将帮助您避免错误地阻止 俄罗斯电话号码库 一些关键页面。 4. JavaScript 从网站删除主要内容 如果您使用未优化的 JavaScript 来提供网站上的主要内容(例如产品说明),则会阻止抓取工具查看网页上最重要的信息。 因此,寻找有关您产品的具体详细信息的潜在客户可能无法在 Google 上找到此类内容。 罪魁祸首:Walmart.com 使用Quick JavaScript Switcher扩展,您可以轻松禁用页面上所有 JavaScript 生成的元素。


这就是我在Walmart.com 的一个产品页面上所做的: 如上所示,产品描述部分在禁用 JavaScript 后消失了。我决定使用“site:”命令来检查 Google 是否可以索引此内容。我复制了启用 JavaScript 后在页面上看到的产品描述片段。但是,Google 并没有显示我正在寻找的确切产品页面。 用户会执着地通过 Walmart.com 寻找特定产品吗?他们可能会,但他们也可以前往任何其他销售此商品的商店。