如何管理大型网站的抓取预算

news2024/12/28 4:14:53

优化您的网站,以便 Google 更快地找到您的内容并将您的内容编入索引,这可以帮助您的网站获得更好的知名度和流量。

互联网是一个不断发展的虚拟世界,拥有超过 1 亿个网站。

你认为谷歌可以抓取世界上的每一个网站吗?

即使拥有谷歌拥有的所有资源、资金和数据中心,它甚至无法抓取整个网络——也不想这样做。

什么是抓取预算,它重要吗?

抓取预算是指 Googlebot 在抓取网域中的网页所花费的时间和资源。

优化您的网站非常重要,这样 Google 才能更快地找到您的内容并将您的内容编入索引,这可以帮助您的网站获得更好的知名度和流量。

如果您有一个拥有数百万个网页的大型网站,那么管理您的抓取预算以帮助 Google 抓取您最重要的网页并更好地了解您的内容尤为重要。

谷歌声明:

如果您的网站没有大量快速变化的网页,或者您的网页似乎在发布当天就被抓取了,那么保持站点地图是最新的并定期检查索引覆盖率就足够了。谷歌还指出,每个页面都必须经过审查、整合和评估,以确定在抓取后将其编入索引的位置。

爬网预算由两个主要元素决定:爬网容量限制和爬网需求。

抓取需求是指 Google 希望在您的网站上抓取多少。更受欢迎的页面,即来自 CNN 的热门故事和经历重大变化的页面,将被抓取更多。

Googlebot 希望在不使服务器不堪重负的情况下抓取您的网站。为防止出现这种情况,Googlebot 会计算抓取容量限制,即 Googlebot 可用于抓取网站的同时并行连接的最大数量,以及抓取之间的时间延迟。

将抓取容量和抓取需求放在一起,Google 将网站的抓取预算定义为 Googlebot 可以抓取且想要抓取的一组网址。即使未达到抓取容量限制,如果抓取需求较低,Googlebot 也会减少对网站的抓取。

以下是管理具有 12k 到数百万个 URL 的大中型网站抓取预算的 10 大技巧。

1. 确定哪些网页是重要的,哪些网页不应该被抓取

确定哪些网页很重要,哪些网页不那么重要(因此,Google 访问频率较低)。

通过分析确定后,您可以查看您网站的哪些页面值得抓取,哪些网站的页面不值得抓取,并将它们排除在抓取之外。

例如,Macys.com 有超过 2 万个被编入索引的页面。

它通过通知 Google 不要抓取网站上的某些网页来管理其抓取预算,因为它限制了 Googlebot 抓取 robots.txt 文件中的某些网址。
Googlebot 可能会认为不值得花时间查看您网站的其余部分或增加您的抓取预算。确保分面导航和会话标识符:通过robots .txt 屏蔽

2.管理重复内容

虽然 Google 不会因存在重复内容而受到处罚,但您希望向 Googlebot 提供原创且独特的信息,这些信息既能满足最终用户的信息需求,又能提供相关且实用的信息。确保您使用的是robots .txt 文件。

谷歌表示不使用任何索引,因为它仍然会请求,但随后会删除。

3. 使用 Robots.txt 阻止抓取不重要的 URL,并告诉 Google 它可以抓取哪些页面

对于包含数百万个网页的企业级网站,Google 建议使用 robots.txt 阻止抓取不重要的网址。

此外,您还希望确保 Googlebot 和其他搜索引擎能够抓取您的重要网页、包含黄金内容的目录和理财网页。

4. 长重定向链

如果可以的话,将重定向次数保持在较小的数量。重定向或重定向循环过多可能会使 Google 感到困惑并降低您的抓取限制。

谷歌表示,长重定向链会对抓取产生负面影响。

5.使用HTML

使用 HTML 会增加任何搜索引擎的爬虫访问您网站的几率。

虽然 Googlebot 在抓取和索引 JavaScript 方面有所改进,但其他搜索引擎抓取工具并不像 Google 那样复杂,并且可能在 HTML 以外的其他语言上存在问题。

6. 确保您的网页加载速度快并提供良好的用户体验

使您的网站针对 Core Web Vitals 进行了优化。

内容加载速度越快(即不到 3 秒),Google 向最终用户提供信息的速度就越快。如果他们喜欢,Google 会继续将您的内容编入索引,因为您的网站会展示 Google 抓取运行状况,这可能会提高您的抓取限制。

7.有有用的内容

根据谷歌的说法,内容是按质量评定的,无论年龄大小。根据需要创建和更新您的内容,但通过进行琐碎的更改和更新页面日期来人为地使页面看起来是新鲜的,没有任何额外的价值。

如果你的内容满足了最终用户的需求,即有用和相关,那么它是旧的还是新的并不重要。

如果用户觉得你的内容没有帮助和相关性,那么我建议你更新和刷新你的内容,使其新鲜、相关和有用,并通过社交媒体进行推广。

此外,将您的页面直接链接到主页,这可能会被视为更重要并且更频繁地抓取。

8. 注意抓取错误

如果您删除了网站上的某些网页,请确保网址为永久移除的网页返回 404 或 410 状态。404 状态代码是一个强烈的信号,表明不要再次抓取该网址。

但是,被屏蔽的网址在抓取队列中停留的时间会更长,并且在移除屏蔽后会重新抓取。

  • 此外,Google 声明删除任何软 404 页面,这些页面将继续被抓取并浪费您的抓取预算。要对此进行测试,请进入 GSC 并查看索引覆盖率报告,了解是否存在软 404 错误。

如果您的网站有许多 5xx HTTP 响应状态代码(服务器错误)或连接超时发出相反的信号,则抓取速度会变慢。Google 建议您注意 Search Console 中的“抓取统计信息”报告,并将服务器错误数量降至最低。

顺便说一下,谷歌不尊重或遵守非标准的“抓取延迟”机器人.txt规则。

即使您使用了 nofollow 属性,如果您网站上的其他网页或网络上的任何网页未将该链接标记为 nofollow,该网页仍会被抓取并浪费抓取预算。

9. 让站点地图保持最新

XML 站点地图对于帮助 Google 找到您的内容非常重要,并且可以加快速度。

保持站点地图网址是最新的,使用<lastmod>标签更新的内容,并遵循SEO最佳实践,包括但不限于以下内容,这一点非常重要。

  • 仅包含您希望搜索引擎编入索引的 URL。
  • 仅包含返回 200 状态代码的 URL。
  • 确保单个站点地图文件小于 50MB 或 50,000 个网址,如果您决定使用多个站点地图,请创建一个索引站点地图,列出所有站点地图。
  • 确保您的站点地图是 UTF-8 编码的。
  • 包括指向每个 URL 的本地化版本的链接。
  • 使您的站点地图保持最新状态,即每次有新网址或旧网址被更新或删除时,都会更新您的站点地图。

10.建立一个良好的网站结构

拥有良好的网站结构对于您的索引和用户体验的 SEO 性能很重要。

网站结构可以通过多种方式影响搜索引擎结果页面 (SERP) 结果,包括可抓取性、点击率和用户体验。

网站结构清晰、线性,可以有效地利用抓取预算,这将有助于 Googlebot 找到任何新的或更新的内容。

永远记住三次点击规则,即任何用户都应该能够通过最多三次点击从您网站的任何页面转到另一个页面。

11. 内部链接

搜索引擎越容易抓取和浏览您的网站,爬虫就越容易识别您的结构、上下文和重要内容。

将内部链接指向某个网页可以告知 Google 该网页很重要,有助于为给定网站建立信息层次结构,并有助于在整个网站中传播链接权益。

12. 始终监控抓取统计信息

请务必查看和监控 GSC,了解您的网站在抓取过程中是否存在任何问题,并寻找提高抓取效率的方法。

您可以使用“抓取统计信息”报告来查看 Googlebot 在抓取您的网站时是否存在任何问题。

如果 GSC 中报告了您网站的可用性错误或警告,请在主机可用性图表中查找 Googlebot 请求超出红色限制线的实例,点击进入图表以查看哪些网址失败,并尝试将这些错误或警告与您网站上的问题相关联。

此外,您还可以使用网址检查工具测试您网站上的一些网址。

如果网址检查工具返回主机负载警告,则表示 Googlebot 无法抓取您网站上发现的尽可能多的网址。

最后

抓取预算优化对于大型网站至关重要,因为它们具有广泛的规模和复杂性。

由于页面和动态内容众多,搜索引擎爬虫在高效和有效地抓取和索引网站内容方面面临挑战。

通过优化您的抓取预算,网站所有者可以优先抓取重要和更新的页面并编制索引,确保搜索引擎明智有效地使用其资源。

此优化过程涉及改进网站架构、管理 URL 参数、设置抓取优先级和消除重复内容等技术,从而提高搜索引擎可见性、改善用户体验并增加大型网站的自然流量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1304348.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【SpringBoot篇】详解基于Redis实现短信登录的操作

文章目录 &#x1f970;前言&#x1f6f8;StringRedisTemplate&#x1f339;使用StringRedisTemplate⭐常用的方法 &#x1f6f8;为什么我们要使用Redis代替Session进行登录操作&#x1f386;具体使用✨编写拦截器✨配置拦截器&#x1f33a;基于Redis实现发送手机验证码操作&am…

DNF 单机联网 搭建教程(附视频)

更多游戏搭建&pvf修改教程请见: DNF教程 注意&#xff1a;请不要将游戏进行商业化&#xff0c;一切后果概不负责。仅供单机&#xff0c;好友之间进行娱乐&#xff01;&#xff01; 注意&#xff1a;请不要将游戏进行商业化&#xff0c;一切后果概不负责。仅供单机&#…

重塑未来工作方式,亚马逊云科技re:Invent推出生成式AI助手Amazon Q

亚马逊云科技在re:Invent 2023宣布推出Amazon Q&#xff0c;这是一种新型生成式AI支持的助手&#xff0c;专门用于满足办公场景需要&#xff0c;可以根据客户业务进行定制。客户可以快速获得复杂问题的相关答案、生成内容并采取行动——所有这些都基于客户自身的信息存储库、代…

区块链的可拓展性研究【03】扩容整理

为什么扩容&#xff1a;在layer1上&#xff0c;交易速度慢&#xff0c;燃料价格高 扩容的目的&#xff1a;在保证去中心化和安全性的前提下&#xff0c;提升交易速度&#xff0c;更快确定交易&#xff0c;提升交易吞吐量&#xff08;提升每秒交易量&#xff09; 目前方案有&…

qt 使用百度在线地图 方法2

使用百度在线地图两个关键点&#xff0c;一是html页面准备&#xff1b;二是qt 与js 语言的交互。 1&#xff0c;html页面的准备&#xff0c;双击页面就可以出现如下效果。 主要代码&#xff1a; <!DOCTYPE html> <html> <head><meta http-equiv"C…

亚马逊云科技开发Amazon Bedrock,使构建和移动就像API调用一样简单

企业希望在各种场景中应用生成式AI&#xff0c;例如提高生产效率&#xff0c;创新用户体验和开启全新工作方式。然而&#xff0c;生成式AI技术正快速发展&#xff0c;每天都有新的服务和创新发生。在日新月异的当下&#xff0c;客户的适应能力至关重要。企业需要能够使用最新、…

详解SVG文件

2023年12月12日&#xff0c;周二下午 目录 什么是SVG文件如何查看SVG文件方法1&#xff1a;使用VSCode的"SVG"插件方法2&#xff1a;使用WPS图片​编辑方法3&#xff1a;通过在线网站进行查看怎么制作自己的SVG文件 什么是SVG文件 SVG 是可缩放矢量图形&#xff08…

3_流量预测综述阅读_Cellular traffic prediction with machine learning: A survey

为了方便学习英语书写&#xff0c;总结的一些话用英语书写 ♥目录♥ 0、文献来源and摘要1、introduction2、prediction problems and datasets2.1 prediction problems2.2 dataset&#xff08;1&#xff09;Telecom Italia 意大利电信 2015&#xff08;2&#xff09;City Cell…

深入理解RBAC权限系统

最近&#xff0c;一位朋友在面试中被问及如何设计一个权限系统。我们注意到目前许多后台管理系统&#xff08;包括一些热门的如若依快速开发平台&#xff09;都采用了RBAC访问控制策略。该策略通过将权限授予角色&#xff0c;然后将角色分配给用户&#xff0c;从而实现对系统资…

仿短视频风格的自适应苹果CMS模板源码

这是一款仿短视频风格的自适应苹果CMS模板源码&#xff0c;设计简洁&#xff0c;适合用于搭建个人视频网站或者短视频分享平台。模板支持响应式布局&#xff0c;演示地 址 runruncode.com/yingshimanhau/19650.html 适配各种屏幕尺寸&#xff0c;功能丰富&#xff0c;用户体验良…

在vue3的js中将一组数据赋值的问题

代码: if (res.data) { myPrizeList.value res.data console.log(myPrizeList.value,myPrizeList.value) const giftList ref() console.log(JSON.parse(JSON.stringify(myPrizeList.val…

【VTK】VTK中的宏定义

很高兴在雪易的CSDN遇见你 【vtkWidgetRepresentation】第九期 vtk中的仿射变换 前言 本文分享VTK中的宏定义&#xff0c;希望对各位小伙伴有所帮助&#xff01; 感谢各位小伙伴的点赞关注&#xff0c;小易会继续努力分享&#xff0c;一起进步&#xff01; 你的点赞就是我的…

家用儿童床欧盟CE认证EN716标准

一、标准适用范围 该标准规定了内部长度大于900mm但不超过1400mm的家用童床的安全要求。该安全要求适用于完全组装完毕待用的童床。可以转换成其它产品的童床&#xff08;如&#xff1a;可变产品、游戏床&#xff09;转换后应该符合相关欧洲标准。该标准不适用于提篮、婴儿床和…

Kafka-客户端使用

理解Kafka正确使用方式 Kafka提供了两套客户端API&#xff0c;HighLevel API和LowLevel API。 HighLevel API封装了kafka的运行细节&#xff0c;使用起来比较简单&#xff0c;是企业开发过程中最常用的客户端API。 LowLevel API则需要客户端自己管理Kafka的运行细节&#xf…

快宝技术:连接无代码开发,API集成提升电商营销和用户运营效率

无代码开发&#xff1a;创新的启航 快宝技术自2012年成立至今&#xff0c;一直是无代码开发领域的佼佼者。通过无代码开发平台&#xff0c;快宝技术旨在降低技术门槛&#xff0c;并使非技术人员能够轻松创建和部署应用程序。这不仅使得快递末端软件开发变得高效和便捷&#xf…

用Sketch for Mac轻松创作无限可能的矢量绘图

在如今的数码时代&#xff0c;矢量绘图软件成为了许多设计师和创意爱好者的必备工具。而在众多的矢量绘图软件中&#xff0c;Sketch for Mac无疑是最受欢迎的一款。它以其简洁易用的界面和强大的功能&#xff0c;让用户能够轻松创作出无限可能的矢量图形。 首先&#xff0c;Sk…

Qt Desktop Widgets 控件绘图原理逐步分析拆解

Qt 是目前C语言首选的框架库。之所以称为框架库而不单单是GUI库&#xff0c;是因为Qt提供了远远超过GUI的功能封装&#xff0c;即使不使用GUI的后台服务&#xff0c;也可以用Qt大大提高跨平台的能力。 仅就界面来说&#xff0c;Qt 保持各个平台绘图等效果的统一&#xff0c;并…

QX320F28346,TI的TMS320F28346定制的DSP吗?为什么没有模拟外设ADC、DAC等?

QX320F28346&#xff0c;TI的TMS320F28346定制的DSP吗&#xff1f;为什么没有模拟外设ADC、DAC等&#xff1f;

基于Java+vue的音乐网站设计与实现(源码+文档+数据库)

摘 要 在此基础上&#xff0c;提出了一种基于javavue的在线音乐排行榜系统的设计与实现方法。本系统分为两个大的功能&#xff0c;即&#xff1a;前端显示、后端管理。而在前台&#xff0c;则是播放不同的歌曲&#xff0c;让人可以在上面观看不同的歌曲&#xff0c;也可以观看…

Vue--第八天

Vue3 1.优点&#xff1a; 2.创建&#xff1a; 3.文件&#xff1a; 换运行插件&#xff1a; 4.运行&#xff1a; setup函数&#xff1a; setup函数中获取不到this&#xff08;this 在定义的时候是Undefined) reactive()和ref(): 代码&#xff1a; <script setup> // …