面向搜索引擎优化初学者的 Google PageRank

news2025/1/20 2:01:11

即使你认为搜索已经摆脱了 PageRank 的影响,但时至今日,PageRank 很可能仍然存在于许多搜索巨头的系统中。

PageRank 曾经是搜索的核心,也是谷歌成为今天这个帝国的基础。

即使你认为搜索已经脱离了 PageRank,但不可否认的是,PageRank 长期以来一直是搜索行业的一个普遍概念。

每一位搜索引擎优化专家都应该很好地掌握 PageRank 的过去和现在。

本文将介绍

    • 什么是 PageRank?
    • PageRank 的发展历史。
      • Google Dance
      • Trusted Seeds
      • Reasonable Surfer
      • PageRank 的衰退
    • PageRank 如何彻底改变搜索
    • 工具栏 PageRank 与 PageRank 的对比
    • PageRank 如何工作
      • 问题与公式迭代
    • PageRank 如何在页面之间流动
    • PageRank 是否仍在使用?

什么是 PageRank?

PageRank 由谷歌创始人拉里-佩奇(Larry Page)和谢尔盖-布林(Sergey Brin)创建,是一种基于互联网上所有超链接的综合相对强度的算法。

大多数人认为,PageRank 这个名字是基于拉里-佩奇的姓氏,也有人认为 "Page "指的是网页。这两种说法都有可能是对的,而且这种重叠很可能是有意为之。

当佩奇和布林还在斯坦福大学就读时,他们写了一篇题为《PageRank 引用排名》的论文:为网络带来秩序》一文。

这篇论文发表于 1999 年 1 月,展示了一种相对简单的评估网页强度的算法。

这篇论文后来在美国获得了专利(但在欧洲没有,因为在欧洲数学公式不能申请专利)。

斯坦福大学拥有这项专利,并已将其转让给谷歌。目前,该专利将于 2027 年到期。

PageRank 的发展历史。

20 世纪 90 年代末,布林和佩奇在斯坦福大学就读期间,一直在研究信息检索方法。

当时,使用链接来计算每个页面相对于另一个页面的 "重要性 "是一种革命性的页面排序方法。这种方法在计算上很困难,但绝非不可能。

这个想法很快变成了谷歌,而当时的谷歌还是搜索领域的一条小鱼。

一些方面对谷歌的做法深信不疑,以至于谷歌在推出搜索引擎之初,并不具备赚取收入的能力。

谷歌(当时被称为 “BackRub”)是搜索引擎,而 PageRank 则是它用来在搜索引擎结果页面(SERPs)中对网页进行排名的算法。

Google Dance

PageRank 面临的挑战之一是,计算虽然简单,但需要反复处理。计算需要在互联网上的每个页面和每个链接上运行多次。在千禧年之初,这种计算需要几天的时间。

在此期间,谷歌的 SERP 不断上下波动。这些变化往往是不稳定的,因为每个页面都在计算新的页面排名。

这种情况被称为 “Google Dance”,每次谷歌开始每月更新时,都会让当时的搜索引擎优化专业人员止步不前。

(后来,"Google Dance "成了谷歌在山景城总部为搜索引擎优化专家举办的年度聚会的名称)。

Trusted Seeds

PageRank 的后期迭代引入了 "Trusted Seeds "的概念,以启动算法,而不是给互联网上的每个页面都设置相同的初始值。

Reasonable Surfer

该模型的另一次迭代引入了 "Reasonable Surfer "的概念。

该模型认为,一个页面的 PageRank 可能不会与它链接的页面平均分享,而是根据用户点击链接的可能性来权衡每个链接的相对价值。

PageRank 的衰退

谷歌的算法最初被认为在内部是 "无垃圾 "的,因为一个网页的重要性不仅取决于其内容,还取决于该网页链接所产生的一种 “投票系统”。

然而,谷歌的信心并没有持续多久。

随着反向链接行业的发展,PageRank 开始出现问题。于是,谷歌将其从公众视野中撤出,但在排名算法中继续依赖它。

到 2016 年,PageRank 工具栏被撤销,最终,所有对 PageRank 的公开访问都被限制了。但此时,Majestic(搜索引擎优化工具)已经能够将自己的计算结果与 PageRank 很好地联系起来。

多年来,谷歌一直通过 "谷歌指南 "文件和由马特-卡特斯(Matt Cutts)领导的垃圾邮件团队提供的建议,鼓励搜索引擎优化专业人员不要操纵链接,直到 2017 年 1 月。

在此期间,谷歌的算法也在发生变化。

在收购 MetaWeb 及其专有知识图谱(2014 年称为 “Freebase”)之后,谷歌开始以不同的方式对全球信息进行索引,从而减少了对 PageRank 的依赖。

PageRank 如何彻底改变搜索

其他搜索引擎在很大程度上依赖于单独分析每个页面的内容。这些方法几乎无法识别有影响力的页面与只是用随机(或篡改)文本编写的页面之间的区别。

这意味着,其他搜索引擎的检索方法极易被搜索引擎优化专家操纵。

因此,谷歌的 PageRank 算法具有革命性意义。

结合相对简单的 "nGrams "概念来帮助建立相关性,谷歌找到了一个制胜之道。

它很快就超越了当时的主要竞争对手,如 AltaVista 和 Inktomi(为 MSN 等提供支持)。

与雅虎和后来的 DMOZ 采用的基于 "目录 "的方法相比,Google 还找到了一种在页面级别上运行的更具可扩展性的解决方案–尽管 DMOZ(也称为开放目录项目)最初能够为 Google 提供自己的开放源代码目录。

工具栏 PageRank 与 PageRank 的对比

谷歌最初对自己的算法引以为傲,乐于向任何想看的人公开分享计算结果。

最显著的表现形式是火狐等浏览器的工具栏扩展,它显示了互联网上每个页面的 0 到 10 分。

事实上,PageRank 的评分范围要宽泛得多,但 0-10 分为搜索引擎优化专业人员和消费者提供了一种即时评估互联网上任何网页重要性的方法。

PageRank 工具栏让这一算法变得非常明显,但也带来了一些复杂问题。尤其是,这意味着链接显然是 "玩弄 "谷歌的最简单方法。

链接越多(或者更准确地说,链接越好),页面在谷歌搜索结果中的目标关键词排名就越靠前。

这意味着形成了一个二级市场,根据出售链接的 URL 的 PageRank 值买卖链接。

Yahoo推出了一款名为 "Yahoo Search Explorer "的免费工具,让任何人都可以开始查找任何给定页面的链接,这加剧了这一问题。

后来,Moz 和 Majestic 这两个工具在免费工具的基础上建立了自己的互联网索引,并分别对链接进行评估。

PageRank 如何工作

PageRank 的计算公式有多种形式,但可以用几句话来解释。

最初,互联网上的每个页面都会得到一个估计的 PageRank 分数。这个分数可以是任何数字。从历史上看,PageRank 是以介于 0 和 10 之间的分数向公众展示的,但实际上,估算的分数并不一定从这个范围开始。

然后,该页面的 PageRank 除以该页面外的链接数,得出一个较小的分数。

然后将 PageRank 分布到链接的页面上,互联网上的其他页面也是如此。

然后,在算法的下一次迭代中,每个页面的 PageRank 的新估计值就是链接到每个给定页面的所有页面分数的总和。

该公式还包含一个 “阻尼系数”,即上网者完全停止上网的可能性。

在算法的每次后续迭代开始之前,提出的新 PageRank 都会被阻尼系数减小。

这种方法不断重复,直到 PageRank 分数达到一个稳定的平衡点。然后,为了方便起见,一般会将得出的数字换算成 0 到 10 这样一个更容易辨认的范围。

一种数学表示方法是


其中

  • PR = 算法下一次迭代的 PageRank。
  • d = 阻尼系数。
  • j = 互联网上的页面编号(如果每个页面都有唯一的编号)。
  • n= 互联网页面总数。
  • i = 算法的迭代次数(初始设置为 0)。

该公式也可以用矩阵形式表示。

问题与公式迭代

该公式存在一些问题。

如果一个页面没有链接到任何其他页面,那么公式将无法达到平衡。

因此,在这种情况下,PageRank 将被分配到互联网上的每一个页面。这样,即使一个没有任何链接的页面也能获得一些 PageRank,但积累的数量不足以产生重要影响。

另一个鲜为人知的挑战是,较新的网页虽然可能比旧网页更重要,但其 PageRank 却较低。这意味着,随着时间的推移,旧内容的 PageRank 会过高。

网页上线的时间并不计入算法。

PageRank 如何在页面之间流动

如果一个页面的起始值为 5,并有 10 个链接,那么它链接到的每个页面都会获得 0.5 的 PageRank 值(减去阻尼系数)。

这样,PageRank 就会在互联网上循环流动。

当新网页出现在互联网上时,它们一开始只有极少量的 PageRank。但随着其他网页开始链接到这些网页,它们的 PageRank 就会随着时间的推移而增加。

PageRank 是否仍在使用?

虽然公众对 PageRank 的访问权限已于 2016 年取消,但据信,谷歌内部的搜索工程师仍可使用该评分。

对 Yandex 所用因素的泄露显示,PageRank 仍是其可以使用的一个因素。

谷歌工程师表示,PageRank 的原始形式已被一种新的近似值取代,计算时所需的处理能力更低。虽然计算公式在谷歌网页排名中的重要性降低了,但它对每个网页来说仍然是一个常数。

不管谷歌可能会选择使用其他什么算法,PageRank 很可能至今仍被嵌入这家搜索巨头的许多系统中。

更多SEO学习资料 可以扫码 解锁 《SEO学习资料文档》

  1. Core Web Vitals:完整指南
  2. Google E-A-T和SEO指南
  3. Google 初学者的SEO:SEO基础知识简介
  4. Google PPC 营销基础知识完整指南
  5. Google SEO 的链接建设:完整指南
  6. Google SEO入门教程
  7. SEO进阶教程:(网站优化排名之百度SEO快排·技术篇)
  8. Google 排名因素:系统、信号和页面体验
  9. WordPress SEO 指南:您需要了解的一切
  10. 本地 SEO :提高本地搜索排名的权威指南

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1344771.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

阶段性复习(三)

if后面是赋值符,所以最后的值是a for(; ;)是死循环 大小写转换 在这道题中,通过分析可知,在小写转换大写的过程中,需要满足的条件是word0,同时是小写,而在第…

Oracle 19c OCP 1z0 082考场真题解析第17题

考试科目:1Z0-082 考试题量:90 通过分数:60% 考试时间:150min 本文为云贝教育郭一军guoyJoe原创,请尊重知识产权,转发请注明出处,不接受任何抄袭、演绎和未经注明出处的转载。 17. Which three …

[C#]opencvsharp进行图像拼接普通拼接stitch算法拼接

介绍: opencvsharp进行图像拼一般有2种方式:一种是传统方法将2个图片上下或者左右拼接,还有一个方法就是融合拼接,stitch拼接就是一种非常好的算法。opencv里面已经有stitch拼接算法因此我们很容易进行拼接。 效果: …

Linux网络编程学习心得.5

1.libevent编写tcp服务器流程 创建套接字 绑定 监听 创建event_base根节点 初始化上树节点 lfd 上树 循环监听 收尾 普通的event事件 文件描述符 事件(底层缓冲区的读事件或者写事件) 触发 回调 高级的event事件 bufferevent事件 核心: 一个文件描述符 两…

【力扣题解】P654-最大二叉树-Java题解

👨‍💻博客主页:花无缺 欢迎 点赞👍 收藏⭐ 留言📝 加关注✅! 本文由 花无缺 原创 收录于专栏 【力扣题解】 文章目录 【力扣题解】P654-最大二叉树-Java题解🌏题目描述💡题解🌏总结…

【Linux操作系统】探秘Linux奥秘:操作系统的入门与实战

🌈个人主页:Sarapines Programmer🔥 系列专栏:《操作系统实验室》🔖诗赋清音:柳垂轻絮拂人衣,心随风舞梦飞。 山川湖海皆可涉,勇者征途逐星辉。 目录 🪐1 初识Linux OS …

【BERT】深入BERT模型2——模型中的重点内容,两个任务

前言 BERT出自论文:《BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding》 2019年 近年来,在自然语言处理领域,BERT模型受到了极为广泛的关注,很多模型中都用到了BERT-base或者是BE…

Spring AOP<一>简介与基础使用

spring AOP 基础定义 含义使用切面组织多个Advice,Advice放在切面中定义。也就是说是定义通知的自定义类。自定义的AOP类Aspect连接点方法调用,异常抛出可以增强的点JoinPoint :也就是**被增强的方法的总称,可以获取具体方法的信息&#xff…

结构体:枚举

#include<iostream> using namespace std; int main() {enum weekday { mon, tus, wed, thu, fri, sat,sun }; //声明枚举类型 enum weekday day; //定义枚举变量 int a, b, c, d, e, f, g, loop; //定义整型变量 char ch A; //定义字符变量 f thu; //按照题意&a…

华为服务器安装银河麒麟V10操作系统(IBMC安装)

iBMC是华为面向服务器全生命周期的服务器嵌入式管理系统。提供硬件状态监控、部署、节能、安全等系列管理工具&#xff0c;标准化接口构建服务器管理更加完善的生态系统。 服务器BMC IP&#xff1a;192.168.2.100 一、准备工作 1、确保本机和服务器BMC管理口在同一网络 2、银…

如何使用ArcGIS Pro将Excel表转换为SHP文件

有的时候我们得到的数据是一张张的Excel表格&#xff0c;如果想要在ArcGIS Pro中进行分析或者制图则需要先转换为SHP格式&#xff0c;这里为大家介绍一下转换方法&#xff0c;希望能对你有所帮助。 数据来源 本教程所使用的数据是从水经微图中下载的POI数据&#xff0c;除了P…

荔枝派nano(f1c100s)基于I2C子系统的BME280驱动

硬件环境&#xff1a; 1、荔枝派nano&#xff08;f1c100s&#xff09; 2、使用f1c100s的i2c0&#xff0c;PE11和PE12引脚 软件环境&#xff1a; 1、Linux 4.15 2、BME280使用介绍 文章目录 一、I2C子系统1、应用层访问i2c设备2、驱动层访问i2c设备2.1、i2c总线设备驱动模型2.2、…

MySQL MVCC精讲

版本链 我们前面说过&#xff0c;对于使用InnoDB存储引擎的表来说&#xff0c;它的聚簇索引记录中都包含两个必要的隐藏列&#xff08;row_id并不是必要的&#xff0c;我们创建的表中有主键或者非NULL的UNIQUE键时都不会包含row_id列&#xff09;&#xff1a; trx_id&#xff…

《纳瓦尔宝典》围观纳瓦尔的财富+幸福指南

缘分碎碎念 之前一直有书友推荐《纳瓦尔宝典》&#xff0c;一直没机会看。到2023年底了&#xff0c;想要给辛苦一年的自己一个新年礼物&#xff08;哈哈哈&#xff09;&#xff0c;就买了一个电纸书用来看书&#xff08;保护眼睛&#xff09;&#xff0c;里面刚好有《纳瓦尔宝…

相对于一般的统计学,计量经济学的特色是什么?谈Stata与计量经济学

Stata作为一种数据分析软件&#xff0c;高度适用于依托计量经济学的研究领域&#xff0c;如宏观经济学、财政学等&#xff0c;当然在医学等学科应用也较为广泛&#xff0c;在处理面板数据方面也深具特色。计量经济学是指运用概率统计方法对经济变量之间的因果关系进行定量分析的…

【实用工具】Gradio快速部署深度学习应用1:图像分类

前言 在AI快速发展的今天&#xff0c;我们作为算法开发人员&#xff0c;也应该有一些趁手的工具帮助我们快速开发并验证自己的想法&#xff0c;Gradio可以实现快速搭建和共享的功能&#xff0c;能够展示出一个前端界面&#xff0c;把我们的算法包裹起来&#xff0c;快速验证算…

python+django超市进销存仓库管理系统s5264

本次设计任务是要设计一个超市进销存系统&#xff0c;通过这个系统能够满足超市进销存系统的管理及员工的超市进销存管理功能。系统的主要功能包括&#xff1a;首页、个人中心、员工管理、客户管理、供应商管理、承运商管理、仓库信息管理、商品类别管理、由管理员和员工&#…

程序的编译、链接

目录 前言&#xff1a; 前置知识回顾 宏 宏定义常量 宏定义语句 宏定义函数 条件编译 应用场景 编译过程概览 预编译阶段 编译阶段 汇编阶段 链接阶段 前言&#xff1a; 在ANSI C的任何一种实现中&#xff0c;存在两种不同的环境&#xff0c;第1种是翻译环境&#x…

2023年03月09日_谷歌视觉语言模型PaLM-E的介绍

自从最近微软凭借OpenAI 和ChatGPT火了一把之后呢 老对手Google就总想着扳回一局 之前发布了硬刚ChatGPT的Bard 但是没想到翻车了 弄巧成拙 所以呢Google这一周又发了个大招 发布了史上最大的视觉语言模型PaLM-E 这个模型有多夸张呢 参数量高达5,620亿 是ChatGTP-3的三…

【Matlab】CNN卷积神经网络时序预测算法

资源下载&#xff1a; https://download.csdn.net/download/vvoennvv/88681558 一&#xff0c;概述 CNN&#xff08;Convolutional Neural Network&#xff0c;卷积神经网络&#xff09;是一种前馈神经网络&#xff0c;主要用于处理具有类似网格结构的数据&#xff0c;例如图像…