前言
PageRank算法在1998年4月举行的第七届国际万维网大会上由Sergey Brin和Larry Page提出。PageRank是通过计算页面链接的数量和质量来确定网站重要性的粗略估计。算法创立之初的目的是应用在Google的搜索引擎中,对网站进行排名。
随着国内外学者的深入研究,PageRank算法被广泛应用于其他方面,例如学术论文的重要性排名,学术论文的作者的重要性排排序(某位作者引用了其他作者的文献,则该作者认为其他作者是重要的),网络爬虫(利于PR值,决定某个URL,所需要排序的网页数量和深度;重要性高的网页抓取的网页数量相对多一些,反正则少一点),关键词与句子的抽取,随后又出现了基于PageRank的Twitter用户的影响力排名,基于PageRank的微博用户影响力算法的研究,和一些其他在PageRank算法基础上进行改进的研究。由此可见PageRank在影响力排名方面的研究也十分热门。
PageRank发展历程
PageRank,简写为PR,中文名“佩奇排名”、“谷歌左侧排名”、“网页排名”,是谷歌公司所使用的对其搜索引擎检索结果中的网页进行排名的一种重要算法。该算法基于“从许多优质的网页链接过来的网页,必定还是优质网页”的回归关系,来判定网页的重要性。
PR值介于0到10级之间,10级为满分。PR值越高说明该网页越受欢迎或者说越重要。通常而言,PR值为6及以上的网站表明这个网站非常受欢迎或者说极其重要。
谷歌搜索引擎用PageRank来分析网页的相关性和重要性,在搜索引擎优化中经常被用来作为评估网页优化的成效因素之一。虽然PageRank算法不再是谷歌公司用来给