读改变未来的九大算法笔记07_搜索引擎

news2024/11/30 6:46:50

 

1. 车库轶事

1.1. 1939年

1.1.1. 戴夫·休利特(Dave Hewlett)

1.1.1.1. 惠普(Hewlett-Packard)

1.2. 1976年

1.2.1. 蒂夫·乔布斯(Steve Jobs)和史蒂夫·沃兹尼亚克(Steve Wozniak)

1.2.1.1. 从一间卧室开始的,空间很快就不够用了,于是他们转移到了车库

1.3. 1998年

1.3.1. 佩奇和布林

1.3.1.1. 谷歌

1.3.1.1.1. 门洛帕克车库

2. 互联网搜索历史

2.1. 1945年

2.1.1. 超链接

2.1.1.1. 美国工程师范内瓦·布什(Vannevar Bush)

2.1.1.2. 论文《诚若所思》(As We May Think)

2.1.1.3. 一台被称作麦麦克斯(memex)的机器

2.1.1.3.1. 允许“关联索引……任何被选中的东西都能立即自动选择另一个东西”

2.1.1.3.2. 一种早期的超链接

2.2. 1994年

2.2.1. Infoseek

2.2.2. Lycos

2.3. 1995年

2.3.1. AltaVista

2.4. 1999年

2.4.1. AltaVista递交的美国专利文件《索引的限制搜索》(“Constrained searching of an index”)中描述了元词把戏

3. 两大主要任务

3.1. 匹配(matching)

3.2. 排名(ranking)

4. 匹配算法

4.1. AltaVista:互联网级别的第一种匹配算法

4.1.1. 20世纪90年代中期,AltaVista是搜索引擎的王者

4.1.2. 有史以来第一次,有一个搜索引擎能完全索引互联网上每个页面的全部文本

4.2. 有效匹配只是高效搜索引擎的一大挑战

4.3. 索引

4.3.1. 是所有搜索引擎背后最基础的思想

4.3.2. 是计算机科学中最古老的有用思想

4.3.3. 互联网搜索引擎的索引和一本书的索引有着相同的工作原理

4.3.3.1. “书页”现在成了万维网上的网页

4.3.3.2. 搜索引擎则给互联网上的每个网页分配了一个不同的页码

4.3.4. 索引不仅应该存储页码,还要存储信息在页面内的位置

5. 排名和邻度

5.1. 查询词彼此相邻的网页比那些查询词相距很远的网页相关度更高

5.2. 搜索引擎在不断地使用和邻度有关的信息,以提高搜索排名

5.3. “NEAR”(邻近)关键词

5.3.1. NEAR查询

5.4. 搜索引擎的生死由其排名的质量决定,而通过利用网页结构,排名质量能够得到大幅提升

6. 元词把戏

6.1. Metaword Trick

6.2. 创建一份索引时,囊括所有元词是件很简单的事

6.3. 标题查询和其他取决于网页结构的“结构查询”类似于NEAR查询

7. 排名算法

7.1. PageRank

7.1.1. 一种对网页排名的算法

7.1.2. 主要发明者拉里·佩奇的排名算法

7.1.3. 学术会议论文《解析大规模超文本网络搜索引擎》(The Anatomy of a Large-Scale Hypertextual Web Search Engine)

7.1.4. 核心思想

7.1.4.1. 权威性网页通过超链接向其他网页传输权重

7.3. 超链接

7.3.1. 网页上的一个短语,当你点击它时,你将被带到另一个网页

7.3.2. 一个网页的链入链接数可能成为该网页“有用性”或“权威性”的指标

7.3.3. 人们可以滥用超链接把戏,人为地提高自己网页的排名

7.3.3.1. 搜索引擎称这种滥用为网络垃圾Web Spam

7.3.4. 一个有许多链入链接的网页应该有高排名

7.4. 权重

7.4.1. 来自高权重网页的链接排名要比来自低权重网页链接的排名高

7.4.2. 所有网页的初始权重值(Authority Score)都是1

7.4.2.1. 如果一个网页有链入链接,在计算该网页权重时就要加入指向其网页的权重

7.4.2.2. 如果X和Y网页链接Z网页,那么Z网页的权重就是X网页和Y网页权重相加的值

7.4.3. 和来自低权重网页的链入链接相比,一个来自高权重网页的链入链接应该更能证明一个网页的排名

7.5. 随机访问者

7.5.1. 超链接很有可能形成“循环”(cycle)

7.5.1.1. 随机访问者解决这个“鸡生蛋还是蛋生鸡”的问题

7.5.1.2. 不管超链接有没有形成循环,随机访问者把戏都能完美地运作

7.5.2. 关键点

7.5.2.1. 每次访问一个网页时,都有一个固定的重新访问概率(大概是15%),让访问者不从已有的超链接中挑选一个并点击

7.5.2.2. 网页的访问者权重值(Surfer Authority Score)

7.5.2.2.1. 一名随机访问者访问该网页的时间比例

7.5.3. 一个有许多链入链接的网页被访问的概率较大

7.5.4. 和一个来自不知名网页的链接相比,访问者更有可能继续点击一个来自知名网页的链入链接

7.5.5. 每个网页链入链接的质量和数量都会被纳入考虑范围

7.6. 搜索引擎并非通过模拟随机访问者来计算PageRank值:它们使用像随机访问者模拟一样给出相同答案的数学技巧,但计算成本要低很多

7.6.1. 商业搜索引擎中用来判定排名的算法要比PageRank这类基于链接的排名算法多得多

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/625917.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

chatgpt赋能python:PythonPip(包管理器):即插即用的方式

Python Pip(包管理器): 即插即用的方式 Python Pip是Python的包管理器,目的是为了简化Python包的安装和管理。Python Pip让用户可以轻松地添加、更新和删除Python包。 安装Pip 在安装Python的时候,一般情况下,Pip就…

遗留的 AppSec 工具迷失在云端

随着应用程序开发步伐的加快,IT 和安全团队正在对旧的应用程序安全(AppSec) 工具失去信心。 根据 Backslash 对 300 名 CISO、AppSec 经理和工程师的调查,遗留工具无法跟上并陷入永远的追赶游戏。 影响是深远的,大多数组织都看到云原生 App…

2023中兴捧月图像赛道-任意尺度盲超分初赛第三方案

任意尺度盲超分-初赛第三方案 吐槽篇方案篇一、左脚踩右脚二、梯度攻击 建议篇 吐槽篇 正文内容.正式讲述方案之前,容我先吐槽两句,真tm的是比赛,纯纯ex人。学历厂就别打着以赛招聘的口号,要985计算机的直接去他们学校里宣讲嘛&am…

限制docker日志

为啥要清理服务器上docker容器的日志? 因为是服务器的磁盘空间资源有限,由于docker容器在启动的时候没有限制,导致运行的docker容器随着时间的推移产生的日志越来越多,最后把服务磁盘资源耗尽,服务器的磁盘满了会导致…

MySQL实战:如何设计一个常用的后台管理系统的数据库结构

部分数据来源:ChatGPT 什么是后台管理系统? 后台管理系统是指用于管理和维护网站或应用程序的后台界面系统,通常包含用户管理、权限管理、数据管理等功能,能够方便快捷地管理网站或应用程序。常见的后台管理系统有Cms、OA等&am…

元素的alt和title属性相关细节知识

文章目录 I. 引言alt和title属性的作用和原理元素的alt和title属性的区别 II. 元素的alt属性元素的alt属性alt属性的作用alt属性的使用场景引用实例说明alt属性的应用 III. 元素的title属性元素的title属性title属性的作用title属性的使用场景引用实例说明title属性的应用 IV. …

chatgpt赋能python:Python新手必备:如何下载Jupyter

Python新手必备:如何下载Jupyter 如果你正在寻找一个强大而简单的Python编程环境,那么Jupyter可能是你需要的软件。Jupyter是一种交互式的编程环境,让你可以在浏览器中创建和共享笔记本,适合编写数据分析、机器学习、人工智能等方…

chatgpt赋能python:Python编程必备之OpenCV库下载与安装

Python编程必备之OpenCV库下载与安装 作为目前最热门的计算机视觉库之一,OpenCV在人工智能领域中发挥着巨大的作用。而Python作为一门强大的编程语言,在OpenCV的使用上也有其独特的优势。本文将介绍Python如何下载和安装OpenCV库,以及如何引…

chatgpt赋能python:Pythonpip安装库教程

Python pip安装库教程 Python是一个高级编程语言,具有丰富的库和模块,而pip是Python官方推荐的包管理工具,可以轻松地安装、升级和卸载各种库。 什么是pip pip是Python包管理工具,用于安装Python中的第三方库。pip可以轻松地安…

⑦电子产品拆解分析-6600mA充电宝

⑦电子产品拆解分析-6600mA充电宝 一、功能介绍二、电路分析以及器件作用1、锂电池充放电和USB输出2、主控IC部分电量 三、数据资料汇总以及参考 一、功能介绍 ①提供USB的5V1A和5V2A功率输出;②充电使用micro USB对锂电池充电;③充电宝总容量6600MA电量…

chatgpt赋能python:Python如何设计UI:最佳实践和关键洞察

Python如何设计UI:最佳实践和关键洞察 作为一种支持多种编程范式和用途的高级语言,Python已经成为了许多技术创造者和创业者的首选工具之一。但是,Python最初并不是为了动态用户界面(Dynamic User Interface,简称UI&a…

基于STM32C8T6的智能小车项目时钟配置

一、时钟树简介 HSE 是高速的外部时钟信号,可以由有源晶振或者无源晶振提供,频率从 3-25MHZ 不等。当使用有源晶振时,时钟从 OSC_IN 引脚进入,OSC_OUT 引脚悬空,当选用无源 晶振时,时钟从 OSC_IN 和 OSC_OU…

Python数据分析及案例详细讲解(文末赠书~)

名字:阿玥的小东东 学习:Python、C 博客主页:阿玥的小东东的博客_CSDN博客-python&&c高级知识,过年必备,C/C知识讲解领域博主 目录 数据分析 618多得图书活动来啦 本期推荐 内容简介 作者简介 目录: 下面我将给出一个…

Spring事务--上篇

Spring事务管理 是什么 事务是逻辑上的一组操作,要么都执行,要么都不执行。 另外,需要格外注意的是:事务能否生效数据库引擎是否支持事务是关键。比如常用的 MySQL 数据库默认使用支持事务的 innodb引擎。但是,如果把…

智能优化算法改进-K-means聚类种群初始化附Matlab代码

目录 0引言 一、K-means聚类原理 二、K-Means聚类算法步骤 三、K-Means聚类原理图​编辑 四、K-means聚类改进智能优化算法种群初始化效果图 4.1 初始种群数据图 ​4.2 K-means聚类结果图 4.2.1 根据K-means聚类原理聚类 4.2.2 根据MATLAB自带kmeans函数聚类 五、K-…

Docker镜像的创建方法及Dockerfile案例

目录 一、基于现有镜像创建1、创建启动镜像2、生成新镜像 三、基于Dockerfile创建1、Dockerfile结构及分层2、联合文件系统3、docker镜像加载原理4、dockerfile操作常用的指令 四、Dockerfile 案例1、dockerfile构建httpd实例2、Dockerfile构建nginx实例3、Dockerfile构建tomca…

chatgpt赋能python:Python下载Pandas库教程

Python下载Pandas库教程 什么是Pandas库? Pandas是用于数据处理和数据分析的Python库,它提供了快速,灵活和全面的数据结构,如Series和DataFrame,使数据清理,分析和处理变得更加娴熟。 为什么要下载Panda…

宝塔面板备份docker,镜像打包下载到本地,镜像还原,镜像推送

目录 1. 生成镜像2. 打包镜像并下载到本地3. 镜像还原4. 镜像推送总结 欢迎关注 『发现你走远了』 博客,持续更新中 欢迎关注 『发现你走远了』 博客,持续更新中 1. 生成镜像 软件商店->点击docker管理器的设置 生成镜像 这里可以直接点击提交&#…

RNN、LSTM知识点总结

CNN——用于计算机视觉(CV) RNN——用于自然语言处理(NLP) 理解:其中h0,h1...ht-1是中间结果,x0,x1...x代表时序输入。举例:如I am Chinese,I love China&…

PS AI功能真实测评;OpenAI提示词最佳实践官方指南;产品出海的多语言场景设计策略;AI黑客松的复兴与狂欢 | ShowMeAI日报

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦! 🤖 百度商业AI技术创新大赛 (CTI),报名截至7月13日 百度商业AI技术创新大赛,是面向全社会开放的全国性技术创新大…