为什么 AIGC 和大模型创业者都在安利向量数据库?

news2024/11/29 10:45:14

从目前 VC 的投资数据来看,大家对 AI 的关注点主要有三个:一个是基础大模型 LLM,第二个是具体某个场景的应用(包括小模型),第三个就属基础模型与应用层之间的中间层了(开发者工具和数据库等)。

随着开发者疯狂涌入开发各种 AI 应用,中间层已经成为各大 VC 争抢的投资标的,作为 AI 时代 Memory 的向量数据库,更是当下最大的一个热门。

在之前的文章我曾提到,虽然向量数据库的发展还处于非常早期阶段,但在过去一个月里资本正在疯狂涌入这个赛道,这个领域的创业梯队也逐渐浮现了出来。估值在一亿美金以内的有 Chroma 和 Qdrant,总融资金额在千万美金级别;估值在五亿美金之内区间的有 Weaviate,总融资金额在 5000 万美金级别;估值在五亿美金之上的有两家公司 Pinecone 和 Zilliz,总融资金额都超过了一亿美金。

其中,Zilliz 是一家源自中国的公司,总部设立在美国硅谷。它是向量数据库领域全球最早的开拓者,在五年前就推出了全球首个开源向量数据库产品 Milvus。Milvus 现在是全球最流行的开源向量数据库产品,在全球拥有超过 1000 家的企业用户,是 OpenAI 和英伟达最近发布的向量数据库的官方合作伙伴,在一年前 B+ 轮融资时估值就已经接近 7 亿美金了。

alt

为了更好地了解向量数据库的价值,我最近约 Zilliz 创始人星爵深入地聊了聊,这次对话解答了我的很多疑惑,其中最核心的一点是让我理解了向量数据库的真正价值和未来巨大的市场空间(TAM)。除此之外我们也聊了很多关于 Zilliz 创业过程中的各种话题,由于此次对话非常的随意,这里我简单做了一下归纳,希望能更全面地把对话内容体现出来:

类比 PC 时代,向量数据库就是 AI 时代的 Memory

关于向量数据库是什么,简答来说,它是 Memory for AI,用于存储、索引和搜索来自机器学习模型嵌入的海量非结构化数据集,我已经在之前的文章《a16z领投1亿估值7.5亿美金,最近AI中间层这个领域实在太火》做了简单介绍,这里就不再复述。

谈到向量数据库的角色,我们需要了解向量,它是神经网络里面最基本的一个东西,无论是神经网络还是深度学习,它最终都是通过 Embedding(嵌入) 或者向量去做数据的交换跟处理,它是信息交换的一个基本元素,这种新型的数据需要一个地方存储,于是就产生了向量数据库。

为了更好的理解,我们可以将类似 ChatGPT 这样的大模型比做电脑里的中央处理器 CPU,它具有非常强大的计算处理能力,而一台电脑除了 CPU 外,还有各种存储器,包括内存以及外存。本质上 CPU 也具有存储功能,就是我们所说的缓存,但几乎在所有的电脑中,除了有 CPU 外,都必须配备有其它存储。

这里的最本质的原因在于计算永远要比存储贵 100 倍,这是根据物理定律所决定的,因为计算单元的发热量、它的功耗以及密度都做不到存储那样,存储只是在需要调用的时候才会工作,但计算的任何一个动作都需要涉及到大量的工作。

我们看过去 10-20 年计算机的发展,虽然计算芯片的成本在不断下降,但与之相比,存储成本的下降幅度要大得多。举个很简单的例子,以前我们买一个 U 盘是按照 MB 的存储量来度量的,但是现在 U 盘几乎都是按照 G 甚至 T 来卖,存储的提升在以 1000 倍这样的速度进行,但是计算能力的提升就要慢很多,因此从成本的角度来看,存储的成本在急剧下降,而计算的成本则大大高出前者。

所以在计算机时代,计算跟存储是相辅相成的,存储永远比计算便宜(数量级上的便宜),我们所需要的就是在两者之间取得一个平衡,很多时候这个平衡实际上是用空间换时间,这里的空间是存储,而时间就是计算。

回到 AI 时代,原理也一样,它也需要在计算和存储之间达到一个最优的平衡点,而且由于 AI 大模型的规模会在数量级上更大,对计算提出了更大的要求,导致成本规模也会大很多,因此通过与向量数据库这个存储相结合,才能实现 AI 的最优平衡。

向量数据库在当下的应用价值

从上面我们可以看到,向量数据库的价值其实是伴随着整个大模型的发展而发展的,只要大模型在不断发展,那么向量数据库也会不断发展,因为它们就像 CPU 和存储一样。

而向量数据库在当下的应用,第一个就是让大模型可以利用企业或者个人的私域数据,实现信息数据的连接;或者反过来说,让那些拥有大量数据和应用场景的企业利用大模型的能力帮它解决问题,同时还能保持自己对于数据的掌控力。

alt

我们都知道大模型是基于公开数据进行预训练的,它的训练周期也比较长,无法获取当下的实时信息以及企业内部的私域数据,因此需要通过向量数据库这个存储来实现模型与这些数据的连接,此时只需把你的私域数据通过向量数据库进行索引即可。

而为了保护企业的私有数据产权,大模型不能将你的私有数据占为己有,它只能在那一刻使用,用它的模型能力把你的数据处理完并把结果返回给你,它不能存储,也不能将这些数据拿来训练优化其母模型,使用完即删除。

在美国,这一点是在法律上得到保证的,因此大家可以无所畏惧的跟 ChatGPT 等大模型进行合作,而不用担心自己的私域数据被这些大模型占为己有(需要说明的是,并非这些大模型没有这个能力,而是法律不允许。这也解答了我对于大模型的一些疑惑,之前以为像 ChatGPT 这样的通用大模型会吃掉所有能吃掉的服务,因为它能不断吸收企业的私域数据,现在看来这点无需担忧了,或许也正是这种明确的保护机制,促进了 ChatGPT 的诞生)。

同理,其第二个应用就是大模型对于(人类)新知识的利用,人类每天都在产生新的知识新的数据,大模型本身无论如何都无法实时将这些信息纳入其模型的训练,一方面在于其训练周期,另一方面每时每刻产生的这些新知识是一个庞大的数据量,这在成本上也不可行。

如何让大模型的能力应用于新知识?和私域数据一样,需要通过向量数据库这个存储实现信息的连接与索引。无论是私域数据还是新知识的利用,向量数据库在这里起到的本质作用都是解决记忆存储的问题。

而第三个应用价值,则和当下最热门的 AutoGPT 或者 BabyAGI 这样的 Agent 智能体有关,它们和前面的私域数据以及新知识不同,它面向的是 AI 自己生成的知识,而不是人类创造的知识。这些智能体会把自己创造的知识保存下来,进而进行不断的迭代演化,这会导致数据以指数级增长,这些智能体必需要求助于向量数据库,因为这么大体量的数据是无法通过模型本身来存储的。

alt

目前大家对于类似 AutoGPT 和 BabyAGI 这样的智能体的认知还处于玩具阶段,但是它们很可能是 ChatGPT 后新的 Killer APP,前面的智能体只是对人类已有知识(包括私域数据和人类新知识)的记载,但 BabyAGI 这样的智能体可能逐渐会与人类的知识变得毫无关联。

如果说这些智能体的部署和生产的成本越来越低的话,他们甚至可能会产生人类的数据,这也就是很多人认为我们人类已经到了造物主这个时刻。以前本质上这个世界的信息都是人类的生产经营活动造成的,但以后人类会创造一个东西,这个东西是自己的自我演化,会产生远比人类更多的数据,那么数据会爆炸,非结构化数据会爆炸,存储数据也会爆炸,这也就是向量数据库未来的巨大机会所在。

尽管在当下我们还想不到这类智能体的具体应用场景,以及人类是否需要那么多智能体,但是或许到某一天可能我们每个人都需要大量这样的 Agent,而每个 Agent 都伴随着向量数据库。

从技术栈的角度理解向量数据库

如果从技术栈的角度来看,AI 时代的技术栈是 CVP( ChatGPT-Vector Database-Prompt ),这里的 C 是指以 ChatGPT 为代表的大模型,Vector Database 就是向量数据库,Prompt 也就是提示词。在实际应用过程中,真正需要用到向量数据库的并不是这些大模型本身或者说它们的需求量很小,而是基于大模型做开发的开发者。

如果我们将其对应到移动互联网时代,开发者平台 iOS 和 Android 就相当于 CVP 里的 C,而 mongoDB和 Firebase 这样的数据库就对应于 CVP 里的 V,各种前端应用对应于 CVP 里的 Prompt。

alt

在每一个技术时代,都是类似的技术栈,都需要相应的数据库,而使用这些数据库的并非类似 iOS 和 Android 这样的平台,而是开发者,这也就是为什么数据库的市场如此大的原因,因为最终的平台可能也就几家,但是开发者成千上万甚至上亿。

而当下中间层非常火的 Langchain 和 LlamaIndex 等产品,其角色是把 CVP 串联起来,如果放到上一个时代的话,它有点类似 IDE,让开发者可以更简单地开发应用。

向量数据库未来的可能格局

我们先看看上一个技术时代云数据或者数据分析平台的最终格局,基本上都是双寡头模式,一个 Snowflake,一个 Databricks,其中 Snowflake 闭源,Databricks 开源。双寡头会占据市场的 60%以上的市场份额,后面市值在几十亿美金的云数据分析公司至少还有 20 家左右,市场格局基本上呈现出寡头和长尾分布的模式。

因此在向量数据库领域,Zilliz 创始人星爵认为,未来可能也会呈现类似的格局,即出现1 到2家 500-1000 亿美金的公司,它们可能会做通用的方案,解决通用类场景。同时在几十到百亿美金之间可能还会有 10 家左右,它们会专注在细分垂直领域,而从过去美国市场的情况来看,几乎都延续了这样的格局。

当然,整个市场才刚刚开始,我们只能从前几个技术时代做简单的预测。现在 AI 的产品形态和场景变化太快,目前主要还集中在文本大模型领域,星爵表示 Zilliz 很早就已经开始做多模态的大模型支撑,下一波的视频、图片以及生物医药等领域的大模型会很快到来,因此未来的向量数据库存储的记忆将不再限于文字,它会存储图片、视频甚至化学分子式等等。

Zilliz 如何在 5 年前便发现了向量数据库这个机会

向量数据库这个概念在最近才真正火起来,但是 Zilliz 在 2018 年就已经在全球开始布局了,因此我特别好奇星爵是如何在那么早就发现了这个机会,星爵说了三个层面:

第一个是技术的直觉,作为在甲骨文做了多年数据库产品的人,星爵说当时最简单的直觉就是在不同的应用场景下,一定会带来新的数据基础软件的机会,如果这个场景足够大的话那就能做成一个非常大的事情。

第二个就是 AI 的逐渐兴起,在 2015-2016 年的时候,我们已经看到 AI 兴起了,也就是 AI 1.0 那一波浪潮。那个时候市场已经有一个基本的共识,那就是 AI 一定会是未来 10 年 20 年最大的一个变革,虽然市场发展过程中的波折让很多人对 AI 的未来产生了疑问,但是星爵一直是相信这个事情会发生的。有了这样一个信念,那么围绕 AI,这种基础软件数据一定会发生很多变化,也就是向量这个东西,它是现代 AI 的本质。

第三个则是星爵亲历了 Snowflake 的整个成长历程,这对于星爵具有非常大的触动,星爵说给他带来了非常大的激励。Snowflake 早期的两位联合创始人跟星爵是隔壁办公室的同事,大家在一起共事写了近 3 年代码。星爵见证了 Snowflake 打造云原生数据库系统快速爆火到获得巨大成功的全过程,深受鼓舞,决定要在 AI 时代打造新一代 AI 原生的数据库系统。

Zilliz 的早期创业经历

正是 Snowflake 爆火的触动与对机会的认知,最终让星爵决定回国创业,星爵跟我说的这句话让我印象非常深刻:

只有见证过奇迹,才会相信奇迹,才会相信奇迹会降临于你。

自此,一段孤独的创业历程便开始了,而选择回到国内开始自己的创业,星爵说核心是中国在第一波 AI 浪潮时数据量最大,应用场景最多,比方说图片检索、推荐系统、电商搜索引擎等领域很早就已经用上向量数据库了,像淘宝的以图搜商品,就是非常典型的应用场景,还有像微软的 Bing 搜索,很早就已经用上向量数据库了。

只是那个时代 C 端的个人消费者是无法感知到这些技术的,本质上还是一个非常小众的市场,但也正是这些应用场景,让星爵更加坚信了自己的判断是正确的,他需要等的就是 AI 的 iPhone 时刻。当 ChatGPT 这个 Killer 产品出现引爆 AI 2.0 后,向量数据库快速从小众市场一下子走向了庞大的开发者市场,这才有了如今大量 VC 追逐投资的景象。

在星爵开启向量数据库创业的时候,即使是在硅谷也没有几个人能懂,投资就更别说了。但从事数据库工作多年的技术直觉让星爵一直坚信,向量数据库就是未来。因此即使早期没有人愿意相信,他依然自己做自己的天使,投入近200 万坚持了下来。

2015-2016 年,Snowflake 在美国的创投圈已经非常火了,成长为新一代独角兽公司。而 Snowflake 的整个发展过程,坚守的是技术/产品至上,其产品在任何一个单点功能上都会比竞争对手要好那么一点点。Snowflake 几乎做了整整 5 年的研发才开始正式对外售卖产品,这一点也成为星爵在做 Zilliz 坚守的一个信条,Zilliz 至今已经快做了 6 年时间,仍然没有一个销售,没有做营收,因为星爵认为,一个基础软件产品,没有个 3-5 年的技术研发,你是没办法拿出去卖的:

如果一个产品经过一两年时间的研发就开始对外卖,那么这个产品一定是没有壁垒的

同样,Snowfake 一开始坚决只做云,也成为 Zilliz 的另一个信条,星爵认为做云上的生意是一个非常好的商业模式,但是一开始做云一定是非常痛苦的,因为它的速度会非常慢,并且面对私有部署以及销售等大单,很多时候是经不住诱惑的,但是对于一个创业公司来说,如果你开始就做私有部署做销售,你的资源很快就会跟不上,它可能会将公司耗死,或者你会变成一个项目公司。

为何一开始就决定做开源

星爵认为这与产品本身的属性相关,Zilliz 作为向量数据库的全球开拓者,不要说在当时,即使是现在真正懂的人可能也不多,作为一个全新并且主要面向开发者的产品,在一开始大家都是没有共识的,因此这个时候要让开发者为此付费是非常困难的,你必需要让大家先使用,而开源就是最好的方式,同时开源是获取用户反馈最好的一种方式。

通过开源,Zilliz 没有一个销售和 BD,已经在全球获得 1000 多家客户,而开源带给 Zilliz 最大的价值还在于带来技术和产品的反馈迭代,这是 Zilliz 区别于大部分竞品的核心之一。

Day 0 即以硅谷的方式做一家全球化公司

在我们的聊天过程中,星爵一直跟我说的一句话就是,Zilliz 从 Day 0 开始即是以硅谷的方式做的一家全球化公司。这点无论是公司的产品研发、做开源的决策、人才招聘、不着急做营收,还是融资过程中的各种坚持,在国内很多做法可能都是反共识的。

比方说融资,星爵跟我分享说国内的大部分投资人一般都要在硅谷找一个对标,如果没有对标是很难决策的,但向量数据库这个事情一开始就是全新的,是一个原创的产品,在全球都找不到对标,这在硅谷是非常正常的一个事情,大家创业都会标榜自己是原创的产品,而不会去某个市场找一个对标。

因此在融资过程中他只能找真正愿意相信这个事情的投资人,找真正能看得懂这个事情的人,而不会去迎合投资人的要求,这个过程说容易,但是要真正执行起来非常困难的,因为每一次都会有投资人来挑战你,大部分海外回国创业的创始人可能坚持一下就妥协了。

同样在产品层面,也是完全按照硅谷的方式,星爵认为对于基础软件,最核心的就是要做好技术研发和产品,营收是技术和产品之后的一个事情,这在硅谷也是非常正常的一个事情,比方说前面说的 Snowflake,以及像 Databrick 和 Anysacle,直到独角兽之前其营收基本上都为零。

在这过去的 5 年,Zilliz 不到 100 人的员工绝大部分都是研发工程师。在过去三年里,他们在国际顶级数据库会议发表的论文基本上做到了每年一篇,星爵说今年他们会发表 3 篇,在基础软件这个领域,国内鲜有创业公司可以拥有 Zilliz 这样的研究实力。

Zilliz 的这些做法,星爵认为放到中国市场来看都是反共识的,但是放到硅谷去看都是 Make Sense 的,这是中美两地环境最大的一个不同。星爵希望能通过 Zilliz 的努力,证明中国创业者也能在企业端做出全球原创性的产品,并改变国内创投环境对于原创产品的更多支持,最终形成创业者与投资人的良性循环。

也正是有了整个这一套的内在价值支撑,Zilliz 这几年一直按照星爵的这种方式,排除掉外界所有的噪音,从零做到目前接近 7 亿美金估值的公司还几乎没有做营收没有销售,这在国内的企业级市场是非常少见的。

如今 ChatGPT 的出现真正引爆 AI 从小众市场到大众浪潮,带来向量数据库在全球需求的大爆发。这个时候,星爵认为所有的条件似乎已经具备了,到了 Zilliz 进行商业化的阶段了,而 Zilliz 的商业化也会从北美正式开始,毕竟其全球总部就在硅谷。

最后我简单问了一下星爵 Zilliz 的竞争壁垒,星爵的回答很有意思,数据库本身就是壁垒,世界上能把数据库真正做好的公司没有几个。目前 Zilliz 的开源产品在 Github 已经接近 2 万星标,对于一个企业级的基础软件产品来说,这是非常不错的成绩了。

(本文为转载文章,原文首发于微信公众号【投资实习所】)

  • 如果在使用 Milvus 或 Zilliz 产品有任何问题,可添加小助手微信 “zilliz-tech” 加入交流群。 •
  • 欢迎关注微信公众号“Zilliz”,了解最新资讯。 alt

本文由 mdnice 多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/597463.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

AI视频成工具D-ID介绍(AI数字人常用工具)

Studio D-id,​一个AI视频成工具,用AI创作的数字人,输入人物关键词就可一键生成人物,上传要说的文本或音频则可以开口说话了。 关于AI语音,有很多选项可供选择。目前,Studio D-id支持多达66种语言。然后,您…

蚂蚁集团发布2022可持续发展报告:科研投入204.6亿,实现3年翻倍

蚂蚁集团6月1日对外发布《2022年可持续发展报告》(下简称‘报告’),披露2022年度相关工作进展。《报告》显示,2022年,蚂蚁持续攻坚前沿和底层数字科技,年度科研投入204.6亿元。较2019年,科研投入…

19c rac部署-ssh版本太高的问题

客户有个环境需要部署19c,安装的oracle linux 7.9.,OpenSSH_7.4p1版本适合安装19c集群,但接到环境时,发现openssh已升级到9.0了,理由是等保需要,哎,不抱怨自己解决问题 [INS-32070] Could not r…

外贸网站建设中经常遇到的问题有哪些?

企业外贸网站是企业展示自我,提高品牌知名度的重要工具。在外贸网站建设中,我们也会遇到各种问题,例如,外贸网站设计、 SEO优化、制作周期以及质量等,都是我们在建设外贸网站中需要考虑的问题。 建设一个外贸网站需要多…

BFT最前线 | iOS版ChatGPT周下载突破50万人次;英伟达市值突破万亿美元创造芯片公司历史;华为开发者大会即将发布

原创 | 文 BFT机器人 AI视界 TECHNOLOGY NEWS 01 联合国教育部聚焦生成式AI 联合国科教文组织提出发展路线图 近日,为应对生成式人工智能技术的迅速发展,联合国教科文组织就此议题召开了首次全球教育部长会议。40多位部长分享了将这些工具融入教育的…

10.ES6模块化规范(关键字 import,from,as,export的用法)

导入其他模块成员要使用关键字 import ,导出需要使用关键字 export 我们明确一个概念,只有js与js之间需要使用import与export,如果是在html中引入js是不需要用import的,你导入的方式是直接srcxxx.js 目录 1 默认导入导出 2 …

CMake构建Makefile深度解析:从底层原理到复杂项目

CMake构建深度解析:从底层原理到复杂项目实践 一、CMake构建后的项目结构解析(Analysis of the Project Structure After CMake Build)1.1 CMake构建后的目录结构(Directory Structure After CMake Build)1.2 构建生成…

分布式锁的应用场景与分布式锁实现(一):传统锁处理并发及传统锁的问题

分布式锁 代码已同步至GitCode:https://gitcode.net/ruozhuliufeng/distributed-project.git ​ 在应用开发中,特别是Web工程开发,通常都是并发编程,不是多进程就是多线程。这种场景下极其容易出现线程并发性问题,此时…

新能源汽车充电桩的建设及优化分析

安科瑞虞佳豪 新能源汽车充电桩在经历了几年的发展之后,总体情况是在持续走好的,并且充电桩的建设相较于以往有了很大的普及度和安全度,这对新能源汽车车主是一个好事,也鼓励了更多人选择买新能源汽车,但这并不是说新…

HTTP劫持是什么?如何防止网站被劫持呢?

HTTP劫持(HTTP hijacking)是一种网络攻击技术,攻击者通过各种手段截取用户的HTTP请求或响应,篡改其内容或重定向到恶意服务器,从而实施恶意活动。这种攻击可能导致用户信息泄露、身份盗窃、篡改网页内容或植入恶意代码…

鼎盛合充气泵方案——便携车载充气泵方案

便携车载充气泵主要使用在汽车轮胎充气及车胎检测上,是一个气压精度测量产品。充气泵方案则是通过马达运转工作而进行设计,利用芯片和气压传感器所做的一个智能化便携车载充气泵方案。 便携车载充气泵方案的使用范围其实不仅仅是汽车轮胎,它在…

Android Studio Flamingo编译项目问题记录

系统版本:macOS 13.4 Android Studio Flamingo | 2022.2.1 Patch 2 下载地址:Download Android Studio & App Tools - Android DevelopersAndroid Studio provides app builders with an integrated development environment (IDE) optimized for …

protobuf笔记

protoc -Ipb/protos -Ipb/protos/third/github.com pb/protos/custom/*.proto -I 指定需要import的gogo.proto文件路径, protoc查找过程为 -I后面的路径和import的路径拼接在一起。 -Ipb/protos 指定proto源文件路径-Ipb/protos/third/github.com 指定第三方proto&…

el-select如何改变样式 (:popper-append-to-body=“false“)

在使用el-select的时候,其样式会按照Elementui自带的默认样式为基准; 但往往开发过程中,下拉框的样式可能并不是我们想要的;这是我遇到过的一个案例,开发需求上与elementui默认样式大相径庭; 如何进行修改呢…

JAVA基础 - CLASSLOADER双亲委派机制?

类的生命周期 在JAVA中数据类型分为基本数据类型和引用数据类型。基本数据类型,由虚拟机预先定义,引用数据类型则需要进行类加载。 JAVA将引用数据类型分为:类、接口、数组和泛型参数,而「泛型参数」在编译时期会被擦除&#xff…

web前端 --- javascript(01)-- 介绍、变量和数据类型

JavaScript w3c:三层分离 结构层:HTML 表示层:CSS 行为层:JavaScript 介绍 (1)作用: 数据校验网页特效数据交互服务器端编程(NodeJS) (2)javas…

开源赋能 普惠未来|UBSICE诚邀您参与2023开放原子全球开源峰会

UBSICE(Unified Basic Service Infrastructure Community Edition)是一个轻量级“面向领域”的高可用、高性能、业务连续性的微服务架构技术底座。UBSICE特有的“微服务容器”不仅是一个微服务的运行容器,还通过“容器控制器”管理其他微服务…

Linux超全整理Linux性能分析工具汇总

出于对Linux操作系统的兴趣,以及对底层知识的强烈欲望,因此整理了这篇文章。本文也可以作为检验基础知识的指标,另外文章涵盖了一个系统的方方面面。如果没有完善的计算机系统知识,网络知识和操作系统知识,文档中的工具…

大数据存储方式有哪些?

写在前面 本文隶属于专栏《大数据从 0 到 1》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢! 本专栏目录结构和文献引用请见《大数据从 0 到 1》 正文 数据常用的存储介质为磁盘和磁带。…

Seaborn.load_dataset()加载数据集失败最佳解决方法

load_dataset() 是 Seaborn 库中提供的一个函数,用于加载一些原始数据集。这些数据集包含了许多经典的数据集,比如鸢尾花数据集、小费数据集等,这些数据集在数据可视化和机器学习中非常常见。 使用 load_dataset() 函数可以方便地获取这些数…