ICLR 2024 Oral|微软推出多模态数学测试基准MathVista,挑战Google Gemini

news2024/11/17 9:48:44

06b65d94739fa1ddadaf8231d839e7e5.gif

微软等机构提出了首个以视觉场景为核心的数学推理基准 — MathVista。他们提供了一份长达 116 页的详尽报告,其中深入剖析了包括 GPT-4V 在内的 12 个大型模型的性能。令人瞩目的是,MathVista 已被 Google Gemini 采纳为其多模态数学测试的标准之一。此项研究的卓越表现也得到了业内的高度认可,荣获 ICLR 2024 的口头报告机会,其录取率仅为 1.2%。

58fb4f4f87f165fd10de612561e500c6.jpeg

数学,作为人类智能的核心要素,一直被认为是通往通用人工智能的关键之路。它的魅力不仅体现在极具逻辑性的数字和符号上,还蕴藏在丰富多彩的图像之中。从古至今,人类对于图形中蕴含的数学问题的研究从未间断。美索不达米亚的泥板、中国古籍《周髀算经》的勾股定理证明,都是这一领域的经典例证。在现代教育和科学研究中,图形和图表的使用更是司空见惯。

近期,谷歌团队在《Nature》杂志上发表的 AlphaGeometry 项目,再次将公众的目光聚焦于人工智能在数学领域的应用。

dc2dd0990fbd264ea23c86287535fb0f.png

随着 GPT-4、Gemini、GPT-4V 和 LLaVA等大型模型的涌现,大型语言模型(LLMs)和大型多模态模型(LMMs)的发展日益迅速,它们在各种任务中表现出了令人惊叹的理解和推理能力。然而,对这些模型在视觉场景中的数学推理能力的系统研究尚处于起步阶段。这些模型能否精准理解各种图形、图表和自然图像,以及在数值计算、逻辑推理和科学推理方面的表现,仍是一个待探索的新领域。

为了填补这一领域的空白,微软联合加州大学洛杉矶分校和华盛顿大学,提出了针对视觉场景的全新数学推理基准 — MathVista。MathVista 集成了多种数学任务和图像类型,源自 28 个现有的多模态数据集和 3 个新标注的数据集,共计涵盖 6141 个问题。基于此基准,研究团队撰写了一份 116 页的详细报告,对 GPT-4V、Bard、LLaVA 等模型进行了全面的评估。

b154b924610840c3416c259740415e4c.png

项目地址:

https://mathvista.github.io/

论文地址:

https://arxiv.org/abs/2310.02255

代码地址:

https://github.com/lupantech/MathVista

数据地址:

https://huggingface.co/datasets/AI4Math/MathVista

数据可视化:

https://mathvista.github.io/#visualization

数据基准榜:

https://mathvista.github.io/#leaderboard

MathVista 的发布在学术和工业界引发了不错的反响。它不仅成为了谷歌最新的 Gemini 模型选择的多模态数学推理基准,而且还获得了谷歌首席科学家 Jeff Dean 的高度评价和认可。

e7f7b14ba82fd036f03cc9c6a5ef3ea6.png

57f852d2409ffc9b57edbf475d931dda.png

实验结果显示,即便是目前技术领先的 GPT-4V,在 MathVista 上的准确率也只有 49.9%,与人类的平均水平 60.3% 相比,尚有不小的差距。在这个领域的 Leaderboard 榜单上,表现最佳的 Gemini Ultra 的准确率为 53.0%,同样低于人类平均水平。

5f07c6705174926a7f399e511f1f2dcf.png

此外,论文中对 GPT-4V 的深入分析尤其引人注目。它探讨了该模型的自我验证能力、推理一致性,以及处理复杂多轮对话的能力。这些深入的分析为未来大型模型的发展尤其是在视觉理解和数学推理领域提供了宝贵的参考。


4da223c1d94472f7f37e05816d694323.png

MathVista:视觉场景下的数学推理基准

在现有的数学推理领域,尽管已存在众多以文本为主导的数据集和多模态问答集合,但对于大型模型在此领域的全面评估——特别是在多模态数据集这一方面——仍然存在着显著的空白。为此,微软推出了创新性的 MathVista 数据集,专注于挖掘视觉场景下的数学问答挑战。

MathVista 集合了6 141 个独特的数学问题,这些问题不仅来自于 28 个现有数据集,还包括 3 个新近标注的数据集——IQTest、FunctionQA 和 PaperQA。这三个数据集各具特色:IQTest 以智力测试题为核心,FunctionQA 专注于函数图形推理,而 PaperQA 则致力于对学术文献中图表的深入解析,有效填补了现有数据集的不足。

87ab4d693056c0d4b811d813a7aceaf3.png

MathVista 包含了两大类主要任务类型:多选题(占比 55.2%)和数值型开放式问题(占比 44.8%)。它覆盖了五大核心任务领域:图形问答(FQA)、几何解题(GPS)、数学应用题(MWP)、教材问答(TQA)和视觉问答(VQA),这些领域代表了数学推理领域的最新挑战。

7a8610152a4e1f0415176d33d33235f3.png

2.1 数学推理的能力全景

MathVista 深入挖掘并定义了数学推理的七大能力领域,囊括了代数、算术、几何、逻辑、数值常识、科学和统计等。这些领域不仅覆盖了数学推理的核心要素,也展示了 MathVista 在数学认知广度和深度上的全面涵盖。

0af31127bb5dab01d7ff0ef88c92b9d7.png

9d24a478fbea895f443a9d61823b1b04.png

2.2 图像的丰富多样性

在图像类型的多样性方面,MathVista 展现了其独特的广度和深度。它包含了超过十种不同的图像类型,从自然场景到几何图形,从抽象构图到合成图像,以及各种图表和插图。这种图像多样性不仅增强了数据集的复杂度,也为大型多模态模型提供了处理各种视觉信息的全面挑战。

1567d16c08d6d56dc15ec54fd09c5825.png

2.3 交互式可视化:探索的新窗口

研究者们还开发了一款交互式的数据可视化平台,使用户可以根据不同的问题类型进行自由探索,从而更深入地理解数据集。

37c92fcfa8f8d493dac0040ac35f3f6f.png

2.4 Hugging Face平台的风向标

自发布以来,MathVista 已在 Hugging Face 平台上取得显著的成绩,短短一个月内下载量就达到了近 3000 次,显示了其在学术界和工业界中的广泛关注和应用潜力。

6d72824d069c46411afb6e30b58a6c94.png

efda28c16f3198631e7370031afbdfae.png

创新的量化评估方法

在最新的研究报告中,研究者首次对当前主流大型模型在视觉场景下进行数学推理的能力实施了全面的量化评估。该评估使用了创新的 MathVista 数据集,这个数据集被细分为两个关键子集:minitest 和 test。

minitest 子集包含了 1000 个问题,主要目的是快速评估模型的性能。而更为全面的test子集则含有剩余的 5141 个问题,用于进行深入而标准化的模型评估。为了确保测试的严谨性,避免数据泄露,test 子集的答案标签数据并未公开。

在模型评估的过程中,团队采用了三个关键步骤:生成回答、抽取答案和计算分数。首先,在生成回答的阶段,团队根据不同类型的测试问题,设计了特定的模板来引导模型产出答案。

42e350d675c0ba1e4e30de1afddd2ee1.png

考虑到当前的大型模型通常倾向于以对话形式输出较长文本回答,研究报告中采用了一个基于 GPT-4 的答案抽取器。这个抽取器通过向 GPT-4 提供一系列示例提示,有效地从模型的长文本回答中提取出适合题目要求的简短答案。这种方法不仅大大降低了传统人工评估的成本,而且避免了基于规则的答案抽取方法可能带来的准确性问题。

9d1f847d4b32426dd572261aba187325.png

最后,这些提取出来的简短答案被用来计算模型的总体准确率,以及在不同子类别中的表现。

40725575e7cdc826e57b971b9cf9b4e6.png

大模型的量化分数

在最近的实验中,研究团队在 testmini 子集上对 12 种大型模型进行了细致评估,其中包括了 ChatGPT、GPT-4 和Claude-2 等三种大型语言模型,以及 LLaVA、LLaMA-Adapter、miniGPT-4、Bard 和 GPT-4V 等九种大型多模态模型。

为了全面评估大型语言模型的能力,实验设计了两种测试方式:第一种仅利用问题的文本信息(Q),第二种则结合了图片的 Captioning 描述和 OCR 文本作为辅助信息。此外,实验还包括了两种随机基准测试和人类表现基准。

实验结果显示尽管当前的大型模型在 MathVista 上取得了一定的成绩,但整体表现仍有显著的提升空间。表现最佳的 GPT-4V 模型仅达到了 49.9% 的准确率,相比之下,人类的平均表现为 60.3%。Bard 模型紧随其后,准确率为 34.8%,而目前最优秀的开源模型 LLaVA 的准确率为 26.1%。这些数据清楚地表明,在视觉场景下的数学推理领域,大型模型还有很大的进步空间。

1d81adaa81de94c6b54deac63aee7441.png

另一个有趣的发现是,当大型语言模型 GPT-4 结合了图像 OCR 和 Captioning 信息后,其表现(33.9%)与多模态模型 Bard(34.8%)相近。这一结果显示,通过适当的信息增强,大型语言模型在处理多模态任务时具备巨大的潜能。

837439c927908d0cce5ef3ac80602afe.png

最后,实验还对主要模型在不同数学推理领域(如代数、几何和科学)和图像类型(如表格、函数图、几何图像、散点图和科学图形)上的表现进行了细致的量化评估。结果显示,GPT-4V 在这些领域和图像类型的处理上,其表现不仅接近,甚至在某些方面超越了人类。

ae072ae63ff28599dad530771080d6fd.png

b0926d4e6d86d0c301f48a5a41229ce5.png

GPT-4V的综合表现分析

作为当前领先的大型多模态模型,对 GPT-4V 的深入分析对未来的人工智能研究具有重要意义。报告中通过众多实例细致地评估了 GPT-4V 在多个维度的能力,尤其是在自我验证、一致性和处理多轮对话方面的巨大潜力。

4.1 代数推理能力

在 MathVista 的代数问题中,GPT-4V 展现出了其优越的能力,特别是在理解图像中的函数及推导其属性方面,其表现甚至超越了其他大型模型和人类。然而,面对低分辨率和多函数的图像时,GPT-4V 依然遇到了挑战。

3932039cca73b2918fb3bdc7f3a728e0.png

4.2 数值计算能力

MathVista 中的数值问题不仅考验了模型的基础运算准确性,还要求理解多样化的视觉场景。如实验所示,GPT-4V 在这方面相较于现有模型有显著提升。

96d84da41f23f21e936b31db69956440.png

4.3 几何推理能力

在几何推理测试中,GPT-4V 在 MathVista 上的表现与人类持平。无论是面对小学水平还是更高年级的几何问题,GPT-4V 都能提供正确答案,并附带详尽的解释。

9494b61692e790d282ce95ac2f0d3b03.png

c40825426236c60ff1d1946d3ead79c9.png

a1960b64700a082184030eb26fa361cc.png

4.4 逻辑推理能力

在逻辑推理部分,模型需从抽象图形中推导数字或形状的隐含规律。GPT-4V 在这一领域的准确率为 21.6%,略高于随机猜测的 8.1%,显示出一定的挑战。

14cdb0df31a9dfb0e3f71927ba278d17.png

4.5 数值常识推理

MathVista 的数值常识问题涉及日常物品和名人知识,对大型模型来说是一项挑战。GPT-4V 在某些问题中表现出对视觉错觉现象的正确理解,但在一些特定场景,如识别烧杯的最大容量时,与 Bard 模型的表现同样不佳。

5157d402e4f75e37abd6d7a94406335e.png

c32a49fb77bdc19c1ada7458fc6a07e4.png

4.6 科学推理能力

在科学推理部分,GPT-4V 明显胜过其他大型模型。它能准确解读特定科学领域的图表信息,并进行有效推理。尽管如此,基本概念的应用,如相对运动,仍是其弱点。

c385145947e665306814fac52e2553f8.png

1fa6627d3f1e7cc1f18e4bcb06a7bbdd.png

9e357436220876a85484a457a98892a1.png

b1498847e067581ae417390394dc23ed.png

4.8 统计推理能力

GPT-4V 在处理 MathVista 中的图表、绘图和统计图形方面展示了出色的统计推理能力。在涉及图表分析的问题上,其表现超过了其他所有大型模型。

ce4d809b06014657c5487ca0a39c7731.png

2dba9a44d8e4b45443ea3f23f26e0c47.png

a969f36fb07cc502c5c08ce31e3d604b.png

探究GPT-4V的自我验证能力

自我验证(self-verification),源自社会心理学领域,指的是个体倾向于希望他人根据他们自身的自我感知来理解他们。这种心理动态促使个体采取行动,确保他人能够看到并认可他们的稳定自我状态(Talaifar & Swann, 2020)。

在微软的最新实验中,GPT-4V 展现出了一种类似的自我验证能力。这种能力特别体现在 GPT-4V 在推理过程中的自主性:模型能够自行检查其行为,并在必要时主动纠正潜在的错误。

值得关注的是,这种自我验证能力并不仅仅依赖于外部反馈或多轮对话的迭代,而是能够在单次输出中自我修正。例如,GPT-4V 有时能够在一次输出中自我审核一组候选答案,从而筛选出符合所有给定条件的最佳答案。

397fcfae2ae5c847759cff7aa057094a.png

在处理多步推理问题时,GPT-4V 展现了其显著的自我验证能力。它不仅能进行连贯的逻辑推理,还能自我检验关键步骤的准确性。特别是当遇到无效的中间结果时,比如发现计算得出的长度为负数,GPT-4V 能够主动察觉并纠正这类错误。这种能力使得 GPT-4V 在识别到问题时,能够尝试不同的方法进行解决,优化其整体的推理过程。

1bfcf253a9c0ee5098aefc2c6f839d8d.png

15fa958da99f0647f07c9fa7817492c9.png

e80638b6e634365e6506481380bcca44.png

探究GPT-4V的推理自洽性

自洽性(self-consistency)作为一种在大型语言模型中普遍应用的技术,旨在提高模型处理复杂推理任务时的准确性。这一方法通常涉及多种推理路径的采样,并以最频繁出现的答案作为最终解答。

在微软的最新实验中,研究团队探讨了自洽性技术在提升 GPT-4V 在 MathVista 测试中性能的有效性。实验结果表明,自洽性在纠正 GPT-4V 在视觉感知和计算上的误差,以及减少幻觉现象方面发挥了显著作用。

8a53f1d4867557504dc8fc7d851250fe.png

2f26ec604a88fa13af9debe2d8f6eebf.png

然而,这些实验也暴露了自洽性方法的一定局限性。特别是在 GPT-4V 难以准确理解复杂视觉场景的情形下,自洽性所带来的改善效果并不十分明显。这一发现提示我们,虽然自洽性是一个有效的提升策略,其成功度在很大程度上仍然依赖于模型对视觉信息的基础理解能力。

b5564446e57f0e4417da97fd2e84bd22.png

3164b70cad8836c27683b7c70a81cb60.png

探究GPT-4V的多轮对话能力

在其最新的研究报告中,微软深入探讨了 GPT-4V 在 MathVista 上进行的多轮人机互动对话能力。实验结果显示,GPT-4V 擅于在多轮对话中利用用户提供的提示,以此来优化其推理过程。这种能力涵盖了根据用户指引纠正视觉感知误差、修正推理逻辑中的不连贯性、更正领域知识错误,甚至在人类协助下理解和处理极其复杂的图表问题。

例如,在一个涉及数出图中棒球数量的任务中,GPT-4V 在初次尝试时并未能给出准确答案。但在用户提供了简单提示之后,GPT-4V 在第二次尝试中成功给出了正确的结果。

0ba35a8b3ec56fdaad635d6d584aeeb6.png

在另一个智商测试题中,GPT-4V 最初错误地将缺失数字识别为序列中的下一个质数。但在用户提示指出数字序列与质数无关后,GPT-4V 有效地运用了这一提示,完成了准确的逻辑推理。

6b1fbea06492ae6b7791769999dcadfe.png

在一道科学问答题目中,GPT-4V 在第一次尝试时并未使用正确的定理来回答问题。然而,在用户提供了正确的背景知识后,GPT-4V 能够正确地运用该定理,并给出了正确的答案。

9d1d14228f6e32cfdcb38fe3afa2dc60.png

09e25fba2066fd3f6e7c7b38b3d9007e.png

outside_default.png

参考文献

outside_default.png

[1] MathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts, https://arxiv.org/abs/2310.02255

[2] Solving olympiad geometry without human demonstrations, https://www.nature.com/articles/s41586-023-06747-5

[3] Gemini: A Family of Highly Capable Multimodal Models, https://arxiv.org/abs/2312.11805

[4] GPT-4V(ision) System Card, https://cdn.openai.com/papers/GPTV_System_Card.pdf

[5] Bard, https://bard.google.com/chat

[6] GPT-4 Technical Report, https://arxiv.org/abs/2303.08774

更多阅读

ddc901b30e035895a827c5d6d147a85d.png

f510d157a15ea16a8735ee58bb45bfcf.png

619ef090882bdd5062b41f4b3fac5ce8.png

7b0ede21535aea5c3131f169e199aee5.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

bdb8617e6da651ffb39608c61a1740ab.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

3eb9165a95fa973895feea3e2cf66111.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1419782.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Docker 安装与基本操作

目录 一、Docker 概述 1、Docker 简述 2、Docker 的优势 3、Docker与虚拟机的区别 4、Docker 的核心概念 1)镜像 2)容器 3)仓库 二、Docker 安装 1、命令: 2、实操: 三、Docker 镜像操作 1、命令&#xff1…

Unity中使用Ultraleap的InteractionButton组件

本节在上一节基础上进行,上一小结参考如下: Unity中创建Ultraleap 3Di交互项目 本节工程文件如下: Unity中使用Ultraleap的InteractionButton组件 本节结构有所更改,主要是参考官方示例结构进行重新调整,和上一小节相…

torch与cuda\cudnn和torchvision的对应

以上图片来源于这篇博客 于是,我需要手动下载0.9.0torchvision 直接在网站https://pypi.tuna.tsinghua.edu.cn/simple/后面加上torchvision,就不用ctrlF搜torchvision了,即进入下面这个网站,找到对应版本的包下载安装即可 https…

蓝桥杯2024/1/26笔记-----基于PCF8591的电压采集装置

功能实现要求: 每次建好工程文件夹,里边包含User(放工程文件,mian.c,可以在这里写如同我这个文章的文本文档)、Driver(存放底层文件如Led.c,Led.h等) 新建的工程先搭建框…

LeetCode.209. 长度最小的子数组

题目 题目链接 分析 本题的题意就是让我们找最短的子数组和 > target 的子数组的长度。 首先最能想到的就是暴力方法,外层循环以数组每一个元素都作为起点,内存循环累加元素,当大于等于 target 的时候记录当前元素个数,更新…

Security ❀ HTTP/HTTPS逐包解析交互过程细节

文章目录 1. TCP三次握手机制2. HTTP Request 请求报文3. HTTP Response 响应报文4. SSL/TLS协议4.1. ClientHello 客户端Hello报文4.2 ServerHello 服务器Hello报文4.3. *ServerKeyExchange 服务公钥交换4.4. ClientKeyExchange 客户端公钥交换4.5. *CertificateVerify 证书验…

机器学习-pandas(含数据)

pandas 优势: 增强图表可读性便捷的数据处理能力读取文件方便封装了Matplotlib、Numpy的画图和计算 更详细的教程:Pandas 教程 | 菜鸟教程 (runoob.com) Pandas数据结构 Pandas中一共有三种数据结构,分别为:Series、DataFram…

Python 二维码开源库之segno使用详解

概要 Python Segno 是一个用于生成二维码的开源库,它提供了丰富的功能和灵活的选项,可以帮助开发者轻松地生成各种类型的二维码。本文将介绍如何使用 Python Segno 创建二维码,并深入探讨其功能和用法。 什么是 Python Segno? P…

SV-8003V 网络寻呼话筒

SV-8003V是深圳锐科达电子有限公司的一款桌面式对讲主机SV-8003V同样作为广播对讲系统的核心组成部分,集成有全区广播、分区广播、单点呼叫、点对点对讲、以及监听等功能。SV-8003V使用铝合金拉丝面板,并配有高性能的鹅颈麦克风以及高保真的全频喇叭&…

测试ASP.NET Core项目调用EasyCaching的基本用法(Redis)

EasyCaching中的包EasyCaching.Redis和EasyCaching.CSRedis都支持集成Redis实现缓存,前者基于StackExchange.Redis,而后者基于CSRedisCore,本文学习使用EasyCaching.Redis包连接redis服务实现缓存的基本用法。   新建WebApi项目&#xff0c…

Springboot自定义线程池实现多线程任务

1. 在启动类添加EnableAsync注解 2.自定义线程池 package com.bt.springboot.config;import org.springframework.context.annotation.Bean; import org.springframework.context.annotation.Configuration; import org.springframework.scheduling.concurrent.ThreadPoolTask…

面向云服务的GaussDB全密态数据库

前言 全密态数据库,顾名思义与大家所理解的流数据库、图数据库一样,就是专门处理密文数据的数据库系统。数据以加密形态存储在数据库服务器中,数据库支持对密文数据的检索与计算,而与查询任务相关的词法解析、语法解析、执行计划生…

宠物处方单子怎么开,宠物门诊处方管理软件教程

宠物处方单子怎么开,宠物门诊处方管理软件教程 一、前言 宠物店电子处方软件操作教程以 佳易王宠物店电子处方管理系统V16.0为例说明。 如图,在开处方的时候,点击导航栏菜单,兽医处方按钮 点击 增加新单,填写宠物及…

Facebook的创新征程:社交媒体的演进之路

在当今数字化时代,社交媒体已经成为人们生活中不可或缺的一部分,而Facebook作为社交媒体领域的巨头,一直在不断创新和演进。本文将深入探讨Facebook的创新征程,追溯其社交媒体的发展历程,探讨其对用户、社会和数字时代…

洛谷 P1433 吃奶酪 状态压缩dp

文章目录 题目链接题目描述解题思路代码实现总结 题目链接 链接: P1433 吃奶酪 题目描述 解题思路 首先,这个程序是用来解决洛谷上题目编号为 P1433 的问题——吃奶酪,使用了状压DP算法。 整体算法的思路是利用动态规划,通过状态压缩来解…

私有化部署pdf工具箱

功能简介 用于合并/拆分/旋转/移动PDF及其页面的完全交互式GUI。 将多个 PDF 合并到一个生成的文件中。 将 PDF 拆分为多个文件,并按指定的页码或将所有页面提取为单个文件。 将 PDF 页面重新组织为不同的顺序。 以 90 度为增量旋转 PDF。 删除页面。 多页布局…

Docker(第三部分)

1,Docker复杂安装说明 今天的优势会被明天趋势所取代 一切在云端 安装mysql主从复制 主从复制原理,默认你懂 主从搭建步骤 1,新建主从服务器容器实例3307 docker run -p 3307:3306 --name mysql-master\ -v /mydata/mysql-master/log:…

Hive(15)中使用sum() over()实现累积求和和滑动求和

目的: 三个常用的排序函数row_number(),rank()和dense_rank()。这三个函数需要配合开窗函数over()来实现排序功能。但over()的用法远不止于此,本文咱们来介绍如何实现累计求和和滑动求和。 1、数据介绍 三列数据,分别是员工的姓名、月份和…

python-自动化篇-运维-语音识别

文章目录 理论文本转换为语音使用 pyttsx使用 SAPI使用 SpeechLib 语音转换为文本 代码和效果01使用pyttsx实现文本_语音02使用SAPI实现文本_语音03使用SpeechLib实现文本_语音04使用PocketSphinx实现语音转换文本 理论 语音识别技术,也被称为自动语音识别&#xf…

SSL 证书如何工作?

SSL 的原理是确保用户和网站之间或两个系统之间传输的任何数据始终无法被读取。它使用加密算法对传输中的数据进行加密,从而防止黑客读取通过连接发送的数据。该数据包括潜在的敏感信息,例如姓名、地址、信用卡号或其他财务详细信息。 该过程如下所示&am…