GPT-4o技术粗粗粗解

news2024/11/26 15:44:47

GPT-4o是一个非常优秀的多模态大模型。它的输入是语音、文字、图像/视频。输出自然有语音、文字、图像。如果说它像一个人的能力,那还真的差不多了。可能离AGI就不远了吧!在现有的AI能力路上,SamAltman那句逆言的忠耳一定要听:不要在OpenAI前进的路上;不要研究基础的AI能力。

可是OpenAI又不站在中国这一边,能怎么办呢?我们只能一边期望OpenAI达到AGI;一边既要努力研发芯片、一边又要努力研究模型;还要判断 GPT5是不是就极度接近AGI了呢?

不管这些,还是看看GPT-4o可能的技术吧。也许你看一个公司的产品发布是会得到它的技术端倪的。

从整体上看,GPT-4o是一个极其特殊的多模态模型。不太可能是多个模型组合的东西。所以,它的大概结构框架可能是这样的图

img

这里边有几个难点

  1. 流式的语音识别。尽管从架构上看,流式语音与批处理语音处理的差别不大。但是实际技术难度上是有相当大的区别的。因为批处理在数据预处理,模型数据的输入固定大小,模型的训练等方面与这个图像、文字可能没有什么差异,只要在数据预处理这块做个手脚,完成特征到嵌入的转换,可能就是一个标准的多模型模型就成了!

img

但是这个流式的处理,麻烦在于两点:实时性对于性能极其的敏感,这次的GPT-4o本身可以说在300ms左右解决了输入与输出这个响应,那在基础模型的优化计算、算力的大的集群调度上有了一个质的飞跃!甚至是Nvidia的显卡供货上都得到了优先保障!

另一个难点,可能是流式模型的嵌入转化。这方面的论文好像在去年才逐渐增加的。典型的是 onformer-Based on-Device Streaming Speech Recognition 一类的吧。
https://ieeexplore.ieee.org/abstract/document/10023291

所以我觉得这个流式的问答一出来,所有搞语音AI助手的创业公司真的就死掉了!

SamAltman那句逆言的忠耳一定要听:不要在OpenAI前进的路上;不要研究基础的AI能力。

img

再就是不那么惊艳的 文字与图像的能力,很明显过去在GPT-4这个阶段,我们是体会过这个东西的,但是说实话并没有达到特别好的程度。现在这个实时对话的那个 图的识别,你感到的是什么?

img

它可能正在多模态,也就是图像这个领域达到它曾经在文字处理上达到的高度。真的能够跟人一样的认清这个世界的样子?

不过这个东西的架构上,大家可能差不多,至少在国内公开的模型中通义千问曾经做得不错的。

img

但是,当它能看到你看到的一样的东西,也能像你一样的理解这个世界?

你不觉得它可怕吗?

再看看这个程序的理解能力,你觉得程序员怕不怕???

img

就问你怕不怕?

在去年我就写过程序员这个职业要完蛋的文章。

今天我要更明确的说,程序员这个职业看到了落日!

如果你想,可能真的要去重新认识一下,人工智能这件事!

上面的介绍吧,都是GPT-4o 的简单分析,具体的训练方法,我这里就不多讲了,但我十分推荐你来听听,知乎知学堂的最近推出的这节《AI大模型公开课》。主要针对的就是想进阶AI方向的产品经理和程序员,讲大模型的技术原理和实战,对我的帮助很大,尤其是课程里关于Transformer 的原理、使用Fine-Tuning进行模型微调的技术一定要仔细听。

而且现在大模型正是行业趋势,AI全栈工程师才是未来的方向,如果都掌握了,白富美有没有我不知道,但是跳槽、涨薪都是个很好的加分项是一定的。

视频教程我直接给大家找过来了,现在直接微信扫码就可以,据说后面就要收费了⬇️

对了,如果你懂点Python,那这节课对你来说学起来会很轻松!大佬讲解的通俗易懂,出了前沿的技术,更有如今的人才需求、市场趋势分析等等,等极大的拓宽你的眼界,十分受益!

说学起来会很轻松!大佬讲解的通俗易懂,出了前沿的技术,更有如今的人才需求、市场趋势分析等等,等极大的拓宽你的眼界,十分受益!

最后,祝你能够成功的转型到人工智能时代吧,毕竟这个门已经在慢慢的关上了!

## AI大模型学习福利

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

一、全套AGI大模型学习路线
AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

二、640套AI大模型报告合集
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

2024最新版CSDN大礼包:《AGI大模型学习资源包》免费分享,微信扫码免费领取~
在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1875687.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何利用React和Python构建强大的网络爬虫应用

如何利用React和Python构建强大的网络爬虫应用 引言: 网络爬虫是一种自动化程序,用于通过互联网抓取网页数据。随着互联网的不断发展和数据的爆炸式增长,网络爬虫越来越受欢迎。本文将介绍如何利用React和Python这两种流行的技术&#xff0c…

测定分子结构丨核磁共振(NMR)测试原理、制样要求以及常见问题深度解密!...

✨【元素魔方学术俱乐部】✨ 👩‍🏫👨‍🏫我们创建了一个学术交流群 给全国各地以及各种研究方向的硕博 和老师们提供一个交流的平台📚🧪 感兴趣的话欢迎加入 📲本公众号中回复“社群” 会自动发…

六、资产安全—信息分级资产管理与隐私保护练习题(CISSP)

六、资产安全—信息分级资产管理与隐私保护(CISSP): 六、资产安全—信息分级资产管理与隐私保护(C

【知识学习】阐述Unity3D中Profile和性能的概念及使用方法示例

在Unity3D中,"Profile"和"性能"是两个相关但不同的概念,它们在游戏开发中扮演着重要的角色。 Profile(配置文件) "Profile"在Unity中通常指的是一种配置文件,它包含了一系列的设置和参…

在线AI聊天对话机器人,答你所问!

随着AI人工智能技术的不断进步,AI聊天对话机器人已经成为我们日常生活中常用的工具。这些智能助手不仅能够提供信息查询、生活娱乐、学习辅导等服务,还能通过自然语言处理和机器学习技术理解用户的需求,提供个性化的回答和建议。下面小编就和…

多功能引流必备神器!评论区关键词采集!斗音平台引流

大家好我今天带来的这款软件,就像是抖音引流界的“多功能引流神器”,功能全面到让你眼花缭乱,而且操作简便到连你的宠物金鱼都能学会! 下面开看看都有哪些功能​: 高级截流拓客功能:想象一下,你…

【redis】redis RDB

1、概述 1.1定义 RDB (Redis Database) 是 Redis 的默认持久化机制,它能够在指定的时间间隔内将内存中的数据集快照写入磁盘。RDB 持久化产生的文件是一个经过压缩的二进制文件,通过该文件可以还原生成 RDB 文件时的数据库状态。 1.2特点 一次性全量备…

高性价比 ESP32 网络收音机:OLED 显示+编码器控制 (源码开源)

摘要: 本文将详细介绍如何使用 ESP32 开发板制作一个功能完备的网络收音机。我们将涵盖硬件选择、软件架构、网络连接、音频流解码、用户界面设计等方面,并提供完整的代码示例和详细的解释,帮助您轻松构建自己的网络收音机。 关键词: ESP32, 网络收音机…

java基于ssm+jsp 多人命题系统

1管理员功能模块 管理员登录,管理员通过输入用户、密码等信息进行系统登录,如图1所示。 图1管理员登录界面图 管理员对个人中心进行操作填写原密码、新密码、确认密码并进行添加、删除、修改以及查看,如图2所示。 图2个人信息功能界面图 学…

大数据信用报告查询应该选什么样的平台?

随着大数据技术的不断发展,大数据信用报告查询平台也应运而生。这些平台通过数据挖掘和分析,为个人提供有关大数据信用的详细报告,帮助他们在做出决策时获得更多的信息。然而,面对众多的大数据信用报告查询平台,如何选…

Qt的入门

Qt的入门 1.Qt的配置2.介绍Qt的使用2.1 Qt 5.14.22.2 Linguist 5.14.22.3Designer 5.14.22.4 Assistant 5.14.22.5 Qt Creator 4.11.1 3.创建第一个项目3.1点击文件来新建一个新的文件或项目3.2选择项目路径和名称3.3选择构建工具3.4类信息3.5翻译文件3.6选择编译器3.7项目管理…

【算法学习】射线法判断点在多边形内外(C#)以及确定内外两点连线与边界的交点

1.前言: 在GIS开发中,经常会遇到确定一个坐标点是否在一块区域的内部这一问题。 如果这个问题不是一个单纯的数学问题,例如:在判断DEM、二维图像像素点、3D点云点等含有自身特征信息的这些点是否在一个区域范围内部的时候&#x…

第十节:学习ConfigurationProperties类来配置pojo实体类参数(自学Spring boot 3.x的第二天)

大家好,我是网创有方 。这节记录下如何使用ConfigurationProperties来实现自动注入配置值。。实现将配置文件里的application.properties的参数赋值给实体类并且打印出来。 第一步:新建一个实体类WechatConfig package cn.wcyf.wcai.config;import org…

C++进阶之哈希

一、unordered系列关联式容器 在C98中,STL提供了底层为红黑树结构的一系列关联式容器,在查询时效率可达到,即最差情况下需要比较红黑树的高度次,当树中的节点非常多时,查询效率也不理想。最好的查询是,进行…

Langchain-实战篇-搭建本地问答机器人-01

项目背景 在这个快节奏的职场世界里,我们每个人都可能在某个时刻,化身为一头辛勤的牛或一匹奔腾的马,面对入职签合同时的迷茫,或是离职时的纠纷,心中难免会涌现出各种疑问。比如: "这份合同里的条款…

PAI3D: Painting Adaptive Instance-Prior for 3D Object Detection论文讲解

PAI3D: Painting Adaptive Instance-Prior for 3D Object Detection论文讲解 1. 引言2. PAI3D框架2.1 Instance Painter2.2 Adaptive Projection Refiner2.3 Fine-granular Detection Head 3. 实验结果3.1 消融实验 1. 引言 3D目标检测对于自动驾驶来说是一个非常重要的模块&a…

wsl ubuntu 安装Anaconda3步骤

如何在Ubuntu上安装Anaconda3呢?本章记录整个安装过程。 1、下载脚本 https://mirrors.bfsu.edu.cn/anaconda/archive/Anaconda3-2023.09-0-Linux-x86_64.sh 下载之后,将脚本上传到Ubuntu里。 2、安装脚本 bash Anaconda3-2021.11-Linux-x86_64.sh根据提示进行安装,提示输…

NIVision-LabVIEW在灰度图上画圆

问题来源 在csdn上看到的这样一个问题,好像也没个正经答案,都用chatGPT回答,挺没劲的。不说提供个vi源代码,至少也来张截图嘛。我想着问题也不难,就自己动动手吧。 代码展示1 1、首先使用imaq ArrayToImage.vi创建了一…

抖音微短剧小程序源码搭建:实现巨量广告数据高效回传

在数字化营销日益盛行的今天,抖音微短剧小程序已成为品牌与观众互动的新渠道。这些短小精悍的剧目不仅能迅速抓住用户的注意力,还能有效提升品牌的知名度和用户黏性。然而,想要充分利用这一营销工具,关键在于如何高效地追踪广告数…

effective java (1)(考虑使用!)静态工厂方法代替构造方法

只是目前阶段 对本书第一章内容的浅显认知,说实话 这一章 我看了4遍左右,每一遍感觉都不一样 他的创建模式 有时候像设计模式,但作者已经在原文中描述,它并不等价于 设计模式 我们正常 创建一个年级类 是长这样的 我们不写成标准…