大模型“聚会”:国内卷价格,国外卷能力

news2024/9/28 17:22:58

[img

GPT-4o和谷歌Gemini不断宣传现阶段AI能力大幅度提高,那么这两家,谁的大模型能力更强呢?这篇文章里,作者就展开了多维度的测试和体验,想了解的同学,可以来看一下。

img

在中美AI大模型的竞争上,正衍生出两种不同的路径。

继北京时间5月14日凌晨OpenAI春季发布会上,OpenAI推出兼具听、看、说能力的GPT-4o后。北京时间5月15日凌晨谷歌I/O开发者大会上,谷歌CEO桑达尔·皮查伊发布数十款Google和AI 结合产品,堪称“全家桶”级别,全面围剿Open AI。

其中包括支持200万token长文本的Gemini 1.5 Pro和 Gemini 1.5 Flash,对标Sora的Veo,开源模型Gemma 2,支持生成式搜索的AI Overviews、第六代TPU等。

整场开发者大会最大的看点为,谷歌推出的AI语音助手——Astra,它能够通过摄像头识别物体、代码和各种东西。现场演示视频中,用户要求Astra在看到发出声音的东西时告诉她,助手回答说,它可以看到一个发出声音的扬声器。对于一闪而过的苹果,Astra居然也能够准确回答出在眼镜旁边。

除Astra外,谷歌还推出基于Gemini的多款通用AI Agent子系列产品。如音频的NotebookLM、音乐的Music AI Sandbox、视频的Veo、图像的Imagen 3,直接对标OpenAI发布的GPT-4o、Dall-E和Sora。

和谷歌、OpenAI围绕技术之争不同的是,国内大模型或将迎来价格战时代。在5月15日字节举办2024春季火山引擎Force原动力大会上,字节推出3款AI产品,包括AI生图产品 PicPic、AI 教育产品河马爱学、AI 剧情互动产品猫箱。

除这三款产品外,字节面向TOC端的产品还包括定位AI教育的Gauth,定位AI对话的豆包和CiCi;定位AI工具的小悟空ChitChop;定位Al Bot创建平台的Coze和扣子;定位AI互动剧情的BagelBel等。

但字节率先启动行业价格战,火山引擎总裁谭待表示,豆包大模型将开启付费商业化,且定价远低于行业价格。以豆包通用模pro-32k版为例,模型推理输入价格仅为0.0008元/千Tokens。市面上同规格模型的定价一般为0.12元/千Tokens,是豆包模型价格的150倍。

字节本轮降价后,后续国内其他大模型厂商或将跟随。但降价能否帮助国内大模型厂商带来更多新增用户和付费用户,仍值得商榷。

img做了8年产品经理后,我是这么看产品经理的我个人是从非常初级的产品经理做起,再到负责一个大产品的项目管理,现在有幸跳出了日常基础的工作更多的去看产品的PMF,product strategy…查看详情 >

GPT-4o和谷歌Gemini不断宣传现阶段AI能力大幅度提高,两家谁的大模型能力更强呢?基于此,我们也对GPT-4o和Gemini展开了多维度的测试。

01 文本输出:Gemini和GPT-4o愈发接近,部分能力已赶超

因GPT-4o和Gemini均属于世界TOP级的大模型,在测试两家大模型的文本输出能力上,我们直接将难度升级。

为什么很多国家仍以油车为主?你觉得影响新能源汽车海外渗透率提高的因素有哪些?我们将这一问题同时给到GPT-4o和Gemini,二者均指出充电基础设施建设、购置成本、技术进步、政策支持、消费者文化习惯是很多国家仍以燃油车为主的原因。

但相较于GPT-4o,Gemini不仅识别到我们提问的是两个问题,且均给出答案,也回答出GPT-4o没有指出的车企方面、宣传教育方面的问题。也就是说,Gemini的回答可能更为完整。

img

图源:基于Gemini和GPT-4o生成内容整理 DoNews制图

我们继续追问要求两个大模型同时给我们撰写一份10000字全球新能源汽车报告,并要求报告中需要包括行业价格战、电池技术、未来发展方向、产业趋势。

但此时两个大模型的表现已经出现明显差异,GPT-4o给我们生成七大章节的框架,每个框架下也要对应的小框架。但就是不输出我们要求的内容,这或许和当前GPT-4o在长文本能力上的欠佳有关。

img

图源:GPT-4o官网

Gemini虽给我们具体的文本内容,但全文1679字和我们要求的万字报告差距较大。内容被大幅度压缩后,整个内容质量也相对欠佳。

如在提到新能源汽车产业趋势发展上,Gemini给出的内容为产业链整合、跨界合作、国际化竞争,每条内容仅有一句话进行概括。换言之,在真正涉及行业专业性问题上,Gemini和GPT-4o均存在不同程度的短板。

img

图源:Gemini官网

当我们将难度继续提高后,询问为什么今年以来全球大宗商品价格持续上涨?这种涨幅带来的影响有哪些?未来价格是否会回落?在首问中GPT-4o和Gemini给出的答案有所相同,均指出和供应链、地缘冲突、全球经济等因素有关。且在未来价格走势预测中,两者给到的答案也基本相同。

但在涨幅所带来的影响上,Gemini给出的答案可能更为完整。尤其是在金融、企业利润、社会等方面的影响,GPT-4o并未指出。

img

图源:基于Gemini和GPT-4o生成内容整理 DoNews制图

在文本内容快速分析上,我们让两款大模型同时给我们分析安克创新2024年Q1财报中存在的风险点,GPT-4o生成的风险点包括现金流减少、高额的销售费用和管理费用、财务费用大幅度波动、公允价值带来损失这四点。

img

图源:GPT-4o官网

但Gemini给出的内容却包括营收增速放缓、经营活动大幅度下降、销售费用和管理费用大幅度增加、存货跌价损失增加、汇兑大幅度增加、对政府补助依赖这六点。这也不能看出,Gemini的回答更为完整。

img

图源:Gemini官网

而当我们要求两款大模型同时以如何帮助失恋的人走出阴影,写一篇2000字的文章。要求文章有观点,并且文章内需要配上对应的图片和音频,Gemini的表现可以说完全吊打GPT-4o。

在文章开头,Gemini直接放入一曲舒缓的音乐,且这个音乐也支持播放。每个细分章节下,Gemini直接从网站上检索到和内容相关的图片,实现OpenAI提到的文本、音频、图像的任意组合。

img

图源:Gemini官网

对比之下,GPT-4o给到的内容就有些逊色。除文章开始处能看到图片外,其余正文处均未看到任何和内容相关的图片,且全文中也看不到音频。

img

图源:GPT-4o官网

整体测试下来后我们发现,谷歌在生成式AI领域尤其在文本能力输出上已经从“落后”到追赶,甚至内容质量上、内容组合等能力上已经超过GPT-4o。

02 对比之下,Gemini综合能力不容忽视

在测试过程中,我们发现Gemini不仅支持文本内容提问,且也支持语音提问。但因国内网络受限,暂无法对语音功能进行测试,也无法判断这是否为谷歌发布会上提到的Astra。相较于谷歌的快速,GPT-4o目前仍是支持单一的文本内容提问。

img

图源:Gemini官网

img

图源:GPT-4o官网

深耕搜索行业多年的谷歌,让目前的Gemini也能实现AI检索。且这种检测不仅包括图文网页也包括视频。当我们要求Gemini以汽车安全为核心,生产一个20-30S的视频时,Gemini先是给出了我们具体的视频脚本。

当我们继续追问你能我们直接生成视频吗?Gemini的回答有些超过我们的预期,直接给到我们几个YouTube的相关链接。且这些链接居然也无须跳转YouTube上观看,在Gemini大模型内也能实现自动播放。

img

图源:Gemini官网

img

图源:Gemini官网

对比之下,GPT-4o虽也能根据我们的要求输出对应的视频脚本,但却并不具备Gemini的这些功能。

img

图源:GPT-4o官网

值得注意的是,Gemini和GPT-4o目前均不支持音频、视频内容识别,且Gemini目前也不支持图片生成功能。支持图片生成功能的GPT-4o,目前也存在部分问题。

如当我们要求GPT-4o输出一张同时包含中国传统神话故事中四大神兽的照片时,图片内容虽出现四大神兽,但除青龙稍微符合神话故事原型外,其他三大神兽均和神话故事中的原型相差极大,这可能也和OpenAI团队对中国传统神话故事学习能力欠佳的有关。

img

图源:GPT-4o官网

但在图片的识别能力上,Gemini正以图片识别为基础场景,衍生出更多场景服务。我们选取网络平台常见的面条图片,Gemini在识别出这张图片为鸡蛋面后,又给到我们鸡蛋面、中国面条等关键词方便我们二次检索。更重要的是,Gemini还直接推荐各种鸡蛋面的做法。

img

图源:Gemini官网

对比之下,GPT-4o在识别出图片内容为拌面下,仅是简单地对拌面进行介绍,并未展开过多叙述。

img

图源:GPT-4o官网

当我们将识图能力难度升级后,在网络平台上选取常见的竹林照片,并询问Gemini图片的拍摄地点时,Gemini给出包括日本京都岚山竹林、日本京都嵯峨野竹林、日本冲绳八重山竹林、中国四川毛竹林、中国安吉竹林、南美或东南亚等地点,并指出竹林的重要性。

img

图源:Gemini官网

GPT-4o仅指出,这样的景色在中国、日本等东亚国家极其常见。如日本的京都岚山竹林和中国的安吉竹海都是著名的竹林景区。不仅地点相对Gemini较少,还反问到你知道具体的拍摄地点吗?

img

图源:GPT-4o官网

在测试逻辑推理上,我们选取2023年全国卷数学高考真题中难度较大的压轴题时,GPT-4o给出的答案可以用失望来形容。

img

图源:2023年全国卷数学真题

如在全国高考卷第20题的两问中,GPT-4o仅是简单地给出不完整的解题步骤,没有输出任何一个准确答案。

img

图源:GPT-4o官网

第21题的三问中,GPT-4o不仅将三小问变成两小问,且前两问求概率的问题上,本应为具体数字的答案,在GPT-4o这里却是带有变量N的不确定答案。

但Gemini的表现同样欠佳,如在第20题首问的求通项公式中,Gemini虽给出两种解法,但两种解法给出的答案完全不同。换言之,Gemini有可能仅是简单地抓取国内网站的相关链接,并未对信息内容和准确度进行二次审核。

img

图源:Gemini官网

整体来看,目前Gemini在很多方面的综合能力,以及产品上线速度方面比GPT-4o更加能打。且在价格方面,谷歌的Gemini 1.5 Flash 的价格定为每100万个token 35 美分,比GPT-4o的每100万个token 5 美元的价格低很多。产品组合性能表现不输GPT-4o叠加低价,谷歌或许正在放出王炸。

但按照OpenAl在大模型上积累的强大技术能力来看,谷歌在某些方面稍微领先的优势能保持多久,仍有待商榷。谷歌和OpenAI在AI大模型技术上的持续博弈下,可能会将美国AI大模型的技术能力推向新高度。

03 国内卷价格,或将推动行业加速洗牌

对于字节率先发起行业价格战也不能理解,目前国内大模型在TOC端的商业化落地,正朝着当年的移动互联网方向发展。

依靠价格战,移动互联网厂商(大模型厂商)不断提高新增用户和日活用户的同时,后续逐渐衍生出如广告、电商、与核心业务场景高度契合的其他场景收入。这在保证平台实现单个用户价值最大化的同时,也能帮助移动互联网厂商(大模型厂商)提高现金流,持续减少企业亏损。

后续移动互联网厂商(大模型厂商)继续发动行业价格战,资金能力不足的中小厂商被洗牌出清,行业份额继续朝着头部厂商集中。头部厂商获得高话语下,对供需两侧衍生更多商业化,最终让行业形成强者愈强的马太效应。

不仅仅是TOC端,大模型价格战未来也将同样出现在TOB端。对标SaaS产业来看,价格仍是国内SaaS企业的核心优势之一,尤其在SaaS产业产品和场景同质化严重、国内企业主付费意识不强、中小客群存在流失率高、合规性差、决策集中一人等现状下,头部SaaS厂商想要从价格战的泥潭中走出,面临着不小的阻力。

但需指出的是,互联网时代面向TOC端的价格战,更多是建立在细分场景下的服务上。这种服务下,消费者真正关注的也就是服务好坏。刚需场景下,这种服务好坏更是被淡化。

但AI大模型时代,类似于美图这种图片场景类的服务,消费者的要求可能不高。但其他场景下,本质是用户愿意为大模型的高质量内容进行付费。

换言之,消费者真正看重的仍是大模型的处理能力以及能否高效完成任务,而非价格。若在完成任务能力上表现欠佳,价格再低实则也是无用。

尤其是对于金融类、研投类对大模型输出的内容质量要求高、数据质量生成快且专业的行业来说,更是如此。更别提企业端定制大模型,更不允许大模型的生产内容和数据存在丝毫偏差了。

或许国内大模型厂商是想借助价格战,尽快让大模型帮助企业带动营收增长,进而对冲大模型前期高昂的研发成本投入,以及相关硬件方面的投入。

但随着国内大模型厂商在价格上持续内卷,或将影响到不少技术能力优越但资金实力不足的初创企业,这又是否会让中美在大模型方面的技术能力差距被拉开得更高呢?

读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

资源分享

图片

大模型AGI学习包

图片

图片

资料目录

  1. 成长路线图&学习规划
  2. 配套视频教程
  3. 实战LLM
  4. 人工智能比赛资料
  5. AI人工智能必读书单
  6. 面试题合集

人工智能\大模型入门学习大礼包》,可以扫描下方二维码免费领取

1.成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

对于从来没有接触过网络安全的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。

图片

2.视频教程

很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,其中一共有21个章节,每个章节都是当前板块的精华浓缩

图片

3.LLM

大家最喜欢也是最关心的LLM(大语言模型)

图片

人工智能\大模型入门学习大礼包》,可以扫描下方二维码免费领取

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1914057.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

CDF累积分布函数和PPF百分点位分布函数

目录 cdf累积分布函数 (CDF) ppf百分位点函数 (PPF) 区别与联系示例关系和区别 cdf 累积分布函数 (CDF) 定义: 累积分布函数 F ( x ) F(x) F(x) 给出随机变量 X X X 小于或等于某个值 x x x 的概率。数学定义: F ( x ) P ( X ≤ x ) F(x) P(X \l…

[C++]——同步异步日志系统(3)

同步异步日志系统 一、日志系统框架设计1.1模块划分1.1.1 日志等级模块1.1.2 日志消息模块1.1.3 日志消息格式化模块1.1.4 日志落地模块(日志落地的方向是工厂模式)1.1.5 日志器模块(日志器的生成是建造者模式)1.1.6 异步线程模块…

Coze API接口实战应用

Coze API介绍 概述 Coze API作为Coze平台对外的桥梁,让开发者能够灵活地利用Coze的功能和服务,促进业务流程自动化和系统集成。它覆盖了从数据获取到智能交互的全方位功能,旨在提升工作效率和创造更多可能。 Coze API申请接入流程 1. 发现…

python--实验8 函数(2)

知识点 变量的作用域 定义:解释了局部变量和全局变量的概念。局部变量: 局部变量是在函数内部定义的变量。它们只在该函数内部可见,一旦函数执行完毕,这些变量就会被销毁。例子:在函数内部通过赋值创建的变量。全局…

【卡尔曼滤波】高斯白噪声

生成高斯白噪声并将其应用于信号处理 生成高斯白噪声并将其应用于信号处理 #以下是一个生成高斯白噪声并将其应用于信号处理的示例代码:import numpy as np import matplotlib.pyplot as plt import matplotlib.font_manager ## not work#notice matplotlibrc is a file, not…

hf-mirror (huggingface 的国内镜像)

官网: https://hf-mirror.com/ 网站域名 hf-mirror.com,用于镜像 huggingface.co 域名。作为一个公益项目,致力于帮助国内AI开发者快速、稳定的下载模型、数据集。 如何使用HF-Mirror 方法一:网页下载 在https://hf-mirror.com/…

ubuntu笔记本X86安装nomachine客户端

资源下载: 链接: link 一、首先下载文件 nomachine_8.2.3_4_x86_64.tar.gz到桌面。 二、打开终端,依次输入 进入root模式,需要输入密码,密码不可见。 sudu su复制nomachine_8.2.3_4_x86_64.tar.gz粘贴到/usr目录: cp -r nomachine_8.2.3_4_x86_64.tar.gz /usr进入

使用Godot4组件制作竖版太空射击游戏_2D卷轴飞机射击-敌机配置(五)

文章目录 开发思路敌人节点场景绿色敌人制作 使用Godot4组件制作竖版太空射击游戏_2D卷轴飞机射击(一) 使用Godot4组件制作竖版太空射击游戏_2D卷轴飞机射击-激光组件(二) 使用Godot4组件制作竖版太空射击游戏_2D卷轴飞机射击-飞船…

强化学习总结(有具体代码实现)

文章目录 第一部分 强化学习基础第1章 强化学习概述1.1 强化学习概念1.2 强化学习的环境1.3 强化学习的目标1.4 强化学习的数据 第2章 多臂老虎机问题(MAB问题)2.1 问题描述2.1.1 问题定义2.1.2 形式化描述2.1.3 累积懊悔2.1.4 估计期望奖励 2.2 解决方法…

(自用)gtest单元测试

gtest是Google的一套用于编写C测试的框架,可以运行在很多平台上(包括Linux、Mac OS X、Windows、Cygwin等等)。基于xUnit架构。支持很多好用的特性,包括自动识别测试、丰富的断言、断言自定义、死亡测试、非终止的失败、生成XML报…

跑GCN收敛实验时遇到的Python环境问题

错误1: 报错提示:No module named sklearn.utils.linear_assignment_ 原因:linear_assignment 函数从0.21开始被弃用了,并且将在0.23版本中移除。 解决方法:降低scikit-learn版本(本人通过该方法解决&#…

从零开始开发视频美颜SDK:实现直播美颜效果

因此,开发一款从零开始的视频美颜SDK,不仅可以节省成本,还能根据具体需求进行个性化调整。本文将介绍从零开始开发视频美颜SDK的关键步骤和实现思路。 一、需求分析与技术选型 在开发一款视频美颜SDK之前,首先需要进行详细的需求…

自定义指令实现Element Plus分页组件内容样式修改

改之前是这样的 改之后是这样的 因为之前我也有写过文章讲解Vue2-ElementUI分页组件的样式修改。 ElementUI 分页组件内容样式修改https://blog.csdn.net/qq_54548545/article/details/139728064且通常情况下,一个项目若是大量使用到分页组件,咱们也不可…

MySQL语法笔记(补充版)

补充上一篇博客没涉及到的实用语法 MySQL语法笔记(温习版) 查看正在使用的数据库 SELECT DATABASE()查看时区 show VARIABLES like time_zone修改时区 timestamp类型存储的时间与MySQL数据库系统安装时所选的时区有关,在不同时区下查看的同…

【SVN的使用- SVN的基本命令-SVN命令简写-注意事项-解决冲突 Objective-C语言】

一、SVN的更新命令:update 1.服务器如果新建了一个文件夹,yuanxing,版本变成6了, 我现在本地还只有三个文件夹,版本5, 终端里边,我们敲一个svn update, 我这儿就多了一个yuanxing文件夹, 这个就是更新,就是把服务器最新的代码下载下来, 假设服务器上大家提交了这…

[CTF]-PWN:House of Cat堆题型综合解析

原理: 调用顺序: exit->_IO_wfile_jumps->_IO_wfile_seekoff->_IO_switch_to_wget_mode _IO_wfile_seekoff源码: off64_t _IO_wfile_seekoff (FILE *fp, off64_t offset, int dir, int mode) {off64_t result;off64_t delta, new…

基于ARM Cortex-M3单片机研发的国产指纹芯片 - P1032BF1

智能指纹锁的核心部件:主板、离合器、指纹采集器、密码技术、微处理器(CPU)、智能应急钥匙。作为指纹锁来说,重要的应该是指纹芯片。指纹锁是通过电子部件及机械部件的精密组合而生产出的安全产品。指纹锁的本质无非是安全、便捷、…

man手册的安装和使用

man手册 - HQ 文章目录 man手册 - HQ[toc]man手册的使用Linux man中文手册安装man中文手册通过安装包安装通过apt安装 配置man中文手册README使用说明配置步骤 man手册的使用 首先man分为八个目录,每个目录用一个数字表示 1.可执行程序2.系统调用3.库函数4.特殊文…

7.深度学习概述

深度学习概述 1. 线性回归1.1 线性回归一般表达式1.2 线性回归内积表达方式:1.3 多个样本时,线性回归的进一步表达:1.4 线性回归方程的解析1.5 线性回归就是求loss函数的最小值 2. 如何求函数最小值2.1 一个例子2.2 求导法——求最小值2.3 求…

CVE-2024-34351 漏洞复现

CVE-2024-34351&#xff0c;由Next.js异步函数createRedirectRenderResult导致的SSRF。 影响版本&#xff1a;13.4.0< Next.js < 14.1.1 参考文章&#xff1a; Next.js Server-Side Request Forgery in Server Actions CVE-2024-34351 GitHub Advisory Database Gi…