谷歌Gemini造假始末

news2024/11/23 4:42:30

💡大家好,我是可夫小子,《小白玩转ChatGPT》专栏作者,关注AIGC、读书和自媒体。

在过去一年中,OpenAI ChatGPT引发了一股AI新浪潮,而谷歌则一直处于被压制的状态,迫切需要一款现象级的AI产品来证明自己的实力。

自ChatGPT发布以来,人们一直对谷歌声称的竞品Gemini模型的能力非常好奇。这款大型模型早在今年3月就传出了风声,在5月的I/O大会上进入了“即将推出”的状态。

发布

12月7日凌晨,谷歌终于发布了自家“原生多模态”(natively multimodal)大模型Gemini。谷歌 CEO 桑达尔・皮查伊(Sundar Pichai)官宣 Gemini 1.0 版正式上线,并表示这是“谷歌迄今为止最大、能力最强的AI模型”。

与此同时,一段大约6分钟的Gemini演示视频[1],也在各个自媒体平台疯传。最个视频展示在在视频下的人工智能,不仅能听会说,还是能看得清、看得懂,丝滑的交互,让我们感觉离AGI又进了一步。

loading

质疑

收获了各方赞誉之后,然后过了一个晚上,演示视频造假的消息也成这个模型新的热度,后来谷歌也发推承认,只是在「剪辑」上,加快的反应速度。“出于本演示的目的,为了简洁起见,延迟已减少,Gemini输出也已缩短。”

loading

混淆跑分,GPT4测试标准不一致

仅仅是视频作假吗?后来有人发现,在与GPT4的对比数据中也存在玄机。

从谷歌对Gemini的宣传信息来看,他们声称Gemini在32项标准性能指标中有30项比GPT-4更优秀,取得了90%以上的高分。但实际上,差距微乎其微,而且这种比较并不公平。

Gemini Ultra的90%得分是基于谷歌研究人员开发的一种基于32个样本思维链的方法。对于同一个问题,Gemini Ultra会生成32个答案以及这些答案的推理。然后,模型会选择最常见的答案作为最终答案。

loading

但GPT-4的86.4%分数是基于行业评估标准5-shot。HuggingFace技术主管Philipp Schmid特意从Gemini的技术报告中提取数据重做计算,在5-shot的标准下,Gemini的得分实为83.7%,比GPT-4更低。

loading

也就是说,只有当CoT(思维链)达到32个例子时,Gemini Ultra才能达到90分以上,超过GPT-4;当例子数量减少到5个时,Gemini Ultra的得分就不如GPT-4。难怪连谷歌公司高管在之前都回避了关于该模型比GPT-4强多少的问题,因为它们只是在不同的标准上“强”。

就像谷歌在5月份发布Palm-2的时候,也挑出了两个优于GPT-4的指标,但是后来这个大模型怎么样,大家都清楚。

斯坦福大学基础模型研究中心主任Percy Liang也谈到,虽然Gemini有很好的基准分数,但由于不知道训练数据的内容,因此很难解释这些数据。华盛顿大学计算语言学教授Emily Bender也指出,谷歌宣传Gemini是一台万能机器,是一个可用于多种不同用途的通用模型。但是谷歌却使用狭隘的基准来评估它期望用于这些不同用途的模型,这意味着它无法得到彻底的评估。

实力or造假

前两天,又有网友爆料:在谷歌 Vertex AI 平台使用该模型进行中文对话时,Gemini-Pro 直接表示自己是百度语言大模型。

loading

也就是说Google的这个年度最优的作品的中文训练语料,就直接调用百度的文心一言。之前文心一言推出来的时候,当时也被怀疑是翻译外网的文本,进行模型训练。对于美帝来说,也上演了一把出口转内销的闹剧。

但对于押宝人工智能最早,投入最高的互联网老大哥谷歌,在新的AI时代的竞争,确实有些乏力了。我们期待Gemini的更新版本,期待谷歌更多的作品。

📎

解锁更多ChatGPT、AI绘画玩法。备注:chatgpt

参考资料

[1]

演示视频: https://www.bilibili.com/video/BV12M411d7He/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1327406.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

一文读懂Java中的设计模式——代理模式,以翻译场景举例,特别通俗易懂!

代理模式概念 在代理模式(Proxy Pattern)中,一个类代表另一个类的功能。这种类型的设计模式属于结构型模式。在代理模式中,我们创建具有现有对象的对象,以便向外界提供功能接口。目的:为其他对象提供一种代…

HBase基础知识(二):HBase集群部署、HBaseShell操作

1. HBase安装部署 1.1 Zookeeper正常部署 首先保证Zookeeper集群的正常部署,并启动之: 创建集群启动脚本: #!/bin/bash case $1 in "start"){ for i in hadoop100 hadoop101 hadoop102 do echo----------zookeeper $i 启动----…

TKEStack容器管理平台实战之部署wordpress应用

TKEStack容器管理平台实战之部署wordpress应用 一、TKEStack介绍1.1 TKEStack简介1.2 TKEStack特点1.3 TKEStack架构图 二、kubernetes集群介绍2.1 k8s简介2.2 k8s架构图 三、本次实践介绍3.1 实践环境要求3.2 本次实践环境规划3.3 本次实践简介 四、安装容器管理平台4.1 安装T…

python基础-检测字符串是否含有中文的方法

1. 正则表达式 代码示例如下: import re def contains_chinese(text):pattern re.compile(r[\u4e00-\u9fff]) # 匹配中文字符的正则表达式范围return bool(pattern.search(text))2.unicodedata模块 import unicodedata def contains_chinese(text):for char in…

Codeforces Round 638 (Div. 2)B. Phoenix and Beauty(思维构造)

B. Phoenix and Beauty 这道题目学到的东西: 从给出的数据范围观察,得到一些有用信息(峰哥教的)考虑无解的情况‘ 其实这题考虑怎么操作是比较难的,如果能想出来满足条件的结果就比较好了(我在说什么我自…

力扣题:高精度运算-1.1

力扣题-1.1 [力扣刷题攻略] Re:从零开始的力扣刷题生活 力扣题1:67. 二进制求和 解题思想:将数组进行遍历相加即可 class Solution(object):def addBinary(self, a, b):""":type a: str:type b: str:rtype: str""…

java开发面试:常见业务场景之单点登录SSO(JWT)、权限认证、上传数据的安全性的控制、项目中遇到的问题、日志采集(ELK)、快速定位系统的瓶颈

单点登录(SSO) 单点登录,Single Sign On(简称SSO),只需要登录一次,就可以访问所有信任的应用系统。 如果是单个tomcat服务,session可以共享,如果是多个tomcat,那么服务s…

count(*)、count(1)、count(column)的区别

count(*)、count(1)、count(column)的区别 count(*): 返回检索到的行数,无论是否含有NULL值,在InnoDB下,仅计算当前事务可见的行,通过遍历最小的可用二级索引来处理count(*),除非索引或优化器指示优化器使…

阿里云林立翔:基于阿里云 GPU 的 AIGC 小规模训练优化方案

云布道师 本篇文章围绕生成式 AI 技术栈、生成式 AI 微调训练和性能分析、ECS GPU 实例为生成式 AI 提供算力保障、应用场景案例等相关话题展开。 生成式 AI 技术栈介绍 1、生成式 AI 爆发的历程 在 2022 年的下半年,业界迎来了生成式 AI 的全面爆发&#xff0c…

深信服技术认证“SCSA-S”划重点:命令执行漏洞

为帮助大家更加系统化地学习网络安全知识,以及更高效地通过深信服安全服务认证工程师考核,深信服特别推出“SCSA-S认证备考秘笈”共十期内容,“考试重点”内容框架,帮助大家快速get重点知识~ 划重点来啦 *点击图片放大展示 深信服…

持续集成交付CICD:基于ArgoCD 的GitOps 自动化完成前端项目应用发布与回滚

目录 一、实验 1. 环境 2. K8S master节点部署Argo CD 3.基于ArgoCD 实现GitOps (同步部署文件) 4.基于ArgoCD 实现GitOps (同步HELM文件) 二、问题 1. ArgoCD 连接K8S集群状态为 Unknown 2.ArgoCD 创建application失败 …

华为全屋wifi6蜂鸟套装标准

华为政企42 华为政企 目录 上一篇华为安防监控摄像头下一篇华为企业级无线路由器

Layui 2.9.2 列表商品展示页 用模板引擎 laytpl Ajax 读取json 数据 筛选数组 filter css 限制文体显示过长用。。。代替

全代码&#xff1a; <!DOCTYPE html> <html><head><meta charset"utf-8"><title>软件管理器</title><meta name"renderer" content"webkit"><meta http-equiv"X-UA-Compatible" conten…

文献速递:生成对抗网络医学影像中的应用—— CG-3DSRGAN:用于从低剂量PET图像恢复图像质量的分类指导的3D生成对抗网络

文献速递&#xff1a;生成对抗网络医学影像中的应用—— CG-3DSRGAN&#xff1a;用于从低剂量PET图像恢复图像质量的分类指导的3D生成对抗网络 本周给大家分享文献的主题是生成对抗网络&#xff08;Generative adversarial networks, GANs&#xff09;在医学影像中的应用。文献…

大数据技术基础-读书笔记

大数据技术基础-读书笔记 一、大数据概述 大数据是指在一定时间内无法用常规软件工具对其内容进行抓取、处理、分析和管理的数据集合。 大数据一般会涉及两种以上的数据形式&#xff0c;数据量通常是100TB以上的高速、实时数据流&#xff0c;或者从每年增长速度快的小数据开…

Java小案例-Java实现人事管理系统

前言 《人事管理系统》该项目采用技术jsp、Struts2、Mybatis、dwr、tomcat服务器、mysql数据库 开发工具eclipse/idea。 【项目使用技术】 Struts2Mybatisdwrjqueryjscss等技术 前端使用技术&#xff1a;JSP, dwr、jquery、js、css等 后端使用技术&#xff1a;Struts2Myba…

Leetcode—73.矩阵置零【中等】

2023每日刷题&#xff08;六十六&#xff09; Leetcode—73.矩阵置零 空间复杂度为O(mn)版实现代码 class Solution { public:void setZeroes(vector<vector<int>>& matrix) {int rowLen matrix.size();int colLen matrix[0].size();vector<int> row…

使用 ElementUI 组件构建无边框 Window 桌面应用(WinForm/WPF)

生活不可能像你想象得那么好&#xff0c;但也不会像你想象得那么糟。 我觉得人的脆弱和坚强都超乎自己的想象。 有时&#xff0c;我可能脆弱得一句话就泪流满面&#xff1b;有时&#xff0c;也发现自己咬着牙走了很长的路。 ——莫泊桑 《一生》 一、技术栈 Vite Vue3 TS E…

Linux环境安装Hadoop

&#xff08;1&#xff09;下载Hadoop安装包并上传 下载Hadoop安装包到本地&#xff0c;并导入到Linux服务器的/opt/software路径下 &#xff08;2&#xff09;解压安装包 解压安装文件并放到/opt/module下面 [roothadoop100 ~]$ cd /opt/software [roothadoop100 software…

Spring Boot集成RocketMQ之消息对象序列化

以下源码基于rocketmq-spring-boot-start 2.1.1版本&#xff0c;其它版本可能会有差异 一. 前言 当我们在Spring Boot项目中集成RocketMQ后&#xff0c;只需要在配置文件(application.yml)中添加rocketmq的相关配置&#xff0c;即可使用rocketMQTemplate发送对象消息。登录Ro…