从GPT-3.5到GPT-4O:探索AI的进化之旅,哪一版更懂你?

news2024/11/17 4:33:01

如何评价GPT-4o?

最新的GPT-4O,被誉为GPT-4的增强版。它在保持前代产品优秀性能的基础上,大幅降低了使用成本,使得更多的普通用户也能享受到顶尖AI的服务。GPT-4O在非英语语言处理上的强化,更是让其在全球范围内的适用性大大提高。对于小需求用户来说,这一版本的推出无疑是一大福音。

笔者作为一名从2022年11月开始使用GPT至今的“老兵”不妨说一下自身使用并在几个AI类项目中实际使用下来的体验吧,我先用一句话总结:有惊艳,但不多

从GPT各个史诗级版本来看GPT各个版本的特点

在人工智能的世界里,每一次技术的迭代都不仅仅是一次简单的更新,而是一次对未来的深刻预见。OpenAI的GPT系列无疑是在这场科技革命中的佼佼者。从GPT-3.5到最新的GPT-4O,每一个版本的发布都不仅仅是技术的飞跃,更是对人类生活方式的一次深刻影响。

GPT-3.5:智能的崭露头角

GPT-3.5作为GPT-3的升级版,其在处理语言的复杂性和细腻度上有了显著提升。它在文本生成、语义理解方面的能力,使其在学术研究、内容创作等领域大放异彩。然而,它在处理非英语语言和高成本的问题上仍显得力不从心。

GPT-4:全面而深入的理解

随后,GPT-4的出现,不仅继承了GPT-3.5的优点,更在模型的多样性、适应性上进行了大幅度的扩展。GPT-4不仅提高了问题回答的精准性,其反应速度也得到了大幅提升,使其在实时交互、在线客服等场景中更加得心应手。此外,GPT-4在道德和情感理解上也表现出了惊人的敏感度,使其在心理咨询、教育辅导等领域更加贴心。

GPT-4-Vision:视觉与语言的跨界融合

GPT-4-Vision的推出,标志着OpenAI在跨模态人工智能领域的深入探索。这一版本不仅保持了文本处理的高水平,还加入了图像理解的能力。这使得GPT-4-Vision在图文编辑、广告创意等领域展现出了前所未有的创造力。

GPT-4O:成本降低,普及性增强

GPT-4O版本,可以说是在GPT-4的基础上进行了全方位的强化。官方宣称,GPT-4O在逻辑推理、创作能力、情感理解以及道德判断等方面都有显著提升。这使得GPT-4O不仅能够在更多语言上表现出色,其在文艺创作、心理咨询等需要深度情感理解的领域也将大放异彩。更重要的是,由于成本的大幅降低,GPT-4O为更多普通用户提供了免费试用的机会,极大地提升了用户体验,使得人工智能技术的普及门槛被进一步降低。

总结来说,GPT-4O不仅在技术上有了全面的提升,更在普及和应用上迈出了坚实的步伐。对于免费用户来说,这无疑是一大福音;对于有特定小需求的用户,也无需再投入大量资金。OpenAI的这一系列动作,不仅提升了用户体验,更预示着其在未来人工智能领域的领导地位将更加稳固。对于我们这些期待科技改变世界的观察者来说,GPT-4O的出现,无疑加速了这一进程

各版本的对比-直观感受GPT4-O到底有什么不一样

如果要说公平比较GPT个版本由其是让大家可以客观的切身体会到GPT4-O到底有什么不一样的点,我们使用Apple To Apple的比较方式来说明吧。

反应速度来比较

包括Stream或者是非Stream模型的每一次对话响应速度,在同等发送内容大小:发送4,096 Token,响应4,096 Token(生产级实用场景)下各版本表现如下:

  • GPT3.5-3秒响应;
  • GPT4-9秒~10秒响应;
  • GPT4-Turbo和Vision反而更慢:12-15秒响应;
  • GPT4-O,5秒响应;

GPT3.5完胜!

推理能力比较

这是我们在自己产品内的AI原生规则引擎产品-内部开发代号“汉摩拉比法典”,在“法典”中我们可以使用动态的AI线路去做切换(包括国内几个著名的LLM都可以热切换其实都已经做过比较了)。

它的参数+发送内容基本在一次出去2,000 Token,返回在900Token左右。

  • 3.5推理这么一种至少含有3个维度间跳跃的,有5%失败率(返回不是我们要的甚至格式都错了),内容准确性在95%;
  • 4.0(包括8K,32K和Turbo-128K版本),0%失败率,成功率达到100%,内容准确性达到100%;
  • GPT4-O,成功率99%,内容准确性达到99%;

GPT4系列版本完胜!

理解能力比较

什么是理解能力?它是推理能力吗?嘿嘿嘿。

我告诉大家,RAG或者说AI Agent领域做多了就能真正体验到什么叫“理解能力”不等于“推理能力”了。上面我的推理能力里因为是一个生产级别的应用它带有多层推理,至少达到3层推理,这个推理是指根据提示出结果的正确性。

而理解能力是指它是不是真正的“听懂了”你说的话,叫理解能力,同样我们使用生产级别的内容来评判 这个理解能力,理解用范本如下:

对于住房管理维修业务分为分套内和套外两种。

套内(包括住房内所有电器、空调、住房内装修、住房内器具、用品、家具、住房内厨房、卫生间、洗浴等用品、住房内家内空间里的一切物品)指客户的住房内全部问题属于“A物业”公司负责。

套外(包括小区、苑、园区、楼道)即客户住房外部的一切问题如:楼道、电梯、公共走廊、门厅、小区内的绿化带、停车场、健身区、儿童游乐场等共享设施,以及建筑物的外墙装饰、屋顶防水处理这些问题这些都属于“B物业”公司负责。

根据这个背景知识我们追加提问:

家里马桶坏了,找谁?
  • 3.5,回答为:这属于套外问题,找B物业;
  • 4.0(包括8K,32K和Turbo-128K版本),回答为:这属于套内问题,找A物业;
  • 4.0 O,回答为:这属于套内问题,找A物业;

4.0与4-O打平手。

注:为什么3.5在讲了这么明确的情况下还会把马桶认为是套内问题?因为提示语里的背景有套内是“住房内”,套外是“住房外部”。因此3.5把这个“住房内”理解成了你家假设有2室1厅1卫,你住的主卧叫“内”,而“外”是指你主卧外的空间那么马桶在卫生间所以它属于“套外”问题

PS:为什么我们可以知道以上GPT3.5怎么理解错了?

很简单,每次让AI回答时让它多“带”点东西输出即在你的提示的最后加上以下这段魔咒你就能知道AI是怎么思考问题了:

请你回答后再加上一段内容,这段内容描述一下你是怎么理解、推理我的问题的详细过程。

结果3.5判定套内套外时在输出它的理解过程时输出了我上面这段标成紫色字体的内容了。

Token费用比较

如果是企业级应用肯定要用AZURE提供的GPT,全球唯一企业级GPT调用,因此我们直接拿官方的收费来比就可以了,这是公开的信息。

GPT3.5完胜!

特殊能力比较

  • GPT3.5-只有文字,通过OCR、语音等技术、PYTORCH以及其它多媒体小模型加持,可以做到多模态,但对实施团队要求很高;
  • GP4(包括GPT4-8K、32K、Turbo),通过OCR、语音技术、PYTORCH以及其它多媒体小模型加持,可以做到多模态,但对实施团队要求很高;
  • GPT4-VISION,直接识别图,对于语音、手绘识别度不高需要使用其它相应的小模型来做辅助实施,对团队实施要求很高;
  • GPT4-O,对语音、手绘均识别,且识别率极好,可以秒杀市面任何其它这方面的产品;

GPT4-O完胜!

GPT各版本-Apple To Apple完整比较视图

到底如何选型

从上面的比较来看,我们可以说“各有千秋”,没有绝对的好与坏,只有如何在充分理解你要实施的需求的前提下的“搭配使用”,说白了还是项目管理那套:成本、质量、进度。而不是只选1个版本来使用而不用其它的版本这种非0即1的选择

对此我现在自己的团队得出了这么一套方法论供各位去做参考:

  • 必须使用最快的来输出文字问答,这是必须使用快的;
  • 对于推理、理解类的,需要把送出去的“猫娘-角色设定+提示语+数据”最小化到甚至连4都可以做到在1.5-2秒内返回时就一定要用4否则用3.5来做,但此时对提炼你将要送给GPT的内容需要做语义、措词、描述上的修改(最好用全英语写提示词,中文存在不少岐议会导致猫娘过长而取得的效果还不好);
  • 对于精准要求很高的,可能需要重新考虑设计你的“用户交互层”,需要到处充满着“异步”或者一些技巧以便于在因为付出速度慢获得精准性时兼顾到用户的交互体验(这一块比实施之前中台类项目还复杂)更有点像在做“创意”而不是在做编程或者是技术工作了;

那么说到一些图片、语音交互是不是非要GPT4-O莫属?

答案是:不一定!

GPT4-O整体来说换算成人民币是1,000 Token1角4毛5分钱 RMB(按照今天汇率算)。不贵也不算太便宜,因为生产级别应用并发是一秒至少50-150,如果是TO C端这个底子一乘上去还是不便宜的。

它只是在性能、准确度、和反应速度上做出了一个较好的“折中”而己。如果只是语音识别,这方面有不少国内垂直领域做了相当好,甚至可以做到比如说:我走在上海南京路步行街,5.1号中午左右这个点街上人声鼎沸,周边分贝在75-80左右时在这样的一个环境下我们国内的一些AI语音识别SDK的识别率也能高达97%。

对于图片,我们可以使用图片向量搜索、比较这一类算法。

只有且仅只有需要实时识别图片时,GPT-4O的确是王者。比如说:一闪而过的高速路上的车牌号这样的识别,或者说是:模糊图片、不清晰图片的信息提取、校准。

GPT4-O对图片的分析的准确率的演示

最后我们以GPT4-O在我这实际使用的例子演示来感受一下GPT4-O在图片识别这一块的强大吧。

例一、我儿子的手绘图让GPT4-O去分析

例二、手绘HTML,GPT4-O出代码准确率到达了100%

GPT4-O根据的绘生成HTML

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1713646.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

使用Java和XxlCrawler获取各城市月度天气情况实践

目录 前言 一、历史数据获取 1、关于天气后报 2、信息界面分析 二、数据的提取开发 1、PageVo的定义 2、属性定义 3、实际信息抓取 三、信息抓取调试以及可能的问题 1、信息获取成果 2、关于超时的问题 四、总结 前言 这篇文章主要来源于一个我们家小朋友的一个作业…

FreeSwitch视频会议同时支持内网和外网接入

我们在使用freeswitch进行视频会议时,之前所有的用户都是通过外网的方式接入,因为fs给其返回的sdp协议内容里,只需要fs配置的外网IP就可以了;最近由于引入新的业务需要有其他内网的服务器也可以直接接入fs的视频会议房间&#xff…

【Spring Cloud】分布式配置

目录 未来的开发场景为什么需要配置中心配置实时生效配置管理流程 开源配置中心基本介绍DisconfSpring Cloud ConfigApolloNacos Spring Cloud Config介绍配置管理工具体系 案例需求编写 Config Server1.创建配置文件2.创建项目3.添加依赖4.添加注解5.修改配置文件application.…

玩游戏也能学好 JavaScript 啦?

最近有朋友问,应该如何学好 JavaScript。不过我做了好多年的后端开发,JavaScript 虽然也是有所接触,但肯定是谈不上精通。在将朋友介绍给公司的前端大神之后,突然想到,学习编程本身还是一个挺枯燥的事情,如…

FDW(Foreign Data Wrapper)

在上一篇博客里,最末尾提到了 FDW。 FDW 到底是什么呢? 标准 FDW(Foreign Data Wrapper)遵循了 SQL/MED 标准,标准全称:ISO/IEC 9075-9 Management of External Data (SQL/MED) 2003 年,SQL…

【大数据】Hadoop 2.X和1.X升级优化对比

目录 1.前言 2.hadoop 1.X的缺点和优化方向 3.解决NameNode的局限性 3.1.Hadoop HA 3.2.Haddop federation 4.yarn 5.周边组件 1.前言 本文是作者大数据系列中的一文,专栏地址: https://blog.csdn.net/joker_zjn/category_12631789.html?spm10…

相机系列——相机标定简述

作者:木一 对相机系列感兴趣还可看前文了解更多相关内容: 相机系列——透视投影:针孔相机模型 VR/AR/XR背后的逻辑?离不开三维引擎相机 引言 上文我们介绍了针孔相机模型,用来描述相机的透视投影成像过程&#xf…

数据要素的大海,如何流向千行百业?

文|白 鸽 编|王一粟 当数智化的风吹向银行业,是从底层数据的融合开始的。 在银行风控场景中,一个人想要进行风险投资或借贷,银行往往会评估这个人的信贷和风控策略。在以往的办理模式中,会需要办理人…

看看最新的B端登录界面,你是不是被潮流抛弃了?

毛玻璃风格(Frosted Glass Style)是新拟态设计风格中的一种分支,它灵感来源于现实世界中的毛玻璃材质。毛玻璃是一种通过在玻璃表面加工处理的方式,使其具有模糊、云翳和透明效果的特殊玻璃。 在设计中,毛玻璃风格通常…

OrangePi Kunpeng Pro体验——安装Hass与驱动SPI小屏幕

OrangePi Kunpeng Pro 是一款面向开发者和爱好者的高性能开发板。在本次测评中,主要将以前的一些代码在该开发板上实现,包括docker部署hass,引脚驱动SPI小屏幕。中间遇到了一些小小问题,但都成功了,一起来试试吧~ 一、…

NoSQL是什么?NoSQL数据库存在SQL注入攻击?

一、NoSQL是什么? NoSQL(Not Only SQL)是一种非关系型数据库的概念。与传统的关系型数据库不同,NoSQL数据库使用不同的数据模型来存储和检索数据。NOSQL数据库通常更适合处理大规模的非结构化和半结构化数据,且能够…

n后问题 回溯笔记

问题描述 在nn格的棋盘上放置彼此不受攻击的n个皇后。 按照国际象棋的规则,皇后可以攻击与之处在同 一行或同一列或同一斜线上的棋子。n后问题等价于在nn格的棋盘上放置n个皇后,任何2个皇后不放在同一行或同一列或同一斜线上。 代码 import java.uti…

史上最全排序算法整理!(1)

1.排序的概念及其应用 1.1排序的概念 排序是计算机内经常进行的一种操作,其目的是将一组“无序”的记录序列调整为“有序”的记录序列。分内部排序和外部排序,若整个排序过程不需要访问外存便能完成,则称此类排序问题为内部排序。反之&#…

linnux上安装php zip(ZipArchive)、libzip扩展

安装顺序: 安装zip(ZipArchive),需要先安装libzip扩展 安装libzip,需要先安装cmake 按照cmake、libzip、zip的先后顺序安装 下面的命令都是Linux命令 1、安装cmake 确认是否已安装 cmake --version cmake官网 未安装…

基于k-NN + GCN的轴承故障诊断模型

目录 往期精彩内容: 创新点: 前言 1 轴承故障数据的预处理 1.1 导入数据 1.2 数据预处理,制作数据集 2 基于Pytorch的GCN轴承故障诊断 2.1 定义GCN分类网络模型 2.2 设置参数,训练模型 2.3 模型评估 代码、数据如下&…

乡村振兴与农业科技创新:加大农业科技研发投入,推动农业科技创新,促进农业现代化和美丽乡村建设

一、引言 在当代中国,乡村振兴已成为国家发展的重要战略之一。作为国民经济的基础,农业的发展直接关系到国家的稳定和人民的福祉。随着科技的不断进步,农业科技创新在推动农业现代化和美丽乡村建设中发挥着越来越重要的作用。本文旨在探讨如…

深入理解JVM:内存结构、垃圾收集与性能调优

目录 JDK、JRE、JVM关系? 启动程序如何查看加载了哪些类,以及加载顺序? class字节码文件10个主要组成部分? JVM结构 画一下JVM内存结构图 程序计数器 Java虚拟机栈 本地方法栈 Java堆 方法区 运行时常量池? 什么时候抛出StackOverflowError? 例如&…

SAP_SD模块 物料科目分配/成本简介

SAP系统各模块与财务都有个方面的集成。文本主要说明销售模块中的科目分配和成本的一个对应关系。 1、首先是在物料主数据上销售视图中的物料科目分配组,S1主营、S2材料等字段,物料销售的时候会将这个物料产生的记录到对应的科目中。 首先是物料主数据中…

FreeRTOS【7】队列使用

1.开发背景 操作系统提供了多线程并行的操作,为了方便代码的维护,各个线程都分配了专用的内存并处理对应的内容。但是线程间也是需要协助操作的,例如一个主线程接收信息,会把接收的信息并发到其他线程,即主线程不阻塞&…

数分之SQL查询电商数据案例

1,Python连接SQL数据库 以下是使用Python连接MySQL数据库并进行操作的示例代码: import random import time import pymysql# 定义名字数据 xing ["王", "李", "张", "刘", "陈", "杨", "黄&q…