GPT-4问世;LLM训练指南;纯浏览器跑Stable Diffusion

news2025/1/12 15:50:22

1.多模态GPT-4正式发布:支持图像和文本输入,效果超越ChatGPT

OpenAI的里程碑之作GPT-4终于发布,这是一个多模态大模型(接受图像和文本输入,生成文本)。主要能力有:

  • GPT-4可以更准确地解决难题,具有更广泛的常识和解决问题的能力:更具创造性和协作性;可以接受图像作为输入并生成说明文字、分类和分析;能够处理超过 25,000 个单词的文本,允许长文内容创建、扩展对话以及文档搜索和分析等用例。

  • GPT-4的高级推理能力超越了ChatGPT。

  • 在SAT等绝大多数专业测试以及相关学术基准评测中,GPT-4的分数高于ChatGPT。

ba70f26c080741253a411e32cfeab095.png

f545cc6243777933588386dd998b9ef5.png

  • GPT-4遵循GPT、GPT-2和GPT-3的研究路径,利用更多数据和更多计算来创建越来越复杂和强大的语言模型(数据量和模型参数并未公布)。

  • OpenAI花了6个月时间使GPT-4更安全、更具一致性。在内部评估中,与GPT-3.5相比,GPT-4对不允许内容做出回应的可能性降低82%,给出事实性回应的可能性高40%。

  • 安全与对齐:引入了更多人类反馈数据进行训练,以改进GPT-4的行为;不断吸取现实世界使用的经验教训进行改进;GPT-4的高级推理和指令遵循能力加快的安全性研究工作。

OpenAI还开源了Evals框架(https://github.com/openai/evals),以自动评估AI模型性能,允许用户报告模型中的缺点,以帮助其改进。

OpenAI表示,GPT-4仍然有许多正在努力解决的已知局限性,例如社会偏见、幻觉和对抗性prompt。目前,OpenAI正在ChatGPT Plus上提供GPT-4,并为开发人员提供API以构建应用和服务。值得一提的是,微软的New Bing早就用上了GPT-4。

链接:
API申请:https://openai.com/waitlist/gpt-4-api;

https://openai.com/product/gpt-4;
https://mp.weixin.qq.com/s/kA7FBZsT6SIvwIkRwFS-xw

2. OpenAI发布通用人工智能路线图:AGI比想象中来得更快

在ChatGPT引爆科技圈之后,人们对于先进技术产生了更多期待,但一直有专家警告 AI 可能造成的危害。我们知道,OpenAI的使命是确保通用人工智能 —— 比人类更聪明的AI系统,能够造福全人类。近期,OpenAI发布了「AGI 路线图」,详细解释了这家前沿研究机构对通用人工智能研究的态度。


链接:

https://mp.weixin.qq.com/s/zu1a9p3nDTdk_lZ_-y8XFA

3. 超越ChatGPT:大模型的智能极限

在此前《大型语言模型的涌现能力》、《ChatGPT进化的秘密》两篇文章中,符尧剖析了大型语言模型的突现能力和潜在优势,大模型所带来的“潜在的”范式转变,并拆解了ChatGPT演进的技术路线图。

在本文中,作者以终为始分析了大模型的智能极限及其演进维度。不同于刻舟求剑式只追求复现ChatGPT的经典互联网产品思维,而是指出了OpenAI组织架构和尖端人才密度的重要性,更重要的是,分享了模型演化与产品迭代及其未来,思考了如何把最深刻、最困难的问题,用最创新的方法来解决。

链接:

https://mp.weixin.qq.com/s/PteNTHckNAP1iVq10JuONQ

4. 大型语言模型训练指南

近年来,训练越来越大的语言模型已成为常态(悟道2.0模型参数量已经到达1.75T ,为GPT-3的10倍)。但如何训练大型语言模型的信息却很少查到 。

链接:

https://zhuanlan.zhihu.com/p/611325149

5. 大模型的三个基础假设

1. 开源模型会大大降低准入门槛;2. 应用为王,模型为辅;3. 企业市场需要新的平台服务

链接:

https://mp.weixin.qq.com/s/jC-_B_arDpm1dsEmJLZYIw

6. GPT-3/ChatGPT复现的经验教训

为什么所有公开的对GPT-3的复现都失败了?我们应该在哪些任务上使用GPT-3.5或ChatGPT?对于那些想要复现一个属于自己的GPT-3或ChatGPT的人而言,第一个问题是关键的。第二个问题则对那些想要使用它们的人是重要的。

链接:

https://mp.weixin.qq.com/s/4B7wX0UhYjWGgozREa2b9w

7. ChatGPT搜索的推理成本分析

实际上,每周推理ChatGPT的成本都超过了其训练成本。目前ChatGPT每天的推理成本为700,000美元。如果直接将当前的ChatGPT集成到谷歌的每次搜索当中,那么谷歌的搜索成本将大幅上升,达到360亿美元。谷歌服务业务部门的年净收入将从2022年的555亿美元下降至195亿美元。若将“类ChatGPT”的LLM部署到搜索中,则意味着谷歌要将300亿美元的利润转移到计算成本上。

链接:

https://mp.weixin.qq.com/s/JHIUc_3nfnxv-m_4YUC1Tw

8. ChatGPT模型参数≠1750亿,有人用反证法进行了证明

本文将使用反证法来证明并支持上面的论点,只需要使用大学里学到的一些理论知识。另外需要注意,还存在相反的问题,即有人声称ChatGPT只有X亿个参数(X远远低于1750)。但是,这些说法无法得到验证,因为说这些话的人通常是道听途说。

链接:

https://mp.weixin.qq.com/s/lzIQ50GCKGEPu1Yzs-7FnQ

9. 从0到1,OpenAI的创立之路

最近,ChatGPT让国内不少精英再一次感受到落后的紧迫感,不少创业团队要打造“中国版的OpenAI”。我们不乏真正有抱负的创业者,但想象一下,如果在2015年已经有一支OpenAI团队,Sam Altman和Greg Brockman这群人很可能会去打造另一支不同于它的“DeepMind”团队,而不会称自己要去打造“硅谷版的OpenAI”,并且是为了复现ChatGPT。

链接:

https://mp.weixin.qq.com/s/E1_30D9Jw1XHBQnrrSh4NQ

10. 清华朱军团队开源首个基于Transformer的多模态扩散大模型

当前的扩散模型DALL・E 2、Imagen、Stable Diffusion等在视觉创作上掀起一场革命,但这些模型仅仅支持文到图的单一跨模态功能,离通用式生成模型还有一定距离。而多模态大模型将能够打通各种模态能力,实现任意模态之间转化,被认为是通用式生成模型的未来发展方向。

清华大学计算机系朱军教授带领的TSAIL团队近期公开的一篇论文《One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale》,率先发布了对多模态生成式模型的一些探索工作,实现了任意模态之间的相互转化。

链接:

https://mp.weixin.qq.com/s/B68hXlFxA9L5jiWiMrEEiA

11. 编译器技术的演进与变革

在现代计算机系统中,编译器已经成为一个必不可少的基础软件工具。程序员通过高级语言对底层硬件进行编程,而编译器则负责将高级语言描述转换为底层硬件可以执行的机器指令。编译器在将应用程序翻译到机器指令的过程中,还需要对程序进行等价变换,从而让程序能够更加高效地在硬件上执行。

链接:

https://mp.weixin.qq.com/s/wJxDPX-HwvhgnoksTXGyMg

12. AI开发大一统:谷歌OpenXLA开源,整合所有框架和AI芯片

如今,机器学习开发和部署受到碎片化的基础设施的影响,这些基础设施可能因框架、硬件和用例而异。这种相互隔绝限制了开发人员的工作速度,并对模型的可移植性、效率和生产化造成了障碍。通过创建与多种不同机器学习框架、硬件平台共同工作的统一机器学习编译器,OpenXLA可以加速机器学习应用的交付并提供更大的代码可移植性。

链接:

https://mp.weixin.qq.com/s/p8daMLluTQAEuj_HNzRA6Q

13. OpenAI Triton介绍

深度学习领域的新颖研究思想通常是使用原生框架运算符的组合来实现的。虽然方便,但这种方法通常需要创建许多临时张量,这可能会损害神经网络的大规模性能。这些问题可以通过编写专门的GPU内核来缓解,但由于GPU编程的许多复杂性,这样做可能会非常困难。

尽管最近出现了各种系统以简化此过程,但我们发现它们要么过于冗长、缺乏灵活性,要么生成代码的速度明显慢于我们手动调整的基线。因此,一种最新的语言和编译器由此就诞生了。

链接:

https://zhuanlan.zhihu.com/p/606435901

14. PyTorch显存分配原理:以BERT为例

为什么在nvidia-smi显示的显存和实际占用不一致?模型训练和推理显存分别占用多大?如何节约显存,提高显存利用率?Fp16有用吗?可以节省多少显存?如何估算模型占用大小?这篇文章将会解决这些问题。

链接:

https://zhuanlan.zhihu.com/p/527143823

15. OneFlow源码解析:Eager模式下的SBP Signature推导

SBP是OneFlow中独有的概念,其描述了张量逻辑上的数据与张量在真实物理设备集群上存放的数据之间的一种映射关系。SBP Signature即SBP签名,是OneFlow中独创且很重要的概念。

链接:

https://mp.weixin.qq.com/s/E2pL7OnMhcHjISJ_jcs9rA

16. 面向Web的机器学习编译突破:纯浏览器运行Stable Diffusion

本文介绍了Web Stable Diffusion。这是世界上的第一个通过深度学习编译技术将 stable diffusion 完全运行在浏览器中的项目。模型的全部一切都运行在浏览器里,无需云端服务器支持。

链接:

https://zhuanlan.zhihu.com/p/612517660

17. YOLOv5全面解析教程④:目标检测模型精确度评估

链接:

https://mp.weixin.qq.com/s/nvfAU6TwTDoZhF8zFpCaOw

其他人都在看

  • One-YOLOv5 v1.2.0发布

  • 超越ChatGPT:大模型的智能极限

  • NCCL源码解析:初始化及ncclUniqueId的产生

  • ChatGPT作者Schulman:我们成功的秘密武器

  • 比快更快,开源Stable Diffusion刷新作图速度

  • OneEmbedding:单卡训练TB级推荐模型不是梦

  • GLM训练加速:性能最高提升3倍,显存节省1/3

欢迎Star、试用OneFlow: github.com/Oneflow-Inc/oneflow/icon-default.png?t=N176http://github.com/Oneflow-Inc/oneflow/

Disable checkingPremium suggestions

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/410510.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【软件安装】图数据库_Neo4j下载与安装配置详解

【软件安装】图数据库_Neo4j安装下载详解 文章目录【软件安装】图数据库_Neo4j安装下载详解1. 前言2. 下载Neo4j3. 安装 配置3.1 解压3.2 配置4. 启动Neo4j5. 参考1. 前言 因为使用Neo4j时默认是需要java-jdk的支持,因此在下载neo4j之前,需要下载jdk&a…

7年,从功能测试到测试开发,我证明了自己

我感觉我是一个比较有发言权的人吧,我在测试行业爬模滚打7年,从点点点的功能测试到现在成为测试开发工程师,工资也翻了几倍; 个人觉得,测试的前景并不差,只要自己肯努力;我刚出来的时候是在鹅厂…

Android 高通Camera2 Camera Device Close

1、很多人看到这个日志第一感觉可能觉得哪里没有合理释放,于是带着这个思路去进行百度探索 2、一开始我去寻找 ImageReader.OnImageAvailableListener 这个问题 var afterBitmap: Bitmap? null/**监听拍照的图片 */private val imageAvailableListener ImageRead…

算法 贪心3 || 1005. K 次取反后最大化的数组和 134. 加油站 135. 分发糖果

1005. K 次取反后最大化的数组和 思路:给数组按照绝对值大小排序,优先将负数转成正数。如果此时 k % 2 1 。最后再将绝对值最小的值变成负数(该值可能原本是负数) 而不是直接从小到大排序。 例如-8,-5,-5…

Zebec Protocol 出席香港 Web3 峰会,带来了哪些信息?

梳理香港加密新政的细节,一个明确的脉络是,香港加密新政的整体目的是令虚拟资产交易明确化和合法化,通过不断完善的监管框架,促进香港虚拟资产行业的可持续和负责任地发展。 在加强合规和持牌经营的监管思路下,长期审…

JavaScript|JS修仙篇|一本就够了|笔记|(超详细|保姆级)

🙈作者简介:练习时长两年半的Java up主 🙉个人主页:老茶icon 🙊 ps:点赞👍是免费的,却可以让写博客的作者开兴好久好久😎 📚系列专栏:Java全栈,计…

common markdown命令大全,控制文章格式

直接上教程 提到Markdown,很多人首先想到的是简单、Easy等等。的确,Markdown为简单而生。Markdown是由一个叫 JOHN GRUBER 的哥们发明的,它的语法用一篇文章就可以说完。不相信吗?让我们来试试看... 基础语法 标题 Markdown支持6…

搭建windows下基于VSCode的C++编译和调试环境

VSCode是目前比较流行的IDE,因为它插件丰富,依据需求扩展,非常方便。 本文记录搭建windows下基于VSCode的C编译和调试环境的过程。 网上关于此问题的帖子比较多,找了好几个也没有试验成功,最后发现还是按照VScode的官方…

揭秘阿里新大招:大模型只是前菜

技术的代际变革往往对商业格局产生深远影响。眼下,随着产业各界对大模型的投入布局加深,一个业界共识逐渐诞生:大模型正在改变云生态,将为云计算行业带来新的奇点。 在过去的一段时间里,市场研究机构IDC在2022年底的预…

Unity和Visual studio开发调试环境配置-工具插件安装和配置

在Unity开发中,常用C#脚本进行功能开发,需要用到Visual Studio进行开发和调试,需要分别在Unity3d和Visual Studio中安装插件和工具才能更好的进行开发和调试。 visual studio安装Unity扩展工具 visual studio中“工具”→“获取工具和功能”…

Leetcode.1019 链表中的下一个更大节点

题目链接 Leetcode.1019 链表中的下一个更大节点 Rating : 1571 题目描述 给定一个长度为 n 的链表 head 对于列表中的每个节点,查找下一个 更大节点 的值。也就是说,对于每个节点,找到它旁边的第一个节点的值,这个节…

[Python工匠]输出②数值与字符串

2.1 基础知识 2.1.1 数值基础 在Python中,一共存在三种内置数值类型:整型(int)、浮点型(float)和复数类型(complex)。 在大多数情况下,我们只需要用到前两种类型&#x…

SAR ADC系列23:异步SAR逻辑

异步sar逻辑的引入: 原因1:提高转换速度 ■ 同步时钟从第一个比较周期到最后一个比较周期长度都是相等的。对于Latch比较器,信号幅度越小,比较时间越长(参考latch时域响应那一节)。为了保证比较器…

Linux串口出厂测试工具与使用说明

1、说明 本文针对Linux系统上如何对各类串口硬件进行出厂测试进行硬件连接和软件使用说明,提供的软件测试工具wchsertest,适用于USB、PCI、PCIe转串口设备等、同样也适用于原生ttyS串口。 2、串口测试硬件连接 在测试前,需要制作单独的硬件…

寸照换底色技巧大全,超详细图文教程

在日常的设计工作中,我们常常需要将图片的背景色进行修改,以适应不同的场景和需求。其中最常用的方法就是寸照换底色技巧。本文将为大家介绍一些常见的寸照换底色技巧,并提供超详细的图文教程,帮助大家轻松完成这项任务。 一、使…

2023最新面试题-Java-6

1. Date API Java 8 在包java.time下包含了一组全新的时间日期API。新的日期API和开源的Joda-Time库差不多,但 又不完全一样,下面的例子展示了这组新API里最重要的一些部分: Clock类提供了访问当前日期和时间的方法,Clock是时区敏…

springboot加载命令行参数ApplicationArguments

往期文章 springcloud整合knike4j聚合微服务接口文档 spring源码 - 条件注解ConditionnalOnClass的原理分析 springboot项目实现导出pdf功能,这也太简单了吧 目录 文章目录往期文章目录一、介绍二、通过应用程序参数获取配置1. 通过bean获取应用程序参数2. 通过V…

在外web浏览器远程访问jupyter notebook服务器

文章目录前言视频教程1. Python环境安装2. Jupyter 安装3. 启动Jupyter Notebook4. 远程访问4.1 安装配置cpolar内网穿透4.2 创建隧道映射本地端口5. 固定公网地址转载自远控源码文章:公网远程访问jupyter notebook【cpolar内网穿透】 前言 Jupyter Notebook&#…

我现在必须new一个对象!!!

目录 前言 1.new 2.delete 3.底层逻辑 4.定位new 5.对比 前言 🎃之前在使用C语言的时候,我们便使用 malloc 和 calloc 等函数进行动态内存的开辟。但 C 之中又引入了两个操作符 new 和 delete 来代替C语言中的函数进行动态内存的管理。下面就一起…

苏州源特VPT87DDF01B 隔离变压器 小体积/SMD/3000VDC 隔离

1 产品特点  小体积隔离变压器  隔离电压 3000VDC  工作温度:-40~125℃(包含产品温升)  存储温度:-55~125℃  SMD 表贴安装  回流焊温度:峰值温度≤250℃(10s)  回流焊次数&#…