一周热门|比GPT-4强100倍,OpenAI有望年底发布GPT-Next;1个GPU,1分钟,16K图像

news2024/9/21 13:20:16

在这里插入图片描述

大模型周报将从【企业动态】【技术前瞻】【政策法规】【专家观点】四部分,带你快速跟进大模型行业热门动态。

01 企业动态

Ilya 新公司 SSI 官宣融资 10 亿美元

据路透社报道,由 OpenAI 联合创始人、前首席科学家 Ilya Sutskever 在 2 个多月前共同创立的安全超级智能(SSI)公司,完成融资 10 亿美元。这笔融资将用于帮助开发远超人类能力的安全人工智能(AI)系统。SSI 拒绝透露公司最新估值,但接近此事的消息人士称 SSI 的估值已经高达 50 亿美元。Ilya 表示,他将采用与 OpenAI 不同的方式继续践行 scaling law,但尚未透露任何细节。

OpenAI 有望年底发布 GPT-Next,比 GPT-4 强 100 倍

据《科创板日报》报道,在最近举行的 KDDI 峰会上,OpenAI 日本子公司首席执行官 Tadao Nagasaki 透露,代号为“GPT-Next”的新一代模型性能预计将比现有的 GPT-4 模型强大 100 倍,并计划在今年晚些时候发布。GPT-Next 模型性能的提升归功于其优化的架构设计和学习效率的改进,而不是单纯依赖于庞大的计算资源。

智谱完成新一轮数十亿元融资

近日,智谱以 200 亿元的投前估值,完成了新一轮融资,金额达数十亿元。本轮领投方为中关村科学城公司,其为海淀区政府设立的市场化投资平台。

Anthropic 推出 Claude Enterprise 计划

Anthropic 为其人工智能(AI)聊天机器人 Claude 推出一个新的订阅计划——Claude Enterprise,主要面向希望获得更多管理控制和更高安全性的企业客户。Claude Enterprise 允许企业客户上传公司专有文件,帮助他们分析信息、回答相关问题、创建图形和简单的网页,或者充当专用的 AI 助手,其上下文窗口为 50 万 token,可以在一次提示中处理多达 20 万行代码、几十份 100 页的文档或两小时的音频转录。

马斯克:超级 AI 训练集群 Colossus 已上线

日前,马斯克在 X 上发帖表示,其人工智能(AI)初创公司 xAI 已经上线了庞大的 AI 训练系统 Colossus。Colossus 由 10 万张英伟达 H100 GPU 驱动。“Colossus 是世界上最强大的 AI 训练系统,”马斯克表示,“这一系统的规模将在几个月内翻一番,达到 20 万张 GPU(其中 5 万张为 H200)。”

无问芯穹完成近 5 亿元 A 轮融资

日前,无问芯穹宣布完成近 5 亿元 A 轮融资,本轮融资联合领投方为社保基金中关村自主创新专项基金、启明创投和洪泰基金,跟投方包括联想创投、小米、软通高科等。据了解,无问芯穹本次融资募集的资金将用于加强技术人才吸纳与技术研发,做 AI 模型算力的“超级放大器”。

腾讯发布新一代大模型“混元 Turbo”

据财联社报道,在 2024 腾讯全球数字生态大会上,腾讯发布了新一代大模型——腾讯混元 Turbo。该模型采用 MoE 架构,比上一代产品推理效率提升 100%,推理成本降低 50%。此外,腾讯混元 Turbo 的价格也比混元 Pro 降低50%,输出价格为0.05元/千tokens,输入价格为0.015元/千tokens。

面壁智能推出全新 MiniCPM3.0 基座模型

日前,国内大模型厂商面壁智能推出端侧模型面壁小刚炮系列升级版本 MiniCPM3.0 基座模型。据介绍,MiniCPM3.0 参数大小为 4B,性能超越 GPT-3.5,且量化后仅 2GB 内存,对端侧友好,具有无限长文本的特色。

02 技术前瞻

清华、智谱团队推出 LongCite:让 LLM 在长上下文问答中生成精细引用

尽管目前的长上下文大语言模型(LLM)在回答用户基于大量文本的问题时表现出了强大的能力,但由于其回答中缺乏引用(citation),使得用户很难验证,这导致了人们对其潜在幻觉的可信度的担忧。

在这项工作中,来自清华大学和智谱的研究团队旨在让长文本 LLM 生成具有细粒度句子级引用的回答,从而提高其忠实性和可验证性。他们首先介绍了 LongBench-Cite,这是一种自动基准,用于评估当前 LLM 在带引用的长上下文问答(LQAC)中的性能,显示出相当大的改进空间。

为此,他们提出了一种利用现成的 LLM 自动生成具有精确句子级引用的长上下文问答实例的新型管道 CoF(Coarse to Fine),并利用该管道构建了用于 LQAC 的大规模 SFT 数据集 LongCite-45k。最后,他们使用 LongCite-45k 数据集训练 LongCite-8B 和 LongCite-9B,成功使它们能够在单个输出中生成准确回复和细粒度句子级引用。

LongBench-Cite 上的评估结果表明,他们训练的模型在引用质量方面达到了 SOTA,超过了包括 GPT-4o 在内的先进专有模型。

首个混合 Mamba 和 Transformer 的多模态大语言模型

扩展多模态大语言模型(MLLM)的长上下文能力涉及一系列系统优化工作,包括模型架构、数据构建和训练策略。在这项工作中,来自香港中文大学、深圳大数据研究院的研究团队,将模型架构调整为 Mamba 和 Transformer 模块的混合体,并提出了首个混合 MLLM——LongLLaVA(Long-Context Large Language and Vision Assistant)。它不仅在各种基准测试中取得了具有竞争力的结果,还保持了高吞吐量和低内存消耗。特别是,它可以在单个 A100 80GB GPU 上处理近千张图像,为各种任务展示了广阔的应用前景。

100% 开放的混合专家语言模型

来自艾伦人工智能研究所、Contextual AI 的研究团队及其合作者,推出了一个完全开放的 SOTA 语言模型 OLMoE,它利用了稀疏混合专家(MoE)机制。OLMoE-1B-7B 拥有 70 亿参数,每个输入 token 仅使用 10 亿参数。他们在 5 万亿个 tokens 上对其进行预训练,并进一步创建了 OLMoE-1B-7B-Instruct。他们的模型在性能上超越了所有具有相似激活参数的现有模型,甚至超过了如 Llama2-13B-Chat 和 DeepSeekMoE-16B 等大模型。

LinFusion:1 个 GPU,1 分钟,16K 图像

新加坡国立大学团队提出了一种广义线性注意力范式,来作为广泛流行的线性 token 混合器的一种低秩近似。为了节省训练成本并更好地利用预训练模型,他们从预训练的 StableDiffusion。初始化该模型并提炼知识。

结果发现,经过相对较少的训练提炼出的模型,即 LinFusion,在性能上与原始 SD 持平甚至更优,同时显著降低了时间和内存复杂度。广泛实验表明,LinFusion 提供了满意的零样本跨分辨率生成性能,能够生成 16K 高分辨率图像。此外,它与预训练的 SD 组件高度兼容,如 ControlNet 和 IP-Adapter,无需进行适配。

MIT 团队提出上下文归因方法 ContextCite

语言模型在生成回答时是如何使用提供的上下文信息的?我们能否推断出一个特定生成的陈述实际上是基于上下文,还是一个误解,或者完全是编造的?为了帮助回答这些问题,麻省理工学院(MIT)团队提出了上下文归因问题:确定是上下文的哪些部分(如果有的话)导致模型生成了一个特定的陈述。然后,他们提出了一种简单且可扩展的上下文归因方法 ContextCite,其可以应用于任何现有的语言模型之上。

SciLitLLM:如何让 LLM 理解科学文献?

为了开发专门用于科学文献理解的大语言模型(LLM),来自深势科技、中国科学技术大学的研究团队提出了一种混合策略,将持续预训练(CPT)和监督微调(SFT)结合起来,从而同时注入科学领域知识并增强特定领域任务的指令遵循能力。应用这一策略,他们推出了 SciLitLLM,专门用于科学文献理解。

Mini-Omni:首个用于实时语音交互的完全端到端开源模型

在这项工作中,研究团队推出了一种基于音频的端到端对话模型 Mini-Omni,其能够进行实时语音交互。为了实现这一功能,他们提出了一种基于文本指令的语音生成方法,并在推理过程中采用 batch 并行策略,从而进一步提高性能。这一方法还有助于保留原始模型的语言能力,并将退化程度降到最低,从而使其他工作能够建立实时交互能力。

03 政策法规

浙江:鼓励开发适配人形机器人的通用多模态大模型

据财联社报道,浙江将鼓励大模型企业开发适配人形机器人的通用多模态大模型,加速“大脑”训练,强化语音交互、逻辑推理、任务规划等能力,鼓励人形机器人企业开发运动控制、平衡协调等专用模型,熟化“小脑”能力,聚焦视觉、听觉、触觉搭建多模态感知系统,提升多传感融合处理水平。

欧盟签署《人工智能框架公约》

日前,欧盟轮值主席国匈牙利在社交媒体上发文说,当天匈牙利代表欧盟在立陶宛首都维尔纽斯签署了《人工智能框架公约》。《人工智能框架公约》是由欧洲委员会牵头推进制定,经过多年筹备,由 50 多个国家历时两年起草,并于今年 5 月获得通过。

04 专家观点

杨立昆:大语言模型不会达到人类智能水平

日前,图灵奖得主杨立昆发文称,用于人工智能(AI)训练的可靠数据来源正在逐渐枯竭,相比之下,人工“后期训练”的成本正在快速增长。他表示,如今 AI 模型的表现已趋于饱和,所以目前的大语言模型(LLM)不会达到人类智能水平,“但这不意味着它们没有用”。

沈向洋:须重视 AI 的治理,打造负责任的 AI

日前,香港科技大学校董会主席、美国国家工程院外籍院士沈向洋表示,从人机共存的新范式到大模型的行业落地,折射的是技术与商业形成闭环、让技术创新真正改变世界的本质。在人工智能(AI)的颠覆性力量逐步显化的过程中,须重视 AI 的治理,打造负责任的 AI。

联合国秘书长:让 AI 造福全人类

日前,联合国秘书长安东尼奥·古特雷斯在人工智能和能力建设研讨会上发表讲话指出:我们正处在一个关键时刻。人工智能(AI)正在飞速发展,以我们刚刚开始理解的方式改变着我们的世界。然而,我们面临着一个严峻的现实:AI 机遇的分享并不均衡。他警告说:“我们必须抓住这一历史机遇,为 AI 的包容性治理奠定基础——造福全人类。”

观点:SearchGPT 在处理一些购物和本地查询时依然很吃力

OpenAI 的搜索工具 SearchGPT 通过汇总从不同网页中提取的信息,提供标明明确来源的流畅答案。根据对接触过这一工具的人的采访、网上分享的视频和一家搜索营销公司的分析,该工具目前远未达到取代谷歌的水平,其在处理一些购物和本地查询时依然很吃力,有时还会出现不真实或“幻觉”信息。

05 其他

MIT 团队推出数据集审查工具 DPExplorer

来自麻省理工学院(MIT)的研究团队及其合作者开发了一种名为 “Data Provenance Explorer” 的结构化审查工具,其通过自动生成详细的数据来源卡片,帮助人工智能(AI)从业者选择更适合其大模型的训练数据。通过使用这一工具,他们将无法验证的信息从 72% 降至 30%,明显降低了数据的偏差,有效提高了数据的可追溯性和透明度。

英国首个由 AI 教授课的“无教师”课堂

伦敦一所学校将推出英国首个“无教师”的普通中等教育证书课程,使用人工智能(AI)取代人类教师。20 名学生将通过电脑上的 AI 平台和 VR 头戴式设备进行教学。这些平台了解学生擅长什么,以及他们需要更多帮助,然后制定个性化的教学计划。三名“学习教练”将监督学生的行为并提供支持,以及教授 AI 难以掌握的科目,如艺术。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2152430.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

抖音如何改ip地址到另外城市

在数字化时代,抖音作为广受欢迎的社交媒体平台,不仅连接了亿万用户,也成为了展示个人生活、分享创意内容的重要舞台。然而,有时候出于隐私保护等需求,用户可能希望更改抖音账号显示的IP地址,使其看起来像是…

奇安信渗透2面经验分享

《网安面试指南》http://mp.weixin.qq.com/s?__bizMzkwNjY1Mzc0Nw&mid2247484339&idx1&sn356300f169de74e7a778b04bfbbbd0ab&chksmc0e47aeff793f3f9a5f7abcfa57695e8944e52bca2de2c7a3eb1aecb3c1e6b9cb6abe509d51f&scene21#wechat_redirect 《Java代码审…

泛微E9开发 创建自定义浏览框,关联物品管理表【1】

创建自定义浏览框,关联物品管理表【1】 1、自定义浏览框1.1 概念1.2 前端样式 2、创建物品管理表2.1 新建建模表单操作方法2.2 物品管理表 3、创建浏览按钮 1、自定义浏览框 1.1 概念 自定义浏览框可以理解为是建模引擎中的表与表关联的一个桥梁。比如利用建模引擎…

【学习笔记】数据结构(六 ①)

树和二叉树 (一) 文章目录 树和二叉树 (一)6.1 树(Tree)的定义和基本术语6.2 二叉树6.2.1 二叉树的定义1、斜树2、满二叉树3、完全二叉树4、二叉排序树5、平衡二叉树(AVL树)6、红黑树 6.2.2 二叉树的性质6.…

2024“智衡屋” 智能感知挑战赛决赛即将来袭

2024“智衡屋” 智能感知挑战赛决赛将于 2024 年 9 月 24 日在安徽省合肥市举行,决赛将作为 2024 年中国计量测试学会首届人工智能计量学术大会的重要环节率先举行。 2024“智衡屋” 智能感知挑战赛自启动以来,吸引了700余支高校学生、科研机构研究人员以…

Spring Boot框架在心理教育辅导系统中的应用

3 系统分析 3.1可行性分析 在进行可行性分析时,我们通常根据软件工程里方法,通过四个方面来进行分析,分别是技术、经济、操作和法律可行性。因此,在基于对目标系统的基本调查和研究后,对提出的基本方案进行可行性分析。…

weblogic CVE-2018-2894 靶场攻略

漏洞描述 Weblogic Web Service Test Page中⼀处任意⽂件上传漏洞,Web Service Test Page 在 "⽣产模式"下默认不开启,所以该漏洞有⼀定限制。 漏洞版本 weblogic 10.3.6.0 weblogic 12.1.3.0 weblogic 12.2.1.2 28 weblogic 12.2.1.3 …

ChromaDB教程_2024最新版(下)

前言 Embeddings(嵌入)是表示任何类型数据的AI原生方式,它非常适用于各种AI驱动的工具和算法中。它们可以表示文本、图像,很快还可以表示音频和视频。有许多创建嵌入的选项,无论是在本地使用已安装的库,还是…

LabVIEW 可以同时支持脚本编程和图形编程

LabVIEW 可以同时支持脚本编程和图形编程,但主要依赖其独特的 图形编程 环境(G语言),其中程序通过连线与节点来表示数据流和功能模块。不过,LabVIEW 也支持通过以下方式实现脚本编程的能力: 1. 调用外部脚本…

openCV3.0 C++ 学习笔记补充(自用 代码+注释)---持续更新 三(61-)

环境&#xff1a;OpenCV3.2.0 VS2017 61、轮廓集合重排序(按轮廓面积从小到大) //对轮廓集合面积从大到小排序 bool compareValue_bs(const std::vector<cv::Point> & c1, const std::vector<cv::Point> & c2) {int area1 cv::contourArea(c1);int area…

Vue 组件通信指南:Props 和 $emit,Vuex(状态管理),EventBus(事件总线),Provide/Inject(依赖注入)

引言 在 Vue 中&#xff0c;组件是构建应用的基本单元&#xff0c;而组件通信则是构建复杂应用的关键。组件通信是指在不同的 Vue 组件之间传递数据、交互和共享状态的过程&#xff0c;它在构建大型应用和组织代码方面起着至关重要的作用。 在开发过程中&#xff0c;我们经常…

一招教你挑代理IP的秘诀

逛乎&#xff0c;一直刷到这类问题&#xff1a; 本质上&#xff0c;都是在面对市面上那么多代理IP服务提供商&#xff0c;挑得眼花缭乱了&#xff0c;而代理IP直接影响到我们数据采集任务的效率、安全性和成功率&#xff0c;所以我们在挑选服务提供商的时候都会谨慎一些。索性我…

VScode安装和使用教程,2024最新最全,零基础入门到精通,看完这一篇就够了!

# VSCode 安装使用教程&#xff08;图文版&#xff09; 工欲善其事&#xff0c;必先利其器 对于我们每一位软件工程师来说&#xff0c;都要有自己顺手的 IDE 开发工具&#xff0c;它就是我们的武器。 一个好用的 IDE 不仅能提升我们的开发效率&#xff0c;还能让我们保持愉悦…

推送 Git Remote: 内部服务错误解决方案

Git Remote: 内部服务错误起因 拉取阿里云云效仓库代码的时候&#xff0c;之前一直拉取仓库并且推送都没有任何问题&#xff0c;但是最近在云效里面新建了一个仓库&#xff0c;也能成功拉取下来&#xff0c;但就是推送不上去&#xff0c;但是其它仓库都可以随意推送没有任何问…

IPv6(三)

文章目录 IPv6报文 IPv6报文 IPv6基本报头有8个字段&#xff0c;固定大小为40字节&#xff0c;&#xff0c;每个IPv6数据都必须包含报头&#xff0c;基本报头提供报文转发的基本信息&#xff0c;会被转发路径上面的所有路由器解析 IPv6报头长度为40字节Version&#xff1a;版本…

如何实现一个流畅的滚动列表

如何实现一个流畅的滚动列表 在网页开发中&#xff0c;滚动列表是展示大量数据时常用的交互方式。通过结合CSS动画和视觉设计&#xff0c;我们可以让列表内容自动滚动&#xff0c;为用户提供顺畅的浏览体验。今天&#xff0c;我将带你一步步实现一个流畅、富有视觉吸引力的滚动…

MySQL中的LIMIT与ORDER BY关键字详解

前言 众所周知&#xff0c;LIMIT和ORDER BY在数据库中&#xff0c;是两个非常关键并且经常一起使用的SQL语句部分&#xff0c;它们在数据处理和分页展示方面发挥着重要作用。 今天就结合工作中遇到的实际问题&#xff0c;回顾一下这块的知识点。同时希望这篇文章可以帮助到正…

[备忘]测算.net中对象所占用的内存

.net 基础库中应该是没有直接提供计算某个对象所占内存的方法。简单查了下&#xff0c;找到几种方式&#xff1a; 1、运行态用工具进行内存分析 比如&#xff0c;微软这篇教程中有介绍。《使用 .NET 对象分配工具分析内存使用情况》https://learn.microsoft.com/zh-cn/visuals…

Tomcat CVE-2017-12615漏洞复现

1.开启环境 cd /vulhub/tomcat/CVE-2017-12615 docker-compose up -d 一键启动环境 2.在首页进行抓包 修改为put方式提交 Tomcat允许适用put方法上传任意文件类型&#xff0c;但不允许jsp后缀文件上传&#xff0c;因此我们需要配合 windows的解析漏洞. 使用put /shell.jsp…

着色器ShaderMask

说明 实现一个渐变进度条&#xff0c;要求&#xff1a; 颜色渐变的过程是循序渐进的&#xff0c;而不是看起来像是将渐变条逐渐拉长了。 效果 源码 // 渐变进度条Stack(children: [// 背景色板Container(width: 300,height: 8,decoration: BoxDecoration(borderRadius: Bord…