谷歌发布 3 款 Gemini 新模型;字节开源 FLUX Dev Hyper SD Lora,8 步生图丨 RTE 开发者日报

news2024/12/25 22:08:54

在这里插入图片描述

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@SSN,@鲍勃

01 有话题的新闻

1、谷歌发布 3 款 Gemini 实验 AI 模型:1.5 Pro 冲榜第二、1.5 Flash 从第 23 蹿升至第 6

在这里插入图片描述

昨日,谷歌 AI Studio 产品总监洛根・基尔帕特里克(Logan Kilpatrick)在 X 平台发布推文,宣布推出 3 款 Gemini 实验性模型。3 款实验性 Gemini AI 模型如下:

Gemini 1.5 Flash-8B

  • Gemini 1.5 Flash-8B 是 Gemini 1.5 Flash 的更小尺寸模型,拥有 80亿参数,专为多模态任务而设计,包括大容量任务和长文本摘要任务。

Gemini 1.5 Pro Exp-0827

  • 主要增强编程、复杂提示词,现已通过 Google AI Studio 和 Gemini API免费提供,名称为「gemini-1.5-pro-exp-0827」。

  • Kilpatrick 表示,新的 Gemini 1.5 ProExp 0827 型号在各方面都优于 8 月初发布的实验型号,目前在 LMSYS 上的排名为第 2 位,仅次于 OpenAI 的GPT-4o-latest 模型。

  • 谷歌将于 9 月 3 日起,将 gemini-1.5-pro-exp-0801模型的请求,自动重定向到新的 gemini-1.5-pro-exp-0827 模型上。gemini-1.5-pro-exp-0801模型将从 Google AI Studio 和 API 中删除。

Gemini 1.5 Flash Exp-0827

  • Gemini-1.5-Flash (0827) 版本在性能方面有明显提升,在 LMSYS 上的排名从此前的 23 位提高第 6 位。

用户可以通过 Gemini API 和 Google AI Studio 访问上述两个模型,名称分别为 gemini-1.5-pro-exp-0827 和 gemini-1.5-flash-exp-0827。(@IT 之家)

2、Freepik Mystic 发布,号称是目前最先进的 AI 图像生成器

Magnific AI 和 Freepik 联合推出了 Freepik Mystic,宣称是目前最先进的 AI 图像生成器,也是唯一可以直接生成全高清图像的 AI 图像生成器。

与 Midjourney 和 OpenAI 的 Dall-E 不同,Mystic 并非基础模型,而是一个结合 Flux 基础模型、微调、高分辨率图像生成技术和参数调整的流程。

Mystic 能够生成高质量的图像,包括写实肖像、动物、风景、奇幻场景、室内设计和建筑概念、像素艺术、游戏元素、表情包等多种类型的图像。这些图像由顶尖摄影师、数字艺术家、VFX 专家和设计师精心策划,并由 Magnific AI 和 Freepik 的内部专家进行微调。Mystic 可以生成分辨率高达 1,664 x 2,432 的 AI 图像,并能够很好地遵循所给定的提示词生成符合要求的图像。

目前,Freepik Mystic 可以通过 Freepik Premium 订阅使用。此外,Mystic 也将登陆 Magnific AI 平台。(@AI 未来)

3、字节开源 FLUX Dev 的 Hyper SD Lora,8 步生图

在这里插入图片描述

字节跳动开源了 FLUX Dev 的 Haper SD Lora,大幅度缩短了 FLUX 图片生成的时间。Hyper-SD 提供了一系列基于不同基础模型的 LoRA 检查点,支持 1 到 8 步的推理过程,并且提供了与 ComfyUI 集成的工作流程,以及相关的技术报告和演示。尽管 8 步模型相较于原始版本效果有所下降,但是效果是可接受的。

项目还包括了如何使用这些模型进行文本到图像的生成,以及如何与 ControlNet 结合使用,以实现更精细的图像控制。用户可以通过 Hugging Face 的演示来体验 Hyper-SD 的性能,并且可以通过 ComfyUI 使用 Hyper-SD 的工作流程。(@雷锋网)

4、SlowFast-LLaVA:苹果推出的无需训练多模态模型

在这里插入图片描述

SlowFast-LLaVA 是苹果推出的无需训练多模态大语言模型,专注于视频理解和推理。该模型旨在在不超出常用 LLM 的 token 预算情况下,同时捕捉详细的空间语义和长距离的时间上下文。该项目无需对任何数据进行微调,在广泛的视频问答任务和基准测试中,其性能与最先进的视频 LLM 相当甚至更好。(@机器之心 SOTA 模型)

5、安卓 / macOS 版 ChatGPT AI 应用现支持「@」,可无缝切换不同 GPT 模型

科技媒体 testingcatalog 昨日发布博文,报道称安卓版和 macOS 版 ChatGPT 现支持 Mentions 功能,用户在聊天对话中使用「@」字符来调用不同的定制 GPT 模型。

Mentions 是 ChatGPT 的一个重要工具,让用户在一次对话中与多个专门的人工智能模型互动,每个模型都能提供独特的功能来丰富对话内容。

在安卓版 ChatGPT 应用中,用户输入「@」符号之后,会弹出一个窗口,让用户选择不同的 GPT,在保持聊天上下文的时候方便用户无缝切换。

苹果 macOS 平台最新版 ChatGPT 也已上线该功能,但目前 iOS 平台 ChatGPT 仍未上线。(@IT 之家)

02 有态度的观点

1、宇树创始人王兴兴:做机器人,中国缺乏 AI 人才

2024 年不少厂商开始将人形机器人搬到工厂「打工」,比如马斯克让擎天柱在特斯拉工厂「自己造自己」。但从世界机器人大会中会发现,人形机器人距离成为真正的「打工人」还有不小的一段距离。它们并没有展现出能够替代人类劳动力的能力,有的人形机器人连行走都比较困难,需要在吊杆辅助下才能顺利挪步,而有的人形机器人虽然能够演示其检修作业能力——例如对轮胎进行质检,但实际汽车工厂的场景更复杂、工序流程更多。就单纯的轮胎质检环节而言,有一个成本更低的、有视觉感知功能的设备就能完成,而不需要一个成本更高的人形机器人。而在诸如车辆内外饰装饰、道路测试等更复杂并且更耗人力的场景里,机器人的泛化能力不够,尚无法代替人类。

与其说机器人们「进厂打工」,不如说他们是「进厂学习」。目前,机器人企业们还需要进入工厂不断完善数据采集工作,来帮助提升产品的泛化能力。

在世界机器人大会之前,王兴兴分享了他对人形机器人产业现状的观点,他认为,AI 能力不够是机器人行业发展最大的瓶颈。「只有机器人 AI 的能力能突破一个临界点,工厂里的一些工序才能跑起来,机器人才能比人效率更高」,但是「中国的 AI 人才欠缺,对 AI 的人才培养力度不太够」,并且王兴兴认为「跟通用 AI 的发展相比,机器人 AI 的整个行业,落后了 10 年左右。」

虽然硬件层面也会对机器人发展形成桎梏,但王兴兴认为「硬件没有理论上的门槛,它是工程上的问题,在工程上把成本做得更低,做得更好,外观也做得更加极致,硬件功能也更加丰富。」

虽然机器人行业存在软硬件困境,但王兴兴表示行业会越来越好,因为「这个行业越来越热了,有更多的聪明人,更多的钱,更多的关注参与进来。(@腾讯科技)

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

在这里插入图片描述

素材来源官方媒体/网络新闻

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2085578.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

源代码防泄露迎来信创时代:信创沙箱

在当今数字化时代,信息安全已成为企业生存与发展的基石,尤其是在信息技术应用创新(信创)环境下,数据保护更是被提升至前所未有的高度。SDC沙盒防泄密系统以其独特的技术架构和卓越的安全性能,在信创环境中构…

文心快码,码随心动,效率快人一步!

🎁👉点击进入文心快码 Baidu Comate 官网,体验智能编码之旅,还有超多福利!🎁 想象一下,你正在为一段复杂的代码逻辑而苦恼,文心快码却能轻松帮你续写代码,解决你的烦恼。…

addroutes和next()导致的页面无法跳转问题,如登录之后无法跳转到首页,无法重定向,使用next(to)

版本 vue router 3 问题说明 登录成功后,想重定向到/index,执行router.push之后进入beforeEach; 由于第一次访问,判断用户信息为空,需要异步拉取用户的权限等信息, 获得响应后,使用addRoutes批…

【C#】汉诺塔C#代码实现(递归)

1. 思路 假设总共需要移动n个盘子: 将A柱上的n-1个盘子借助C柱移向B柱将A柱上仅剩的最后一个盘子移向C柱将B柱上的n-1个盘子借助A柱移向C柱 2.代码 using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.Threa…

护眼台灯是不是智商税?全面测评松下、书客、飞利浦护眼台灯!

在当今数字化时代,长时间面对电子屏幕已成为日常生活的一部分,这对我们的视力健康构成了挑战。特别是在学习和工作的场景中,一款优质的护眼台灯不仅能够提供舒适的照明环境,还能有效减轻眼睛疲劳,保护视力。然而&#…

如何优雅的使用责任链模式?

如何优雅的使用责任链模式? 在业务开发中,总是会由于需要处理复杂的业务逻辑,从而造成开发者的代码冗余或者模块之间耦合度过高,那么当面对这种情况时,如何实现请求处理的灵活性和可维护性,责任链模式就可以…

短视频流量|基于SprinBoot+vue的短视频流量数据分析系统(源码+数据库+文档)

短视频流量数据分析系统 基于SprinBootvue的短视频流量数据分析系统 一、前言 二、系统设计 三、系统功能设计 5.1 系统功能模块 5.2 管理员功能模块实现 四、数据库设计 五、核心代码 六、论文参考 七、最新计算机毕设选题推荐 八、源码获取: 博主介绍…

免费批量Excel文件合并、拆分工具

软件介绍 下载地址:https://pan.quark.cn/s/ae860a4e2ccb 1.多个XLS或XLSX格式EXCEL文件合并,合并后可使用数据透视表进行相关操作。 2.自动合并多个EXCEL文件的第一个工作表,并汇总成一张表,可根据所有列标题需要指定需要的列。 …

【基础篇】行锁功过:怎么减少行锁对性能的影响?

定义 **MySQL 的行锁是在引擎层由各个引擎自己实现的。**但并不是所有的引擎都支持行锁,比如 MyISAM 引擎就不支持行锁。不支持行锁意味着并发控制只能使用表锁,对于这种引擎的表,同一张表上任何时刻只能有一个更新在执行,这就会…

一文详解JNPF低代码平台在不同行业的应用分析

随着信息技术的飞速发展,企业对于快速开发和部署业务应用的需求日益增长。低代码平台作为加速企业数字化转型的利器,正受到越来越多的关注。JNPF作为一款先进的低代码开发平台,凭借其强大的功能和灵活性,在不同行业中得到了广泛的…

Jenkins安装使用详解,jenkins实现企业级CICD流程

文章目录 一、资料1、官方文档 二、环境准备1、安装jdk172、安装maven3、安装git4、安装gitlab5、准备我们的springboot项目6、安装jenkins7、安装docker8、安装k8s(可选,部署节点)9、安装Harbor10、准备带有jdk环境的基础镜像 三、jenkins实…

禁止文件外发 | 如何禁止员工外发文件?严守企业机密,禁止员工外发敏感文件!

近期,我们注意到一些敏感项目资料有外泄的风险,这对公司的核心竞争力构成了严重威胁! 我们必须立即采取行动,严守企业机密,确保每一份文件都安全无虞。 从今天起,我们要全面升级信息安全措施,…

Java基础(5)- Java代码笔记2

目录 一、键盘录入_Scanner 1.输入:导包 -> 创建对象 -> 调用方法 2.next和nextLine区别 二、Random随机数 1.生成随机数 2.在指定范围内随机生成一个数 三、Switch语句 四、一维数组 1.数组定义 2.获取数组长度 3.遍历数组 3.输出数组 4.数组常见…

[Backbone]CAS-ViT: Convolutional Additive Self-attention Vision Transformers

1. BaseInfo TitleCAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile ApplicationsAdresshttps://arxiv.org/pdf/2408.03703Journal/Time202408Author清华Codehttps://github.com/Tianfang-Zhang/CAS-ViTRead20240829TableVisonTrans…

【健康问答】揭秘五大‘天然降压果‘,高血压患者常吃,血压稳稳降!-曹启富医生

曹医生,听说有些水果对高血压患者有特别的益处,能帮助降低血压,是真的吗? 曹医生说:确实如此。在日常饮食中,合理摄入一些富含特定营养素的水果,对于辅助控制高血压有着积极的作用。今天&#…

苹果手机系统崩溃了怎么办?详细修复指南助你快速恢复

苹果手机以其卓越的性能和稳定的系统赢得了众多用户的青睐,但偶尔也会出现系统崩溃的情况,让人措手不及。当面对苹果手机系统崩溃时,不必过于担心,本文将为你提供一套详细的修复指南,帮助你快速恢复手机的正常使用。 …

AI 网关零代码解决 AI 幻觉问题

作者:邢云阳,Higress Contributor 前言 什么是 AI Agent 随着大模型技术的快速发展,越来越多的公司在实际业务中落地了大模型应用。但是人们逐渐发现了大模型能力的不足。例如:由于大模型的训练数据是有限的,因此一…

身体发出的“高压”警报,曹启富医生教你识别高血压症状

高血压,这一慢性“隐形杀手”,正悄然影响着越来越多人的健康。随着生活节奏的加快和不良生活习惯的积累,其发病率逐年攀升,成为威胁人类健康的重要疾病之一。今天,我们有幸邀请到心脑血管科专家曹启富医生,…

摩博会15天倒计时!ONEOS 恒石智能强强联手,即将携多款MODEL系列芯片打造的智能仪表璀璨亮相

随着2024年第二十二届中国国际摩托车博览会(摩博会)的临近,国内领先的操作系统提供商ONEOS与智能硬件领域的佼佼者恒石智能宣布强强合作,将于9月13日至16日在重庆国家会展中心共同揭开多款MODEL系列芯片驱动的彩屏仪表的神秘面纱。…

JavaWeb - Vue项目

创建 命令行 vue create project 图形化界面 vue ui 目录结构 启动 命令行 npm run serve 端口配置 Vue的组件文件以.vue结尾 每个组件有三个部分组成&#xff1a; <template>&#xff1a;模板部分&#xff0c;由它生成HTML代码<script>&#xff1a;控制…