MiniMax 首个文生视频模型发布,可生成 6s,限时免费;阿里 Qwen2-VL 第二代视觉语言模型开源丨RTE 开发者日报

news2024/9/20 12:41:32

在这里插入图片描述

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@SSN,@鲍勃

01有话题的新闻

1、MiniMax 公布首个 AI 高清视频生成模型

8 月 31 日首次举行的 MiniMax Link 伙伴日上,MiniMax 发布了旗下首个文生视频模型 abab-video-1,成为继快手、字节跳动、智谱等之后又一家拥有视频生成模型的中国人工智能公司。

该模型可一次性生成长度为 6 秒的视频。MiniMax 在发布会现场展示了一段以「魔法硬币」为主题的视频,这段视频长达 1 分 55 秒,并且具有音效。MiniMax 称,该视频完全由 AI 生成,未经修改,不过生成是多次分段完成的,音效则由 MiniMax 旗下的语音大模型完成

用户目前可以在海螺 AI 官网免费体验生成包含文字的视频,最高支持原生 1280*720 的 25fps,拥有电影感镜头移动,被称为是 AI 视频界 Ideogram。目前 AI 视频时长最高 6 秒,未来或支持 10 秒。

至此,MiniMax 拥有了从文本到语音、视频生成的模型布局。MiniMax 创始人闫俊杰在发布会后接受包括「新皮层」在内的多家媒体采访中称,之后还将陆续推出「图生视频、文+图生成视频、可编辑的可控视频生成」等模型或功能。(@新皮层 NewNewThing)

2、阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源

在这里插入图片描述

阿里云通义千问于昨日(9 月 2 日)宣布开源第二代视觉语言模型 Qwen2-VL,并推出 2B、7B 两个尺寸及其量化版本模型。同时,旗舰模型 Qwen2-VL-72B 的 API 已上线阿里云百炼平台,用户可直接调用。

据阿里云官方介绍,相比上代模型,Qwen2-VL 的基础性能全面提升:

  • 读懂不同分辨率和不同长宽比的图片,在 DocVQA、RealWorldQA、MTVQA 等基准测试创下全球领先的表现;

  • 理解 20 分钟以上长视频,支持基于视频的问答、对话和内容创作等应用;

  • 具备强大的视觉智能体能力,可自主操作手机和机器人,借助复杂推理和决策的能力,Qwen2-VL可以集成到手机、机器人等设备,根据视觉环境和文字指令进行自动操作;

  • 理解图像视频中的多语言文本,包括中文、英文,大多数欧洲语言,日语、韩语、阿拉伯语、越南语等。

Qwen2-VL 延续了 ViT 加 Qwen2 的串联结构,三个尺寸的模型都采用了 600M 规模大小的 ViT,支持图像和视频统一输入。

同时,通义千问团队以 Apache 2.0 协议开源了 Qwen2-VL-2B 和 Qwen2-VL-7B,开源代码已集成到 Hugging Face Transformers、vLLM 和其他第三方框架中。开发者可以通过 Hugging Face 和魔搭 ModelScope 下载使用模型,也可通过通义官网、通义 App 的主对话页面使用模型。(@IT 之家)

3、FLUX.1-dev-LoRA:一个混合现实与插画风格模型 可以生成融合了现实与插画元素的图像

在这里插入图片描述

FLUX.1-dev-LoRA 是一个混合现实与插画风格模型。该模型可以生成融合了现实与插画元素的图像。它基于 FLUX.1-dev 基础模型进行训练,特别擅长生成前景角色为插画风格,而背景为现实风格的视觉效果。

可以通过使用该模型生成图片并发布在社交平台上,如微信朋友圈或小红书,达到不露脸但仍然展示旅行场景的效果。

  • 艺术风格: 模型擅长将现实与插画元素融合,创造独特的视觉效果。

  • 提示词范例: 用户可以使用详细的场景描述和人物动作提示词,生成符合自己需求的图像。

Tip: A cartoon style man/woman, wearing what clothes, in what scene, and doing what.

  • 参数推荐: 在 WEBUI 在线生成时,建议的 LoRA 权重为 0.4-0.5,而在 COMFYUI 在线生成时,建议的 LoRA
    权重为 1-1.2。(@小互 AI)

4、Cohere 发布 Command R 及 Command R+ AI 模型重大更新

近日,Cohere 公司宣布对其 Command R 和 Command R+ AI 模型进行了全面升级,显著增强了这些模型在企业级应用中的能力。新版本 command-r-08-2024 和 command-r-plus-08-2024 在检索增强生成(RAG)、多语言支持和自适应工具使用方面取得了重要进展。

此次更新中,标准版 Command R 模型在整体性能上已接近甚至在某些方面超越了其前身 Command R+。新模型实现了 50%的吞吐量提升和 20%的延迟降低,同时硬件需求减半,为企业带来了更高效、成本更低的 AI 运营方案。

新系列模型支持多达 23 种语言,在多语言 RAG 方面表现出色,这对于全球企业尤为重要。因为它通过提供跨多种语言的准确、在线引用,大大减少了人工智能的幻觉。这些模型现在可以无缝地以用户的首选语言执行计划、工具查询和问答,而不需要额外的提示。

Cohere 还优化了模型在编程、数学和逻辑推理方面的能力,特别是在结构化数据分析上的改进尤为显著,能够更深入地解析包括表格数据在内的多种数据格式,为金融、SaaS 和咨询等行业的数据驱动决策提供了有力支持。

目前,这些升级后的模型已以具有竞争力的价格通过 Cohere 的托管 API 和 Amazon SageMaker 提供服务,未来还将扩展至更多云平台。具体定价为:command-r-08-2024 每百万输入令牌 0.15 美元,每百万输出令牌 0.60 美元;command-r-plus-08-2024 每百万输入令牌 2.50 美元,每百万输出令牌 10.00 美元。(@ ATYUN)

5、IDC 首次发布移动端 AI 大模型应用报告:百度文心一言发展较全面、抖音豆包用户活跃度表现出色

在这里插入图片描述

市场调查机构 IDC 昨日(9 月 2 日)首次发布了移动端大模型应用市场竞争力分析研究报告,评估了市场上 8 款热门 Chatbot 聊天机器人模型,包括 kimi 智能助手、豆包、海螺 AI、天工、通义、文心一言、讯飞星火、智谱清言,并分析、洞察了相关 AI 模型的性能和特征。

具体指标包括:市场影响力、用户活跃度、用户黏性以及用户体验四大维度。通过 App 下载量、搜索指数、日活、30 日留存率以及用户反馈和功能丰富度等数据来进行全方位的评估。

评估结果中,三款产品凭借各自在不同维度上的优势脱颖而出:

  • 百度文心一言:在市场影响力、用户粘性、场景创新等方面均展现出独特风采,成为上半年发展较为全面的应用。同时,百度持续布局智能体生态,加强场景专业度及覆盖面,探索大模型数字人等创新交互方式。但在市场影响力、以及用户活跃度方面仍可以进一步提升,以实现更大的突破。

  • 抖音豆包:在市场影响力、用户活跃度以及用户粘性方面均表现出色。然而,由于其偏娱乐化的产品定位,用户在体验上对其要求较高,同时在功能丰富度上发力不足,故用户体验维度还有待进一步提升。

  • 昆仑万维天工:凭借卓越的功能丰富度与搜索引擎的融合优势,赢得了市场的广泛赞誉,并获得了较高的用户粘性。但在用户活跃度方面,天工还需通过提升自身影响力等途径,进一步加以强化。

其他应用也在不同维度也展现了自己的优势,如 kimi 智能助手在知识探索长文本上发力、海螺 AI 作为个性化生活顾问、通义侧重逻辑能力、讯飞星火在语音赛道有专业表现,以及智谱清言主攻决策方向等。(@IT 之家)

02有态度的观点

1、吴恩达:团队应该专注于构建有用的应用程序,而不是优化 LLM 成本

吴恩达提到,OpenAI 对 GPT-4o 的价格进行了显著的降低,使得每百万代币的成本从发布时的 36 美元降至 4 美元,这在 17 个月内大约相当于每年价格下降 79%。这种价格下降的原因之一是开放权重模型(如 Llama 3.1)的普及,使得 API 提供商能够在价格和速度等方面竞争。

同时,Groq、Samba Nova、Cerebras 等公司的硬件创新,以及 NVIDIA、AMD、英特尔和高通等半导体巨头的进步,也在推动代币价格的进一步降低。吴恩达强调,应用程序的开发应该考虑技术的未来发展趋势,而不仅仅是当前的技术水平。他对代币价格持续快速下降表示乐观,并且认为即使目前某些代理工作负载不完全经济,随着代币价格的下降,这些工作负载可能会变得经济实惠。例如,一个使用 100 个代币每秒钟的应用程序,按照当前的价格,每小时的成本仅为 1.44 美元,这比美国和许多国家的最低工资要低。

吴恩达提出了几点建议:首先,团队应该意识到 LLM 的使用成本实际上比预期的要低,因此应该优先考虑构建有用的应用程序而不是过度优化成本。其次,即使应用程序目前运行成本较高,也可能值得部署,因为未来的价格下降可能会使其变得经济实惠。最后,随着新模型的不断推出,应用程序开发者应该定期评估是否有必要切换到新模型,以便利用价格下降和功能增强的优势。他还指出,多个提供商托管的开放权重模型使得在不同提供商之间切换成为可能,尽管不同的模型实现可能会导致性能差异。不过,随着评估科学的进步,这一过程可能会变得更加容易。(@雷锋网)

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

在这里插入图片描述

素材来源官方媒体/网络新闻

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2100896.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

第七在线携手美国男士内衣品牌Tommy John,共启智能订货新篇章

【喜讯速递】在数字化转型的浪潮中,7thonline第七在线再次以卓越的技术实力和前瞻性的市场洞察,成功签约国际知名男士内衣品牌Tommy John,双方将携手推进智能订货会计划,共同开启零售供应链管理的新纪元。 男士内衣品牌Tommy John…

智慧水利解决方案应该部署哪些设备(近距离走进智慧水利解决方案)

作为一名水利工程技术人员,我深知智慧水利解决方案对于现代水资源管理的重要性。在我多年的工作经验中,我见证了传统水利系统向智能化转变的过程,也深刻理解了部署正确的设备对于实现智慧水利的关键作用。今天,我想分享一下在智慧…

android AccessibilityService合法合规增加小红书曝光阅读量(2024-09-02)

免责任声明: 任何可操作性的内容与本人无关,文章内容仅供参考学习,如有侵权损害贵公司利益,请联系作者,会立刻马上进行删除。 一、分析 目前可增加曝光阅读流量渠道入口(完成) 1. 发现页 打开小红书app选择顶部发现页&…

Python和MATLAB(Java)及Arduino和Raspberry Pi(树莓派)点扩展函数导图

🎯要点 反卷积显微镜图像算法微珠图像获取显微镜分辨率基于像素、小形状、高斯混合等全视野建模基于探测器像素经验建模荧光成像算法模型傅里叶方法计算矢量点扩展函数模型天文空间成像重建二维高斯拟合天体图像伽马射线能量和视场中心偏移角标量矢量模型盲解卷积和…

三、数组————相关概念详解

数组 前言一、数据理论基础二、数组常用操作2.1 初始化数组2.2 访问数组中的元素2.3 插入元素2.4 删除元素 三、数组扩展3.1 遍历数组3.2 数组扩容 总结1、数组的优点2、数组的不足 前言 在数据结构中,数组可以算得上最基本的数据结构。数组可以用于实现栈、队列、…

中资优配:炒股最笨十句口诀?

在出资股票时,出资者假设掌握一些方法技巧等,可以协助出资者更好地在股市进行生意,下面为我们介绍炒股十大口诀。 1、不跳水不买,不冲高不卖,横盘不生意 不要在股价跳水时急速买入,也不要在股价一开始冲高…

薛定谔的空气墙?一文带你了解其背后的技术原理

封面图 悟空来了都得撞墙? 目前,被称作“村里第一个大学生”的国产3A游戏《黑神话:悟空》发售已经有一段时间了,游戏采用虚幻引擎4技术,仿佛将传统与现代的界限模糊,玩家游玩时沉浸感极强。然而&#xff…

C# 窗口页面布局

1.Groupbox 单机鼠标右键,置于底层 2.Label 在右方属性中修改名称 3.ComboBox 点击属性中的集合,可以添加选择项 4.CheckBox 在属性中修改名称 5.RichTextBox 富文本 在属性中修改名称与区域 6.StatusStrip 状态栏 将AutoSize改成false就可以修改…

带你速通C语言——结构体(18)

结构体是 C 语言中用于创建复杂数据类型的关键工具。它们允许将多个变量(可能是不同类型的)组合成一个单一的实体,这对于组织和处理数据非常有用。这使得结构体成为数据库记录、配置设置、复杂数据交换等应用的理想选择。 1.定义结构体 结构…

NX二次开发——基础

1.打开信息窗口并写入 UC1601是将想显示的内容显示在一个UI消息框中,或者是状态栏,如果内容很多的时候,就不适合使用UC1601 使用信息窗口,相关命令:信息->....... 要实现这个功能具有的逻辑,先是要打…

【Kubernetes部署篇】二进制搭建K8s高可用集群1.26.15版本(超详细,可跟做)

文章目录 一、服务器环境信息及部署规划1、K8S服务器信息及网段规划2、服务器部署架构规划3、组件版本信息4、实验架构图 二、初始化环境操作1、关闭防火墙2、配置本地域名解析3、配置服务器时间保持一致4、禁用swap交换分区(K8S强制要求禁用)5、配置主机之间无密码登录6、修改…

ArkUI-状态管理-@Provide、@Consume、@Observed、@ObjectLink

ArkUI-状态管理 Provide装饰器和Consume装饰器:与后代组件双向同步概述观察变化框架行为Provide支持allowOverride参数 Observed装饰器和ObjectLink装饰器:嵌套类对象属性变化概述限制条件观察变化框架行为 Provide装饰器和Consume装饰器:与后…

【python计算机视觉编程——4.照相机模型与增强现实】

python计算机视觉编程——4.照相机模型与增强现实 4.照相机模型与增强现实4.1 真空照相机模型4.1.1 照相机矩阵4.1.2 三维点的投影4.1.3 照相机矩阵的分解4.1.4 计算照相机中心 4.2 照相机标定4.3 以平面和标记物进行姿态估计sift.pyhomography.py主函数homography.pycamera.py…

开源 AI 智能名片 O2O 商城小程序在营销中的应用

摘要:本文探讨了开源 AI 智能名片 O2O 商城小程序在营销中的应用,重点分析了喜好原则、互惠互利和高度认可三个方面对小程序推广和用户忠诚度提升的重要性。通过融入这些原则,开源 AI 智能名片 O2O 商城小程序能够更好地满足用户需求&#xf…

UnsupportedOperation: not readable 解决方案

大家好,我是爱编程的喵喵。双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的…

【操作系统】同步互斥与Golang互斥锁实现

【操作系统】同步互斥问题与Golang互斥锁实现 1 背景1.1 独立线程1.2 合作线程1.3 合作有风险,为什么需要合作1.4 多协程并发执行的风险举例(Golang语言)1.5 对风险的思考 2 同步互斥2.1 一些概念2.2 解决方案——保护临界区2.3 禁用硬件中断…

【转变之旅】从程序员到AI绘画艺术家,我的月入过万之路

曾经,我的生活平淡如水,作为一名程序员,每天重复着朝九晚五的工作。然而,一场突如其来的裁员,让我陷入了失业的深渊。为了生活,我选择了开滴滴谋生。没想到,这个看似权宜之计的决定,…

计算机网络——ARP篇

最近在学习计算机网络,做一下学习笔记: 抛出疑问?什么是ARP?ARP协议的作用是什么?ARP的工作原理是什么?ARP有哪些类型? 首先,我们要了解ARP的概念,ARP(Addre…

python计算机视觉编程——照相机模型与增强现实

一、针孔照相机模型 针孔照相机模型(有时称为射影照相机模型)是计算机视觉中广泛使用的照相机模型。针孔照相机模型简单,并且具有足够的精确度。这个名字来源于一种类似暗箱机的照相机。该照相机从一个小孔采集射到暗箱内部的光线。在针孔照相机模型中,在光线投影到图像平面之…

Windows 11 下使用 MSVC 2022 编译64位Nginx

一、软件准备 1、安装 Visual Studio 2022 包含单个组件: .NET Framework 4.6.1 目标包.NET Framework 4.6.1 SDKWindows 通用 C 运行时Windows 通用 CRT SDKMSVC v142 - VS 2019 C x64/x86 生成工具(v14.26)对 v142 生成工具(14.21)的 C/CLI 支持Clang compile fo…