AI日报|文生语音大模型国内外均有突破,Pika完成6亿新融资,视频大模型也不远了!

news2024/10/7 10:25:07

文章推荐

AI搜索哪家强?16款产品实战测评,效率飙升秘籍!

AI日报|智谱AI再降价,同时开源9B系列模型;国内外气象大模型竞逐升级

字节推出文本到语音模型家族Seed-TTS:擅长情感表达,与真人几乎无异

字节跳动推出文本到语音模型家族——SEED TTS,其核心亮点在于生成的语音音色高度接近人类,在相似度与自然流畅度方面,可以与真声媲美。

在技术层面有以下创新:

  • Seed-TTS是一系列大规模自回归文本到语音(TTS)模型,它通过学习语音上下文、说话人相似度和自然度等方面的特征,生成与人类语音难以区分的高质量语音。此外,Seed-TTS还具有优越的情感控制能力,可以根据需求生成具有不同情感和语音属性的语音
  • Seed-TTS还提供了自蒸馏方法用于语音分解,可以更好地理解语音的特征,以及增强模型鲁棒性、说话人相似度和控制性的强化学习方法。
  • Seed-TTS还展示了非自回归(NAR)变体Seed-TTSDiT,它采用完全基于扩散的架构,不依赖于预先估计的音素持续时间,通过端到端处理进行语音生成。

https://bytedancespeech.github.io/seedtts_tech_report/

Stability AI发布Stable Audio Open文本至音频模型,时间可长达47秒

Stability AI宣布推出生成声音和歌曲的开放式人工智能模型—Stable Audio Open。该公司声称,该模型仅接受免版税录音训练。用户只需输入文本描述,模型就能生成最长47秒的声音片段,

Stable Audio Open能够创造鼓点、乐器旋律、环境音效及视频、电影、电视节目的制作元素,还能“编辑”现有歌曲或融合不同曲风,例如将柔和爵士风格应用于另一首歌。

并且Stable Audio Open一大亮点是用户可基于个人音频资料微调模型,让生成的内容更加个性化。

然而,这款开源模型存在局限:无法生成完整歌曲、旋律或人声,对此类需求,Stability AI推荐使用其付费服务Stable Audio。

此外,Stable Audio Open禁止商业用途。

https://techcrunch.com/2024/06/05/stability-ai-releases-a-sound-generator/

Pika完成全新6亿融资,即将发布全新视频生成大模型

AI视频生成初创公司Pika日前已完成总额8000万美元的B轮融资,由Spark Capital领投,Greycroft、Lightspeed Venture Partners以及Jared Leto参投,公司估值超过4.7亿美元,较上一轮翻了一倍。

截至目前,Pika总融资额已达1.35亿美元。Pika用户数达到数百万,每周生成数百万个视频。同时,Pika已租用数百个量级的GPU(图形处理器)芯片,用于模型训练和推理计算。

创始人郭文景表示:“我们正在努力打造最好的视频模式,同时也在努力打造真正服务于创作者的产品。”据悉,Pika将在今年下半年发布一个全新关键的基础模型以及配套产品更新。

https://mp.weixin.qq.com/s/fJtcza5MB9rmFRmLT2bI9g

Cartwheel提供文字生成3D动画,为创作者提供支持

从头开始制作3D角色动画通常既费力又费钱,需要使用复杂的软件和动作捕捉工具。Cartwheel希望让基本动画变得简单,只需用文字描述动画,就可以用AI生成基本动作。

因此用户在使用Cartwheel时,可以从文本框时输入任何内容,一两分钟后就可以得到一个流畅的基本动作动画,然后可以将其导出到3D编辑软件中。

Cartwheel表示,动画师无需在迈步,拍打,坐下等基本动作上花费太多时间,Cartwheel可以自动生成基本动作,用户可以自己对其进行关键帧处理,制作过程会更加快捷。

https://techcrunch.com/2024/06/05/cartwheel-generates-3d-animations-from-scratch-to-power-up-creators/

苹果发布会前iOS ChatGPT迎来重大更新,支持后台交互

距离类似ChatGPT的智能功能引入iOS 18仅剩几天时间。ChatGPT 官方 iOS 应用迎来重大更新(1.2024.150),用户现在可以在使用其他应用的同时继续与ChatGPT进行对话。
ChatGPT的这项全新多任务功能默认处于关闭状态,需要手动开启。

开启后台对话功能后,用户可以启动与ChatGPT的语音对话,然后离开应用并继续交谈。即使用户在使用其他应用,也能继续与ChatGPT语音助手进行对话。

https://www.ithome.com/0/773/429.htm

Nvidia 市值突破 3 万亿美元,超越苹果

得益于AI芯片的需求激增,英伟达今年股价飙升约147%,市值增加约1.8万亿美元,周三,该公司股价上涨5.2%,收于创纪录的1224.40美元,市值超过3万亿美元,超越苹果公司。

周三股价上涨使英伟达CEO黄仁勋在彭博亿万富翁指数上的财富增加了50多亿美元,达到1074亿美元。

英伟达没有放缓脚步的迹象,CEO黄仁勋表示计划每年升级其AI加速器。黄仁勋在台湾大学的演讲中提到,生成式AI的兴起是一场新的工业革命,随着AI技术渗透到个人电脑领域,英伟达将继续扮演重要角色。

https://es-us.finanzas.yahoo.com/news/nvidia-tops-3-trillion-market-191513270.html

“可信 AI 进展 “ 公众号致力于最新可信人工智能技术的传播和开源技术的培育,覆盖大规模图学习,因果推理,知识图谱,大模型等技术领域,欢迎扫码关注,解锁更多 AI 资讯~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1797461.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

视觉SLAM十四讲:从理论到实践(Chapter12:建图)

前言 学习笔记,仅供学习,不做商用,如有侵权,联系我删除即可 一、主要目标 1. 理解单目SLAM中稠密深度估计的原理。 2. 通过实验了解单目稠密重建的过程。 3. 了解几种RGB-D重建中的地图形式。 构建的地图也有多种功能分类&…

python的继承

本章正式开始之前,先让我们回顾一下什么是 对象 ? 什么是 类 ? 小贝 喜欢 猫咪,今年领养了一只名叫 Kitty 的 布偶猫。则下列哪项是 对象 呢?  A. 猫咪 B. Kitty C. 布偶猫 相比之下,闻闻 更喜欢 犬科 动…

鸿蒙全栈开发-基于ARKTS开发之初识框架-app.json5

前言 随着鸿蒙的不断发展,华为自行研制的“鸿蒙系统”横空出世,华为用实力为自己开辟了一个全新的时代,让中国品牌走向世界,并为程序员们带来了新的职业机遇。 这里来跟大家简单的聊一下鸿蒙基于ARKTS开发之初识框架-app.json5 当我们新建一个工程或者…

PICRUSt2在微生物功能预测分析中的应用解读

谷禾健康 微生物组学研究现已超越微生物群落组成分析得到更广泛的使用。大量的人类微生物组研究证据表明,肠道微生物组的功能变化对炎症和免疫反应的影响起到关键的影响作用。 16S rRNA分析是微生物组研究作为最常用便捷且具有成本效益的测量技术,用于分…

Hadoop3:MapReduce工作流程图解

一、流程图 二、流程说明 上面的流程是整个MapReduce最全工作流程,但是Shuffle过程只是从第7步开始到第16步结束,具体Shuffle过程详解,如下: (1)MapTask收集我们的map()方法输出的kv对,放到内存…

笔记95:车辆横向动力学方程转化为误差形式 -- 详细推导过程

1. 非误差型车辆横向动力学方程 注:关于轮胎侧偏刚度的正负 深蓝课程推导得到的车辆横向动力学返程使用的轮胎侧偏刚度是默认为正数;老王课程推导得到的车辆横向动力学方程使用的轮胎侧偏刚度是默认为负数; 1.1 深蓝课程推导得到的方程&…

工厂生产计划难以执行的真正原因及对策

在制造业中,生产计划的执行对于企业的运营至关重要。然而,许多工厂在生产计划执行过程中面临着诸多挑战,尤其是物料齐套率低的问题。本文将探讨工厂生产计划难以执行的真正原因,并提出相应的解决对策。 一、生产计划难以执行的真…

前端技术探索:从基础到进阶

前端技术作为现代Web开发中不可或缺的一部分,其重要性不言而喻。随着技术的快速发展,前端领域涌现出了许多经典且值得深入探索的技术和框架。本文将带您领略前端技术的魅力,从基础到进阶,一起探讨前端开发的精髓。 一、前端技术基…

顶顶通呼叫中心中间件-如何配置识别不同语种的ASR

文章目录 前言联系我们创建不同语种的语音识别任务开始对接识别不同语种的ASR重启 asrproxy 程序使用识别不同语种的ASR 前言 之前讲过顶顶通的 asrproxy 程序如何对接第三方的ASR,比如:阿里云的ASR。不知道如何对接的,可以参考:…

音视频开发17 FFmpeg 音频解码- 将 aac 解码成 pcm

这一节,接 音视频开发12 FFmpeg 解复用详情分析,前面我们已经对一个 MP4文件,或者 FLV文件,或者TS文件进行了 解复用,解出来的 视频是H264,音频是AAC,那么接下来就要对H264和AAC进行处理,这一节…

HackTheBox-Machines--Aragog

Aragog 测试过程 1 信息收集 NMAP 服务器开启了 21、22、80端口 21 端口测试 首先测试 21 端口,21端口开启了匿名登录 ftp服务器上存在 test.txt 文件,test.txt 文件是 xml 格式。 80 端口测试 echo "10.129.97.250 aragog.htb" | sudo tee…

[office] 如何才能用EXCEL打开dat文件- #微信#学习方法

如何才能用EXCEL打开dat文件? 方法: 1、打开EXCEL软件; 2、文件,打开,选择要转化的DAT文件; 3、在弹出的向导文件(步骤1)中,选择合适的文件类型(按预览选择&#xf…

浏览器中的disable cache对文件下载服务的影响

客户端缓存文件 对于HTTP的文件请求来说,为了保证请求的速度,会使用客户端缓存的机制。比如客户端向服务器端请求一个文件A.txt。服务器在接收到该请求之后会将A.txt文件发送给客户端。 其请求流程如下: 步骤1:客户端请求服务器…

基于fabric封装一个简单的图片编辑器(vue 篇)

介绍 前言vue demo版本react 版本 前言 对 fabric.js 进行二次封装,实现图片编辑器的核心功能。核心代码 不依赖 ui响应式框架vue ,react 都适用。 只写了核心编辑相关代码便于大家后续白嫖二次开发 核心代码我就没有打包发布 会 和 业务代码一起放到项目中。 vu…

一篇教会你CSS定位

前言:在网页布局的时候,我们需要将想要的元素放到指定的位置上,这个时候我们就可以使用CSS中的定位操作。 先让我们看一下本篇文章的大致内容: 目录 什么是定位 1.相对定位 2.绝对定位 3. 固定定位 4. 粘性定位 5. 定位层级…

【vue-lottie实现高级菜单效果】

文章目录 概要整体交互使用技术准备工作技术细节小结 概要 主要实现利用lottie动画实现复杂动画交互效果,项目为大屏系统,设计是做一个全局菜单,不用的时候折叠成一个小盒子,使用的时候点击小盒子可以展开菜单页,展开效…

《尚庭公寓》项目部署之Docker + Nginx

docker rmi nginx docker pull nginx docker rm -f nginx #先创建一个简易的nginx容器(后面会删),然后通过 docker cp命令把容器里面的nginx配置反向拷贝到宿主主机上。 docker run --name nginx -p 80:80 -d nginx# 将容器nginx.conf文件复…

Linux 36.3 + JetPack v6.0@jetson-inference之图像分类

Linux 36.3 JetPack v6.0jetson-inference之图像分类 1. 源由2. imagenet2.1 命令选项2.2 下载模型2.3 操作示例2.3.1 单张照片2.3.2 视频 3. 代码3.1 Python3.2 C 4. 参考资料5. 补充5.1 第一次运行模型本地适应初始化5.2 samba软连接 1. 源由 从应用角度来说,图…

Linux下gcc编译32位程序报错

gcc使用-m32选项,编译32位程序时,报错:/usr/include/stdio.h:27:10: fatal error: bits/libc-header-start.h: No such file or directory gcc编译32位程序时,报错:/usr/include/stdio.h:27:10: fatal error: bits/li…

vue3+ elementPlus PC端开发 遇到页面已进入就form校验了的问题

form表单一进页面就校验了 rules里配置的 require 提示语 如图所示代码是这样的 最后发现是form表单下面的一个按钮的展示规则 会导致规则校验 canAddInsured 这个字段的变化会导致form表单校验 这个字段是computed maxInsureds 也是个computed监听 maxInsured.value >1 就…