重磅!字节跳动发布豆包音乐模型和同声传译模型
- 包括音乐模型,同声传译模型、文生图2.0模型、新的基于DIT的视频生成模型S2.0、豆包通用模型pro、语音合成模型。
- 还发布了图像转视频口型同步模型和文本、音频驱动的数字人模型。
- 这些功能将全部集成到最新版的豆包、即梦AI和剪映中...
- 截至到9月,豆包大模型的日均 tokens 使用量已经超过1.3万亿,4个月的时间里 tokens 整体增长超过了10倍。在多模态方面,豆包·文生图模型日均生成图片5,000万张,此外,豆包目前日均处理语音85万小时。
- 其中豆包视频生成模型,基于DIT架构可以实现一个Prompt的多个镜头切换时,保持主体,风格,氛围和逻辑的一致性,实现导演自由。
1、音乐生成模型展示
歌词更精准:仅需几个字,就能生成情感表达精准的歌词
旋律更多样:提供10余种不同的音乐风格和情绪表达
演唱更真实:基于豆包语音能力,媲美真人演唱效果
创作门槛低:支持图片成曲、灵感成曲、写词成曲多种创作方式
2、豆包·同声传译模型:支持多语言的实时同声传译
- 实时翻译:超低延时,边说边译,实时翻译沟通无障碍
- 精准自然:翻译流畅自然、准确率高,在办公、法律、教育等场景接近甚至超越人类同传水平
- 支持音色克隆:支持跨语言同音色翻译
🔗详细内容点这里:https://xiaohu.ai/p/13950
OpenAI 官方账号被黑,竟推广虚假加密货币!
- 虚假广告事件:OpenAI 官方账号遭黑客攻击,发布虚假加密货币广告。
- 网络安全警示:用户需提高警惕,不轻信陌生链接和信息,避免上当受骗。
- 删除推文回应:推广加密货币推文已删除,账号回应评论关闭,提醒大家注意恶意链接。
🔗突发!OpenAI被黑客入侵,发布虚假加密Token激励
奥特曼罕见长文预言:人类可能在“几千天”内实现超级智能 AI
- 超级智能AI可能在未来几千天内实现,OpenAI全力以赴
- 降低计算成本和基础设施建设是推动AI普及的关键
- 当前时代被称为“智能时代”,将带来深远的社会变革
🔗 倒计时!奥特曼罕见长文预言:ASI几年内降临,人类奇点将至-CSDN博客
OpenAI 推理模型 o1 评估研究报告
- 准确率高达 97.8% 远超其他 LLM 模型 但成本非常高
- 亚利桑那州立大学的研究人员基于 PlanBench 基准测试,评估了当前 LLMs 和新型 LRM( OpenAI 的 o1 模型)在规划任务中的表现。
模型推理表现:
o1 模型o1 -preview模型在600个Blocksworld问题中的准确率为97.8%,这是现有模型中的最高表现,明显优于其他 LLMs。
-Claude 3.5和Claude 3的准确率分别为54.8%和59.3%。
-LLaMA 3.1 405B模型的准确率为62.6%,是LLMs中表现最好的。
-GPT-4的表现中规中矩,准确率为34.6%,而GPT-4 Turbo为40.1%。
-其他模型,如Gemini 1.5 Pro和Gemini 1 Pro的表现则明显较差。
在 Mystery Blocksworld 这种混淆版本的测试中,o1 模型也取得了 52.8% 的准确率,大幅超越其他模型。
推理时间与成本
- o1 -preview模型在每个实例上花费了大约40秒,而在Mystery Blocksworld问题上,推理时间增加到83秒。相比之下,经典的规划算法(如Fast Downward)能够以接近零成本和每个实例0.265秒的时间解决问题。
- 经济成本方面:尽管 o1 模型在某些任务上具有较高的准确性,但其推理过程非常耗时且昂贵。例如,每 100 个实例的推理成本高达 42.12 美元,远高于传统 LLM 模型的推理成本。
- 研究者在短期内对o1 模型的评估一共花费了$1897.55美元
🔗原报告:https://arxiv.org/pdf/2409.13373