GPT-4o能玩《黑神话》!精英怪胜率超人类,无强化学习纯大模型方案
- 阿里巴巴的研究人员们提出了一个新型VARP(视觉动作角色扮演)智能体框架。
- 能直接将游戏截图作为输入,通过视觉语言模型推理,最终生成Python代码形式的动作,以此来操作游戏。
- 以玩《黑神话·悟空》为例,该智能体在90%简单和中等水平战斗场景中取胜。
🔗GPT-4o能玩《黑神话》!精英怪胜率超人类,无强化学习纯大模型方案-CSDN博客
StoryMaker:一致性角色图像解决方案
- 不仅可以在多人物场景中保持角色的面部一致性,还包括衣服、发型和身体姿态一致性
- 进而可以用于生成系列图片构成的故事情节
- StoryMaker 可以通过文本提示控制生成图像的背景、姿势和风格,使得用户可以根据不同的场景需求生成符合叙事需求的图像序列。
- 该模型支持包括服装交换、角色插值等功能,并能与其他生成插件(如 LoRA、ControlNet)集成,提供多样化的生成应用场景。
🔗GitHub:https://github.com/RedAIGC/StoryMaker
🔗模型下载:https://huggingface.co/RED-AIGC/StoryMaker
Deepgram 推出了全新的AI语音代理API
- 能够进行实时自然的语音对话
- 该API依赖于快速的语音识别和语音合成模型,支持实时的语音理解、推理和对话生成。
- 能够自然地处理对话中的停顿或中断
- 可以与不同的大语言模型(如Llama 3和GPT-4)无缝集成
- 适用于客户支持、订单处理等场景。
🔗详细介绍:https://deepgram.com/learn/introducing-ai-voice-agent-api
🔗在线体验:https://deepgram.com/agent/