在今年 7 月 4 日举行的 2024 WAIC 科学前沿主论坛上,书生·万象多模态大模型(InternVL 2.0)正式发布,并陆续开源了 1B、2B、4B、8B、26B、40B 以及 76B 共 7 个参数版本的模型。书生·万象支持图像、视频、文字、语音、三维点云等模态处理,具备强大的真实世界感知能力,并通过首创的渐进式对齐训练策略,实现了成本更低、性能更高。
开源链接:(欢迎 star)
GitHub - OpenGVLab/InternVL: [CVPR 2024 Oral] InternVL Family: A Pioneering Open-Source Alternative to GPT-4o. 接近GPT-4o表现的开源多模态对话模型
模型链接:(欢迎使用)
https://huggingface.co/collections/OpenGVLab/internvl-20-667d3961ab5eb12c7ed1463e
10月12日,SuperCLUE正式发布了 10 月中文多模态理解测评基准 SuperCLUE-V 报告。 InternVL2-40B 在总榜单、基础能力榜单、应用能力榜单均居开源模型榜首。 以下截图来自报告原文,圈黄的为开源模型:
附参评模型说明: