扫码领取享50优惠!随时可用,先到先得!
大家好,开源多模态大模型真的是每天都在疯狂的涌现,今天分享一个国产大模型 InternLM-XComposer-2.5 中文名:浦语·灵笔2.5
仅使用 7B LLM 后端就达到了 GPT-4V 级别的能力,甚至从官方的论文测试结果来看,部分benchmark上的指标甚至超过了 GPT-4V
InternLM-XComposer-2.5
下面介绍一下主要功能:
超高分辨率理解:浦语·灵笔2.5使用560×560分辨率的ViT视觉编码器增强了IXC2-4KHD中提出的动态分辨率解决方案,支持具有任意纵横比的高分辨率图像。
细粒度视频理解:浦语·灵笔2.5将视频视为由数十到数千帧组成的超高分辨率复合图像,从而通过密集采样和每帧更高的分辨率捕捉细节。
多轮多图像对话:浦语·灵笔2.5支持自由形式的多轮多图像对话,使其能够在多轮对话中与人类自然互动。
网页制作:浦语·灵笔2.5可以通过遵循文本-图像指令来创建网页,包括源代码(HTML、CSS和JavaScript)的组合。
高质量文本-图像文章创作:浦语·灵笔2.5利用特别设计的“思维链”(CoT)和“直接偏好优化”(DPO)技术,显著提高了其创作内容的质量。
出色的性能:浦语·灵笔2.5在28个基准测试中进行了评估,在16个基准测试上优于现有的开源先进模型。它还在16个关键任务上超越或与GPT-4V和Gemini Pro表现相近。
1、支持与高分辨率图片对话的能力
2、多轮多图像对话
3、视频理解
4、网页制作
从简历到网页生成
根据指令生成网页
根据截图生成对应的网页
5、文章创作
论文和项目地址:
https://huggingface.co/internlm/internlm-xcomposer2d5-7b
https://arxiv.org/pdf/2407.03320
https://github.com/InternLM/InternLM-XComposer
整体框架
InternLM-XComposer-2.5(为简单起见,下文中称为 IXC2.5)的模型架构主要遵循 InternLM-XComposer2和 InternLMXComposer2-4KHD(为简单起见,称为 IXC2 和 IXC2-4KHD)的设计,包括轻量级视觉编码器 OpenAI ViT-L/14]、大型语言模型 InternLM2-7B和部分 LoRA以实现高效对齐。我们建议读者参阅 IXC2 和 IXC2-4KHD 论文以了解更多详细信息。
InternLM-XComposer2:https://arxiv.org/pdf/2401.16420
InternLM-XComposer2-4KHD:https://arxiv.org/pdf/2404.06512
论文和项目地址:
https://huggingface.co/internlm/internlm-xcomposer2d5-7b
https://arxiv.org/pdf/2407.03320
https://github.com/InternLM/InternLM-XComposer
更多细节请查看论文,今天的内容就分享到这里了,如果对大家有帮助,欢迎多多点赞转发,可以留言分享或推荐你感兴趣的方向
课程推荐
对于希望入门 NeRF 或者对这个方向感兴趣但是又担心课程质量,怕被割的小伙伴,可以了解一下哈
扫描了解更多(添加助理,可以试看视频):
下面是课程的大纲和往期学生的一些反馈,内容真实可靠,课程的单价不高,基本上就是赚口碑了,有兴趣的小伙伴可以扫描最下面的二维码了解!!!
课程大纲:
往期学员真实反馈: