GLM-4V
智谱AI 开放平台提供一系列具有不同功能和定价的大模型,包括通用大模型、超拟人大模型、图像大模型、向量大模型等,并且支持使用您的私有数据对模型进行微调。GLM-4V 就是在不牺牲任何NLP任务性能的情况下,实现了视觉语言特征的深度融合;支持视觉问答、图像字幕、视觉定位、复杂目标检测等各类图像理解任务。
资料地址:https://open.bigmodel.cn/dev/howuse/glm-4v
支持视觉问答、图像字幕、视觉定位、复杂目标检测等各类图像理解任务,具有2k上下文。 价格换算成M Tokens计价的话是50元/M Tokens。与下面的step-1v对比,性价比不高。
Step-1V
阶跃星辰推出的step-1v系列多模态大模型,该模型拥有强大的图像理解能力,暂时只开放文本和图像输入,且仅支持文本生成。上下文长度分别为8k和32k。是由前微软全球副总裁姜大昕创立,大模型五虎将之后,阶跃星辰异军突起,加入五虎,成为大模型六小强之一。
资料地址:https://www.stepfun.com/#step1v
使用限制
- 单次请求图像数量上限:除了模型长下文长度约束,step-1v系列模型限制了单次请求图像不能超过5张。
- 轮次较多的对话,建议先通过多模态模型对图像进行描述或总结,再放入轮次历史作为文本理解的上下文。
- 单次请求图像体积大小限制:多张图片总大小控制在20M以内。
- 图像元数据:模型无法获得图像元数据信息,如文件路径、文件名、文件大小、原始分辨率、作者、相机型号、地理位置信息等。在输入模型前,预处理阶段会将元数据清除,以免泄露隐私。此外,图像也会被缩放到最佳尺寸。
- 字体过小的文本:文字过小可能会影响识别效果。
- 旋转和裁切:不完整或非正位可能会影响识别效果。
- 计数:模型输出的数值可能不是完全精确,而是估算的值。
- 准确性:在某些情况下,模型可能会生成不正确的描述或标题。请勿在有严重后果的场景依赖模型推理结果。