OpenAI放出的ChatGPT 4的多模态语音和图像更新

news2025/4/26 18:34:36

近日OpenAI放出的ChatGPT 4的多模态语音和图像更新的模型其实叫GPT-4V(ision)。

OpenAI放出了19页的GPT-4V(ision)报告来解释这个模型，释放了大量信息：

GPT-4V(ision)的训练完成于2022年，2023年3月开始提供早期访问。

GPT-4V 的训练过程与 GPT-4 相同，首先使用大量的文本和图像数据进行预训练，然后使用人类反馈的强化学习进行微调。

基于视觉的模型 GPT-4V(ision) 是受到了OpenAI与 "Be My Eyes" 的合作的启发。这是一个新工具，用于为盲人或视力受损的人描述视觉世界。

Be My AI 被整合到现有的 Be My Eyes 平台中，为盲人用户的智能手机拍摄的照片提供描述。

该测试确定 Be My AI 可以为其 500,000 名盲人和低视力用户提供前所未有的工具，以满足信息、文化和就业需求。

这种合作帮助 OpenAI 优化 GPT-4V 的功能，使其能够更好地理解和描述图像内容，特别是在涉及背景中的人或其他复杂情境时。这样，用户可以获得更准确、更有深度的图像描述，帮助他们更好地理解图像中的内容。

OpenAI还研究了模型的基于地理位置的能力，以及模型破解 CAPTCHA 的能力。

GPT-4V(ision) 在地理位置识别方面的能力意味着模型可以识别和描述图像中的地理位置，例如识别特定的地标、建筑物或地理特征。这可以帮助用户更好地了解图像的内容和上下文。

模型还具有破解 CAPTCHA 的能力，CAPTCHA 是一种常用的在线安全验证方法，通常要求用户识别扭曲的文字或图像。

GPT-4V(ision) 可能具有识别这些扭曲文字或图像的能力，从而有可能破解某些 CAPTCHA 验证。但这也引发了关于模型可能被用于不正当用途的担忧。

GPT-4V的详细视觉识别能力和局限性，还可以识别图片来判定它的地理位置，而且还能破解不规则的图形验证码！

- 物体检测：GPT-4V可以检测和识别图像中的常见物体，如汽车、动物、家居用品等。其物体识别能力在标准图像数据集上进行了评估。

- 文本识别：该模型具有光学字符识别 (OCR) 功能，可以检测图像中的打印或手写文本并将其转录为机器可读文本。这在文档、标志、标题等图像中进行了测试。

- 人脸识别：GPT-4V可以定位并识别图像中的人脸。它具有一定的能力，可以根据面部特征识别性别、年龄和种族属性。其面部分析能力是在 FairFace 和 LFW 等数据集上进行测量的。

- 验证码解决：该模型显示出通过视觉推理来解决基于文本和图像的验证码的能力。这表明了高级的解谜能力。

- 地理定位：GPT-4V 具有识别风景图像中描绘的城市或地理位置的能力。这证明了模型吸收的世界知识。

- 复杂图像：该模型难以准确解释复杂的科学图表、医学扫描或具有多个重叠文本组件的图像。它错过了上下文细节。

GPT-4V视觉推理的局限性：

- 空间关系：模型可能很难理解图像中对象的精确空间布局和位置。它可能无法正确传达对象之间的相对位置。

- 重叠对象：当图像中的对象严重重叠时，GPT-4V 有时无法区分一个对象的结束位置和下一个对象的开始位置。它可以将不同的对象混合在一起。

- 背景/前景：模型并不总是准确地感知图像的前景和背景中的对象。它可能会错误地描述对象关系。

- 遮挡：当图像中某些对象被其他对象部分遮挡或遮挡时，GPT-4V 可能无法识别被遮挡的对象或错过它们与周围对象的关系。

- 小细节：模型经常会错过或误解非常小的物体、文本或图像中的复杂细节，从而导致错误的关系描述。

- 上下文推理：GPT-4V 缺乏强大的视觉推理能力来深入分析图像的上下文并描述对象之间的隐式关系。

- 置信度：即使没有图像支持，模型也可能错误地描述对象关系或以高置信度构建关系。