自OpenAI发布GPT-4V以来,也掀起了各大企业对于多模态大模型的研究热潮。和以往的生图模型相比,多模态模型已突破文本限制,图像理解和识别能力尤为突出。
本周,集简云上线AI图像识别与问答功能,集成OpenAI和Anthropic两大服务商的GPT-4V和Claude 3模型,可对输入的图像进行深入的识别和理解,进而提供详尽的问答服务。
模型介绍
GPT-4V
GPT-4V(GPT-4 Turbo with Vision)是OpenAI最受瞩目的带有视觉能力的模型,它使得用户可以通过图像与GPT-4进行交互,标志着GPT-4正式成为一个多模态模型,具备对于图像的理解能。
Claude 3
Claude 3 擅长复杂视觉功能,Opus和Sonnet版本均可以处理各种视觉格式,包括照片、图表、图形和技术图表等,推理能力更强,回复的解题水平和准确率更高,在一些细节描述上比GPT-4更胜一筹。
使用示例
GPT-4V
示例1:可以通过截图向GPT4 V模型提问:
汽车的这个指示灯亮了,我该怎么办?
(上滑查看)
这个指示灯是发动机故障警告灯,通常被称为“Check Engine”或“Service Engine Soon”灯。当这个灯亮起时,表示你的车辆检测到了发动机或排放控制系统中的一个问题。以下是一些你可以采取的步骤:
不要恐慌。这个指示灯可能表示多种问题,从轻微到严重不等。
检查油箱盖是否已经正确地拧紧。一个松动的油箱盖可以触发这个警告灯。
注意车辆的表现。如果你注意到任何不寻常的行为,比如发动机失去动力、怠速不稳或有奇怪的噪音,请尽快将车辆停靠在安全的地方。
尽快检查。虽然有时车辆可能仍然可以正常行驶,但最好尽快将车辆带到专业的汽车维修店进行诊断。继续行驶可能会导致更严重的损坏。
使用OBD-II(车载诊断系统)阅读器获取故障代码。许多汽车配件店提供免费的故障代码读取服务,或者你可以购买或借用一个阅读器来自己获取代码。
决定是否继续行驶之前,请考虑到你的安全和车辆的状况。如果不确定如何处理,请咨询专业的汽车技师。
示例2:根据网站截图生成类似的网站代码:截图网易音乐的首页,然后在语聚AI的“对话助手”中选择GPT4 Vision模型并要求其生成一个类似网站的代码
Claude 3
示例1:
这张示意图是什么意思?有哪些专业名词?请详细解释
(上滑查看)
这张图是关于基于LoRa无线网络的车位状态监测系统架构图,其中涉及到以下一些专业名词:
LoRa(Long Range): 一种低功耗广域网络(LPWAN)技术,适用于远距离、低速率、低功耗的物联网应用。
Web发布服务器: 用于发布和管理车位状态监测系统的Web应用服务器。
应用服务器: 接收并处理来自LoRa网关的车位状态数据,并将数据传输给Web发布服务器。
2G/3G/4G运营商网络: 移动通信网络,用于LoRa网关与应用服务器之间的数据传输。
LoRa网关: 将多个LoRa设备(即车位探测器)采集的数据汇聚,并通过2G/3G/4G网络将数据传输至应用服务器。
中口线: 一种无线通信中的概念,表示LoRa设备与LoRa网关之间的无线连接。
LoRa设备/车位探测器: 安装在每个车位上,通过LoRa无线技术实时监测车位状态(占用或空闲)并将数据传输至LoRa网关。
整个系统的工作流程如下:
LoRa车位探测器采集车位状态数据
探测器通过LoRa无线技术将数据传输至LoRa网关
网关通过2G/3G/4G网络将汇聚的数据传输至应用服务器
应用服务器处理数据后传输给Web发布服务器
用户通过Web发布服务器提供的应用程序查询车位状态信息
示例2:请把这个UI用代码还原出来
如何使用
1 在集简云流程中作为步骤节点使用
将“AI图像生成与识别”添加到您的业务流程中,作为步骤节点使用,实现自动通过提问内容识别图像信息自动化流程,满足自定义场景需求。
2 在语聚AI应用助手中作为工具使用
您可以在应用助手中,将AI图像生成与识别作为一个应用工具使用,在对话时,应用助手将自动在需要的使用调用此工具完成指定任务。
例如:帮我查询图片中的相关信息,并将数据整理成表格。
3 集简云数据表中作为“集成字段” 使用
您可以在集简云的数据表中,添加一个按钮,当点击此按钮时,自动执行AI图像生成与识别,表格中的各个字段均可作为图像识别的输入参数使用,通过按钮,即可实现在数据表内一键将查询到的数据发送给相关人员。