据《纽约时报》报道,GPT-4的图像能力可以识别某些个人。
OpenAI一直在测试其支持图像识别的多模态GPT-4版本,以便计划中的广泛发布。然而,据周二《纽约时报》报道,出于对其可能识别特定个体的担忧,公众访问被限制了。
当OpenAI在今年早些时候宣布推出GPT-4时,该公司强调了该AI模型的多模式能力。这意味着该模型不仅可以处理和生成文本,还可以分析和解释图像,开启了与AI模型互动的新维度。
随着这一宣布,OpenAI与初创公司Be My Eyes合作,将其图像处理能力推到了更高的水平。Be My Eyes正在开发一款应用程序,向盲人用户描述图像,帮助他们独立地解释周围环境并与世界互动。
《纽约时报》的报道强调了来自新西兰的盲人用户Jonathan Mosen的体验。他很喜欢使用该应用程序来识别酒店房间中的物品,如洗发水容器,并准确地解释社交媒体上的图像。然而,当该应用程序最近停止提供面部信息,显示出脸部被遮蔽以保护隐私时,Mosen表示失望。
OpenAI政策研究员Sandhini Agarwal向《泰晤士报》证实,隐私问题是OpenAI限制GPT-4面部识别能力的原因。OpenAI系统目前能够识别公众人物,如拥有维基百科页面的人,但OpenAI担心该功能可能会侵犯像伊利诺伊州和欧洲这样的地区的隐私法律,这些地区使用生物识别信息需要公民明确同意。
此外,OpenAI还表达了担忧,Be My Eyes可能会错误解读或描绘个体的某些面部特征,如性别或情感状态,导致不当或有害的结果。OpenAI旨在在GPT-4的图像分析能力广泛可用之前解决这些和其他安全问题。Agarwal告诉《泰晤士报》:“我们非常希望这是与公众的双向对话。如果我们听到的是‘我们其实不需要任何东西’,我们会完全理解。”
尽管有这些预防措施,GPT-4仍有误判或作出虚假的识别,这再次强调了制作一个既有用又不会给盲人用户提供不准确信息的工具所面临的挑战。
与此同时,微软作为OpenAI的主要投资者之一,正在对其基于GPT-4技术的人工智能聊天机器人Bing Chat中的视觉分析工具进行有限的测试。Bing Chat最近被用于解决用于筛选机器人的CAPTCHA测试,这也可能会延迟Bing图像处理功能的更广泛发布。
Google最近还将图像分析功能引入了其Bard聊天机器人中,允许用户上传图片进行识别或由Bard进行处理。在我们测试该功能时,它能够解决基于单词的CAPTCHA,虽然并不是每次都完美。已经有一些服务,如Roblox,使用非常困难的CAPTCHA,可能是为了保持在计算机视觉方面的类似改进之前。
这种基于人工智能的计算机视觉技术可能迟早会来到每个人的设备上,但很明显,公司需要解决复杂的问题,才能在最小的道德影响下推出广泛的释放。