内容来源:@rickawsb
对于描述ai的潜力和中短期的未来预测,我认为到目前为止可能没有比这篇推文总结得更好的了。
我读了三次。
文章起源于一个用户感叹openai升级chatgpt后,支持pdf上传功能,直接让不少的靠这个功能吃饭的创业公司面临危机,另外一个叫Ate a pie的用户对此做了回复,这个简短的回复也很值得一读:
“我不知道为什么会有人感到惊讶。
以下是OpenAI未来两年的产品战略:
+你将能够上传任何内容到ChatGPT
+你将能够链接任何外部服务,如Gmail、Slack
+ChatGPT将拥有持久的记忆,除非你想要,否则不再需要多次聊天,(*所有的聊天都在一个窗口中进行,这样chatgpt能对你的喜好进行全方位的了解)
+ChatGPT将拥有一致的、用户可定制的个性,包括政治偏见
+ChatGPT将能够支持文本、声音、图像(图表和视频还在开发中?) +ChatGPT将变得更加快速,直到你感觉它是一个真人(响应时间>50毫秒)
+幻觉和非事实性错误将迅速下降
+随着自我调节的改进,拒绝回答问题的情况将减少”
然后本文作者,Rob Phillips,对此进行了详细的回复。
作为曾与Siri团队合作的工程师,作者对ai助理未来的潜力的描述非常专业:
“OpenAI正在构建一种全新的计算机,不仅仅是一个用于中间件/前端的大型语言模型(LLM)。
他们需要实现这一目标的关键部分包括:
1、对用户偏好的持续把握:
1a、ai助理最大的突破始终是深入理解用户最具体的需求。
1b、这是电脑的“我靠”时刻。
1c、我们2016年在Viv项目上做到了这一点,当时我们的AI根据你通过Viv使用的每项服务了解你的喜好,并结合了上下文,比如你告诉我们你妈喜欢什么样的花。
1c、这还需要包括访问您的个人信息以推断偏好。
2、外部实时数据:
2a、LLM的50%实用性来自基础训练和RLHF微调(Reinforcement Learning from Human Feedback,增强式用户反馈学习);但通过扩展其可用数据与外部资源,其实用性将大大增加。
2b、Zapier、Airbyte等将有所帮助,但期望与第三方应用程序/数据进行深度集成。
2c、“与PDF聊天”只是冰山一角。能做的远不止这些。
3、跑在虚拟机上的应用:
3a、上下文窗口有限,因此AI提供商将继续从直接在Python或Node/Deno虚拟环境上运行任务中获益,使其可以像今天的计算机一样消耗大量数据。
3b、如今这些是数据分析师暂时的工作环境,但随着时间的推移,它们将成为一种新型的Dropbox,您的数据将长期保留以供额外处理或进行跨文件推断/洞察。
4、代理任务/流程规划:
4a、没有意图,规划就无法进行。理解意图一直是(应用开发的)圣杯,LLM最终帮助我们解锁了我们在Viv上用NLP技术花了多年时间来试图解决的功能。
4b、一旦意图准确,规划就可以开始。创建代理规划器需要非常细致,需要与用户偏好、第三方数据集、对计算能力的了解等进行大量集成。
4c、Viv真正的魔法大部分是动态规划器/混合器,它会将所有这些数据和API整合在一起,并为普通消费者生成工作流程和动态UI以执行它们。
5、专家级(可组合的)应用商店:
5a、苹果最初犯了一个错误,建立了一个封闭的应用商店;后来他们意识到,如果开放,他们可以通过创意复利来实现盈利。
5b、尽管OpenAI说他们只专注于ChatGPT,但他们终将重新定义专注的边界,并最终将帮助创造一大波的专业助理(agent)。
5c、构建者将能够将多种工具组合在一起形成专业工作流程。
5d、随着时间的推移,AI也将能够自动组合这些应用(agent),从之前的构建者那里学习。
6、持久的、上下文相关的记忆:
6a、嵌入(Embeddings)很有帮助,但它们缺少基本部分,如上下文切换、对话中心点、总结、丰富化等。
6b、如今LLM的大部分成本来自提示,但随着历史和持久性的嵌入以及推断的缓存,这将解锁长期记忆的能力,并指向关键的主题、话题、情感、语调等。
6c、核心记忆仅仅是开始。我们仍然需要所有我们思考过去的日落、分手、科学理解或与我们互动的人的敏感上下文时大脑会想到的丰富信息。
7、长轮询任务:
7a、“代理”是一个有争议的词,但部分意图是拥有可以根据所需的时间范围进行计划和自我完成的任务。例如,“当蒙特利尔到夏威夷的航班价格低于500美元时通知我” 这将需要跨API提供商以及云中的虚拟环境协调计算。
8、动态用户界面:
8a、聊天不是最终的、一切的界面。应用之所以有按钮、日期选择器、图像等便利性,是因为它简化、澄清了操作。
8b、AI将是一个副驾驶,但要成为副驾驶,它需要适应对特定用户来说最有效的界面。未来的用户界面将是个性化的,因为优化需要它,所以用户界面将是动态的。
9、API和工具组合:
9a、预计未来AI将生成自定义的“应用”,在那里我们可以构建自己的工作流程并组合API,无需等待一个大型初创公司来做这个项目。
9b、将需要更少的应用程序和初创公司来生成前端,AI将更擅长将一系列工具和API结合在一起,付一定的费用后,生成最能满足用户需要的前端。
10、助理间的互动:
10a、未来将有无数的助理,每个助理都在帮助人类和其他助理朝着某个更高的(能力)意图发展。
10b、与此同时,助理还需要学会通过文本、API、文件系统和代理/初创公司和人类都使用的其他模式来相互对接,随着各种应用,更深的嵌入我们的世界。
11、插件/工具商店:
11a、只有通过组合工具、API、提示、数据、偏好等,才能实现专业助理。
11b、当前的插件商店还处于早期阶段,所以期待更多工作的到来,许多插件将因为它们变得更加任务关键而被内部整合。
这只是(我)10分钟的头脑风暴;之后毫无疑问还有更多,包括互联网搜索和抓取、社区(用于意图、构建、RLHF等)、动态API生成器和连接器、费用优化、工具构建、通过眼镜/耳机等不同输入方式的信息摄取。
如果你认为进入AI的时机已晚,那么请知道上述内容大约只占实际需要的25%,随着我们迭代并变得更加有创意,还有更多的创意即将到来。
我们正在@FastlaneAI构建这些部分,基于一个不太一样的理解:OpenAI永远不会在所有事情上都是最好的。因此,我们希望让你使用世界上最好的AI,不管是谁构建的(也可以是你!)。”
(*这篇长文实在写得太好,原文的广告我也心甘情愿的给他留着,看起来是一个跨基础模型的ai agent项目,我还没来得及用,有用了的请留言告知)
注:(*)内是个人评论
-------------- 深入了解ai最新进展,请粉@rickawsb让推特算法更好把握你的喜好从而推送更优质信息,别忘点赞转发