联汇科技发布自主智能体 OmBot 欧姆智能体及 OmBot OS 操作系统

news2024/11/23 3:15:53

今年加入 OpenAI 的大牛、前特斯拉 AI 总监 Karpathy 在最近的一次开发者活动上表示:AI 智能体,代表了 AI 的一种未来!

不仅是他,全球 AI 领域的大佬和科技巨头对 AI 智能体的发展都表现出极大兴趣,并寄予厚望。

大语言模型的出现,无疑给 AI 智能体的发展带来了全新的想象力,因此尽管在众多 AI 智能体还未达到完全模拟人类智能的程度的情况下,仍然吸引了全球关注,因为它的出现意味着人类在未来实现通用人工智能的目标上迈出的重要一步。

这个在大模型技术与应用之上诞生的全新赛道,抢跑的人意味着能够拥有先发优势。

OmBot自主智能体的诞生

在今天的 2023 世界人工智能大会上,联汇科技发布了基于大模型能力的自主智能体(Auto AI Agent )——OmBot 欧姆智能体,并针对典型场景需求,推出了首批应用。

OmBot 欧姆智能体横空出世的背后,是联汇科技技术团队的一次 “蓄谋已久”。

公司核心团队来自全球计算机殿堂 —— 卡内基梅隆大学,实验室对于自主化智能体的探索从 90 年代就已经开始。2014 年,联汇科技首席科学家赵天成攻读博士时,已经成功研发了全球第一个多模态智能体平台 DialPort,让不同高校的智能体(机器人)在一个平台汇集,并让他们一同协作帮助人类完成各种任务。

这些智能体的专业领域各不相同。

例如有些是帮助订餐厅,有些是帮你分析电影,有些是帮你处理文案等等。随着智能程度的不断增加,DialPort 汇集了超过 100 个智能体能力,为超过 100 篇学术研究项目提供了智能体的基础平台,更是影响了包括 AmazonAlexa 在内的众多目前已经成熟的交互智能体的设计思路。

自主智能体的初步探索

那么,什么是自主智能体呢?

联汇科技给出了明确的回答 —— 智能体是能够感知环境、自主决策并且具备短期与长期记忆的计算机模型,它能够模仿人类大脑工作机制,根据任务目标,主动完成任务。

联汇自主智能体包含了认知、记忆、思考、行动四大核心能力,作为一种自动、自主的智能体,它以最简单的形式中在循环中运行,每次迭代时,它们都会生成自我导向的指令和操作。因此,它不依赖人类来指导命令,具备高度可扩展性。

自主智能体核心能力

认知是智能体获取环境信息的过程。将原始数据转化为计算机可以理解和处理的形式,而人类 80% 的信息输入来自于视觉。

记忆是智能体存储和提取信息的能力。包括短期记忆和长期记忆,前者用于存储临时的信息,后者用于存储更持久的知识和经验,并最终由记忆在决策和行动中发挥价值。

思考是智能体对感知和记忆进行分析、推理和决策的过程。使用各种算法和技术来处理感知数据和记忆信息,以生成合理的决策和行动计划。其中,语言是我们思考的核心逻辑。

行动是智能体基于感知、记忆和思考结果采取的具体行为。包括控制机制和执行器,用于将决策转化为实际的物理行动或其他形式的输出。

第一批自主智能体是什么

当自主智能体具备了以上 4 类核心能力后,自然而然面向不同行业、不同需求、不同场景的第一批智能体应运而生 —— 视频小欧、文档小欧和 AIGC 小欧。

是的,联汇首次推出的自主智能体并不止一个,而是一批。

他们能做什么呢?

视频小欧可以成为新零售场景中的智慧店长。通过与摄像头视觉信息结合,利用欧姆大模型智能识别店内发生的一切,形成机器人记忆,并自主决策提示交互信息。自主关注店内值得关注的事件,在必要时进行提示。通过与机器人对话交互,用户可以随时询问店内发生过的一切,协助店铺的管理运营。

视频小欧成为自主思考的智慧店长

文档小欧可以成为个人和企业的学习助理。面对电力、石油、医学等行业专业知识学习成本高、查询困难的痛点,文档问答机器人可以将专业知识有效集成到向量数据库,并存储记忆,形成专业机器人,通过多模态内容理解与内容生成,智能回复用户问题,并给出专业的回答。

文档小欧帮助行业小白解决专业问题

AIGC 小欧可以成为媒体、文化、游戏等行业的剪辑助手。通过 AIGC 实现媒体视频素材的一键成片,针对视频主题,语言模块完成视频内容文案生成,随后拆分为更加细节的视频镜头描述,依托语言理解能力,对素材库视频进行搜索、剪辑和生成,最终大幅降低视频制作门槛。

AIGC 小欧一键成片

现场,联汇科技行嗨发布了基于 OmBot 欧姆智能体与大模型技术的行业级智慧文旅底座,为文旅全行业提供包含元宇宙、AIGC、智慧助手等典型场景快速赋能。

面向行业、企业、个人等不同主体千变万化的需求,OmBot 欧姆智能体将通过高效调教,实现个性化智能体的快速生成与进化,未来的自主智能体,不是一个,也不是一批,而是 “人均” 单位下的应有尽有。

自主智能体会像孙悟空的分身猴毛,有需要就可以快速的实现。

欧姆大模型 3.0 来了!

仔细体验首批自主智能体,不难发现,在应用过程中,认知与思考是自主智能体核心能力的核心。

对于认知与思考的解决方案,联汇依赖的是背后的多模态大模型。

早在 2019 年,联汇科技就与 OpenAI CLIP 模型同期推出了欧姆模型 1.0,实现跨模态搜索,随后的欧姆大模型 2.0,聚焦开放目标识别,实现了从图文检索的到目标理解的跃迁。

目前,联汇科技正式推出欧姆大模型 3.0,直指行业性能最强、真正落地应用的大模型。

这次的欧姆大模型 3.0 实现了哪些飞跃呢?

OmModel V3 正式发布

开放识别方面,欧姆大模型支持对视觉图像、视频进行标签全开放识别。预训练中已经包含了数十亿的高质量图文匹配数据,包含大量的环境背景,目标类型,目标属性与行为特征,叠加全图细粒度级别的理解,图文的语义匹配,图文问答等多任务的训练,使欧姆大模型 3.0 具备了能力涌现的保障。

欧姆大模型 3.0 不再局限于固定的目标类型清单,而是通过语义理解去理解视觉中的任意目标,甚至是描述的方式去定义目标。

开放识别

视觉问答方面,构建了私有的十亿级媒体数据和物联网数据,包括无人机视角,监控视角等,通过多任务训练,欧姆大模型 3.0 将包括自然语言解析、逻辑推理、图像理解以及自然语言生成等 AI 能力进行深度融合。将视觉模型和语言模型进行细粒度的对齐,让其可以理解人类指令,并合理作答。

另外,欧姆大模型可以在针对图片进行问答之后进行多轮对话推理,并扩充视觉之外的信息。

视觉问答

认知推理方面,通过不断提升欧模大模型的内容理解与多模态的语义对齐的能力,结合语言模型的能力,欧模大模型能够做到基于视觉认知的推理,并由此支撑智能体所需要的认知与推理能力。

例如,看到儿童摔倒,模型可以推理要立即检查儿童有没有受伤。看到有小孩在窗边,模型可以提醒要注意儿童的安全。看到瓶子破裂饮料打翻, 模型可以提醒马上清理防止有人滑倒。

在开放识别、视觉问答的基础上,认知推理的能力能够赋能智能体从被动的识别转为主动推理,进行思考与决策,并提出相应的智能解决方案。

推理认知

高效微调方面,针对传统全参数微调消耗大量 GPU 计算与存储资源的情况,联汇从模型训练和模型推理两方面入手,使得欧姆大模型能够好用、易用。

在模型训练上,联汇自主设计 PEFT 羽量微调技术,与标准全参数微调相比,仅微调模型参数的一小部分,训练参数量小于 1%,在大幅降低计算和存储成本的同时,实现媲美全参数微调的性能表现。这样的做法能够真实降低大模型的微调训练门槛,快速适配用户长尾场景的训练需求。

训练参数量小于 1%

在模型推理上,联汇推出针对多模态大模型的推理运行系统 ——Hydra 九头蛇部署架构,通过多卡集群部署蛇身,由多个公用的底座模型组成,而各个算法任务只需要部署羽量级的蛇头模型,实现 MaaS 架构。在推理时,蛇头模型可与任意公用蛇身模型结合产生识别结果,且新增算法任务只需增加羽量级蛇头模型。从而实现了 GPU 集群资源的高效利用,并突破算法任务部署显存资源的上限。

Hydra 九头蛇部署架构

作为成熟的大模型,欧姆大模型拥有良好性能的同时,依旧在不断自我进化。联汇研发团队构建了一套完善的人在环路指令学习进化体系

人在环路指令学习进化体系

对于一个迭代升级后的新版本大模型,首先需要经过质量部的锤炼,通过基于内部量化数据集进行能力验证,再配置并测试各种算法任务,确保模型的升级成功。在模型实际部署上线后,持续跟踪算法任务运行情况,记录并反馈模型潜在缺陷和优化点。

数据部据此对新算法任务、长尾场景和模型识别缺陷等关键点,使用完整的数据回流体系进行针对性的数据采集、数据清洗、和指令学习数据集生成等操作。

在指令学习数据集完成累积周期后,算法组将基于质量组的反馈以及数据组采集的数据对欧姆大模型进行新一版本的迭代优化训练,针对性提高模型在业务算法上的能力,增强泛化能力。

基于由效果评估、升级策略、数据回流、优化升级构成的人在环路指令学习进化体系,欧姆大模型可以对底座模型进行有效的指令学习、迭代升级,从而在现有的算法任务上有更好的表现。

这也意味着每隔几个月,欧姆大模型都会迭代进化得更加强大

完善的工具链和工程化框架

成功的大模型在应用层面落地需要与之配套的工具链与工程化框架。

为了帮助用户更好、更快的使用大模型技术与产品,联汇正式发布欧姆大模型工具软件集合,用 AI - 原生的思路,重新想象 AI 智能体的开发工具,让开发者可以快速构建未来的爆款智能体!

欧姆大模型应用体系

过去几年间,联汇科技构建了完善的针对视觉理解场景的工具链平台。开发者可以利用自然语言灵活的表述识别需求,OmVision Studio、OmVision OS 等平台与系统,提升算法生产效率的同时,有效降低了人工智能技术的应用门槛,为更多的企业与行业赋能。

OmVision 应用体系

今天,联汇科技首次发布针对智能体的 OmBot OS 操作系统。开发者可以基于灵活的模块配置,将多模态大模型、向量数据库、人机交互认知架构进行深度融合,为构建基于多模态数据感知、认知、思考与行动的智能体奠定基础。

OmBot OS 架构

OmBot OS 提供自带的长期记忆模块,同时允许开发者用户编写主动思考模块与交互响应模块,支持响应式问答与主动推荐思考的任务场景。同时支持记忆反思模块,模拟人类对于长期记忆的主动压缩与思考过程,从繁杂的原始记忆中抽取出更加高维度的抽象记忆信息,让我们的智能体更加人性化。

OmBot OS 让开发者可以基于灵活的模块配置,将多模态大模型、向量数据库、人机交互等技术进行深度融合,为构建基于多模态数据进行感知、认知、思考与行动的智能体奠定了基础。

以更开放的方式拥抱 AGI 时代

完善的产品矩阵与人在环路指令学习进化体系为联汇科技的技术生长打下扎实基础,在此之上的对外开放能力同样令人期待。

联汇首席科学家赵天成博士表示,我们相信在未来,每个人与每一家企业都可以在 AI 的能力加持,具备更好的记忆、认知和决策能力,我们现在的技术方向,就是让机器不断与我们人类对齐,持续进化,最终真正为人类所用。

在这样的过程中,联汇科技始终以用户为中心,不断进化能力、迭代产品、开放生态,推动降低人工智能使用门槛,加速推动普惠 AI 赋能千行百业。

在 AGI 时代来临之际,人工智能的范式变革正在加速,曾经的故事正在成为现实。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/747657.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

享元模式:优化对象的共享与重复利用

享元模式是一种结构型设计模式,它通过共享对象来最大程度地减少内存使用和对象创建的开销。本文将深入探讨享元模式的原理、结构和使用方法,并通过详细的 Java 示例代码来说明。 1. 享元模式的定义 享元模式是一种通过共享对象来有效地支持大量细粒度对…

简单的聊一聊如何用CSS制作一个专业的头部页眉(Headers)

一个吸引人的网页页眉对于给访问者留下良好的第一印象至关重要。一个设计精良的页眉不仅能够吸引注意力,还能为整个网站设定基调。借助CSS,创建现代化和视觉吸引力的网页页眉比以往任何时候都更加容易。 在本文中,我们将探索一些基本的技巧和…

虹科分享 | 如何基于IO-Link wireless方案实现工厂数据采集和状态监测

数据和数字化是工业4.0变革的关键驱动因素。从整个工厂的传感器获取数据,除了优化制造计划和流程外,还能实现强大的分析和决策。目前,基于数据的应用正在催生更多智能解决方案,以提高制造业的灵活性和敏捷性,进而提高效…

【unity细节】GameObject.Find和 transform.Find 核心区别

👨‍💻个人主页:元宇宙-秩沅 hallo 欢迎 点赞👍 收藏⭐ 留言📝 加关注✅! 本文由 秩沅 原创 收录于专栏:unity细节和bug ⭐Find找子对象的子对象,GameObject.Find 和 transform.Find的区别 ⭐ 文章目录 …

jni编程(windows+JDK11+clion)

JNI是Java Native Interface的缩写,通过使用 Java本地接口书写程序,可以确保代码在不同的平台上方便移植。 一、java代码 package org.example;public class Main {static {System.load("");}public static void main(String[] args) {Syste…

CMU 15-445 -- SortingAggregations - 08

CMU 15-445 -- Sorting&Aggregations - 08 引言Sorting为什么需要排序AlgorithmsExternal Merge Sort2-Way External Merge SortGeneral External Merge Sort实例:Sort 108 pages file with 5 buffer pages:N 108, B 5 Using B Trees Aggregations…

JavaScript--修改 HTML 元素

这些是一些用于修改 HTML 元素的常见方法&#xff1a; 1、document.createElement(element)&#xff1a;创建 HTML 元素节点。可以使用这个方法创建一个新的 HTML 元素&#xff0c; 例如 document.createElement(div) 将创建一个 <div> 元素节点。 2、document.createA…

freemarker学习

一、Freemarker引入 二、环境搭建和测试 pom.xml <project xmlns"http://maven.apache.org/POM/4.0.0" xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation"http://maven.apache.org/POM/4.0.0 http://maven.apache.org/m…

PyTorch: nn网络层-卷积层

文章和代码已经归档至【Github仓库&#xff1a;https://github.com/timerring/dive-into-AI 】或者公众号【AIShareLab】回复 pytorch教程 也可获取。 文章目录 nn网络层-卷积层1D/2D/3D 卷积一维卷积二维卷积三维卷积 二维卷积&#xff1a;nn.Conv2d()卷积尺寸计算简化版卷积尺…

华为路由器如何通过Console口进行基本配置

华为HCIA试听课程&#xff1a;不会传输层协议&#xff0c;HCIA都考不过https://mp.weixin.qq.com/s/oKAL8GvdrcHEb5O_8bEZZQ 思科CCNA试听课程&#xff1a;适合初学者&#xff1a;VLAN原理与配置https://mp.weixin.qq.com/s/toIJg1EVFImalrwzbTONTQ 组网图形 组网需求 通过Cons…

【2023,学点儿新Java-31】测试:整型和浮点型变量的使用 | 附:计算机存储单位(转换关系)| 企业真题:为什么0.1+0.2不等于0.3

前情提要&#xff1a; 【2023&#xff0c;学点儿新Java-30】变量的基本使用&#xff1a;变量的意义 | 变量的构成要素 | Java中变量的数据类型、变量的使用 | 附&#xff1a;Java中变量的作用域 | 数据类型、变量名和变量值哪个最重要&#xff1f;【2023&#xff0c;学点儿新J…

vue中使用v-for实现两次嵌套循环,判断某子元素是否显示,进行复杂表单校验

一、需求场景&#xff1a; 有以下一个使用场景&#xff0c;名称111、名称222、名称333&#xff0c;是放在一个大数组里的&#xff0c;然后通过第一层for循环显示出来的。名称333数组里又包含自己的子数组&#xff0c;子数组再通过第二次for循环展示出来。当我们选择发放方式的…

基于Javaweb实现ATM机系统开发实战(七)用户密码修改

接下来我们完成密码修改的功能&#xff0c;还是老规矩先看前端界面&#xff1a;这里我们先把需要的变量进行修改&#xff0c;然后把卡号变成不可修改&#xff1a; <% page language"java" contentType"text/html; charsetUTF-8" pageEncoding"UTF-…

深度挖掘文物价值,VR博物馆讲好文物故事

文物不言&#xff0c;自有春秋。丝绸、字画、瓷器、古玩等&#xff0c;铺陈的是传奇&#xff0c;激荡的是灵魂。历史文物珍贵的莫过于其历史与文化的价值&#xff0c;倘若不能被更多的人欣赏、研究、传承&#xff0c;那么这些文物就很难实现“价值外溢”。 单纯的去读历史课本&…

分层解耦-三层架构

三层架构 在上篇文章的案例中写文章-CSDN创作中心 的Controller类承担了对于数据操作&#xff08;访问&#xff09;、对于对于数据的逻辑处理、以及接受请求响应数据的工作&#xff0c;对于类似的小项目来说冗杂程度还可以接收&#xff0c;但是如果项目更加复杂&#xff0c;就…

QT使用同一按钮实现打开/关闭新窗口

QT使用同一按钮实现【打开/关闭】新窗口&#xff0c;实现方案如下&#xff1a; 使用一个全局状态变量记录窗口打开状态通过该状态实现新窗口的show和close 实现代码如下&#xff1a; #include "mainwindow.h" #include "ui_mainwindow.h" #include "…

怎么用PDF24 Tools工具在线进行PDF文件合并

PDF文件是经常会被用到&#xff0c;它在我们的日常生活和工作中扮演着重要的角色。PDF文件合并是将多个PDF文件合并为单个文件&#xff0c;这个过程通常是为了方便管理多个PDF文件&#xff0c;或者将多个PDF文件合并为一个整体以便于共享或打印。既然如此&#xff0c;如何快速合…

达梦sql执行计划、HINT、索引简单应用

目录 收集统计信息. 3 1. 通过DBMS_STATS包中的方法. 3 2、删除指定表的统计信息. 3 执行计划. 3 常用执行计划操作符. 4 统计指定sql执行号的所有操作符的执行时间. 5 HINT 5 并行操作&#xff1a;. 6 查询计划重用、结果集重用. 7 示例. 8 1、收集统计信息&#x…

Comparable/Comparator

现在有一个自定义学生的学生类,里面有name属性,和age属性,我们如何去比较大小? class Student{public String name;public int age;public Student(String name, int age) {this.name name;this.age age;}Overridepublic String toString() {return "Student{" &…

路径规划算法:基于广义正态分布优化的路径规划算法- 附代码

路径规划算法&#xff1a;基于广义正态分布优化的路径规划算法- 附代码 文章目录 路径规划算法&#xff1a;基于广义正态分布优化的路径规划算法- 附代码1.算法原理1.1 环境设定1.2 约束条件1.3 适应度函数 2.算法结果3.MATLAB代码4.参考文献 摘要&#xff1a;本文主要介绍利用…