【合合TextIn】AI构建新质生产力,合合信息Embedding模型助力专业知识应用

news2024/11/27 11:47:30

目录

一、合合信息acge模型获MTEB中文榜单第一

二、MTEB与C-MTEB

三、Embedding模型的意义

四、合合信息acge模型

(一)acge模型特点

(二)acge模型功能

(三)acge模型优势

五、公司介绍


一、合合信息acge模型获MTEB中文榜单第一

现阶段,大语言模型的飞速发展吸引着社会各界的目光,背后支撑大型语言模型应用落地的Embedding模型也成为业内关注的焦点。近期,合合信息发布了文本向量化模型acge_text_embedding(简称“acge模型”),获得MTEB中文榜单(C-MTEB)第一的成绩。

图1:C-MTEB榜单结果

二、MTEB与C-MTEB

MTEB(Massive Text Embedding Benchmark)是衡量文本嵌入模型(Embedding模型)的评估指标的合集,是目前业内评测文本向量模型性能的重要参考。对应的C-MTEB则是专门针对中文文本向量的评测基准。

C-MTEB被公认为是目前业界最全面、最权威的中文语义向量评测基准之一,涵盖了分类、聚类、检索、排序、文本相似度、STS等6个经典任务,共计35个数据集,为深度测试中文语义向量的全面性和可靠性提供了可靠的实验平台。

三、Embedding模型的意义

互联网时代中,随着信息量急剧膨胀,人们接触信息的渠道不断拓展,大量无关的信息已成为信息检索的干扰项。Embedding模型通过理解查询的深层含义和上下文,能够显著提高搜索和问答的质量、效率和准确性,让搜索和问答引擎不再只是匹配文字,而是可以真正理解人的意图。

Embedding模型能够将单词、句子或图像特征等高维的离散数据转换为低维的连续向量,捕捉到数据的语义特征和关系,被广泛应用于搜索、推荐、问答、检索增强生成、数据挖掘等领域。

“假设你需要了解如何在家中自制咖啡,可能会在搜索引擎中输入‘家庭咖啡制作方法’。如果没有Embedding模型,传统的引擎会简单地匹配包含关键词的文章,提供一些表面相关的内容而非实用的指南。”团队成员提到,借助Embedding模型,引擎便能更准确地理解用户意图,从而提供包括但不限于选择咖啡豆、磨豆技巧、不同的冲泡方法等更专业的内容。”

图2:embedding模型原理示意图

四、合合信息acge模型

Embedding模型在当前大模型实际落地应用过程中扮演着至关重要的角色。为了更好地发挥大模型在应用过程中的价值,合合信息技术团队重点从数据集、训练策略等方面针对Embedding模型进行了优化,打造了acge模型。技术人员构造了大量的数据集,保证训练的质量与场景覆盖面;在模型训练方面,团队也引入多种有效的模型调优技术。

(一)acge模型特点

据合合信息技术团队成员介绍,相比于传统的预训练或微调垂直领域模型,acge模型支持在不同场景下构建通用分类模型、提升长文档信息抽取精度,且应用成本相对较低,可帮助大模型在多个行业中快速创造价值,推动科技创新和产业升级,为构建新质生产力提供强有力的技术支持。

(二)acge模型功能

具体实践上,为做好不同任务的针对性学习,团队使用策略学习训练方式,显著提升了检索、聚类、排序等任务上的性能;引入持续学习训练方式,克服了神经网络存在灾难性遗忘的问题,使模型训练迭代能够达到相对优秀的收敛空间;运用MRL技术,实现一次训练,获取不同维度的表征。

(三)acge模型优势

与目前C-MTEB榜单上排名前五的开源模型相比,合合信息本次发布的acge模型较小,占用资源少;模型输入文本长度为1024,满足绝大部分场景的需求。此外,acge模型还支持可变输出维度,让企业能够根据具体场景去合理分配资源。

五、公司介绍

合合信息是一家人工智能及大数据科技企业,基于自主研发的领先的智能文字识别及商业大数据核心技术,为全球C端用户和多元行业B端客户提供数字化、智能化的产品及服务。公开资料显示,公司的C端产品覆盖了全球百余个国家和地区的亿级用户,B端服务覆盖了近30个行业的企业客户。《财富》杂志2022年发布的世界500强公司名单中,公司客户已覆盖超过125家。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1560846.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

目标检测——植物病害图像数据集

一、重要性及意义 首先,植物病害图像是了解农业中植物生长和受病害情况的重要信息来源。通过对这些图像的分析,可以直观地观察到植物的生长状况,及时发现病害的存在。这不仅有助于农民和研究人员快速、准确地诊断植物病害,还能为…

电源纹波测量

前言 掌握电源纹波测量方法 测量器材 一台示波器 一、先点击示波器的测量通道 二、设置耦合方式为交流耦合、带宽限制为20M、探头X10 三、纵轴和横轴的一个格子均设置为20ms 四、观察这个Vpp,就是纹波 五、测量时不要用这个接地,构成的回路太大&…

浅谈投资者需要了解的伦敦银买卖规则

别看近期伦敦银价格曾经大涨,现在入场做伦敦银投资的朋友不一定能盈利,因为他们不了解伦敦银买卖规则。投资伦敦银需要了解哪些规则呢?下面我们就来讨论一下这个问题。 知晓杠杆交易的风险。伦敦银是一种杠杆交易,或者说保证金交易…

DFS(基础,回溯,剪枝,记忆化)搜索

DFS基础 DFS(深度优先搜索) 基于递归求解问题,而针对搜索的过程 对于问题的介入状态叫初始状态,要求的状态叫目标状态 这里的搜索就是对实时产生的状态进行分析检测,直到得到一个目标状态或符合要求的最佳状态为止。对于实时产生新的状态…

二极管基础知识篇(一)

大家好,我是砖一。 今天给大家分享一下二极管的基础知识,把主要知识点进行简化汇总,这样才能更好使用。 一,二极管的介绍 1,世界上有三种材料,分别是绝缘体,导体,还有一种处于导体…

Jmeter通过OS进程取样器调用Python脚本实现参数互传

1、 Python中 sys.argv的用法解释:sys.argv可以让python脚本从程序外部获取参数,sys.argv是一个列表,可用[]提取其中的元素,其第一个元素是程序本身,随后才依次是外部给予的参数,可以接受多个参数&#xff…

类和对象(下)--- 初始化列表、explicit、友元、static、匿名对象和内部类

本篇将会对类和对象的主要知识收尾,先会对构造函数进行补充,分别补充了构造函数体赋值、初始化列表、explicit 关键字,然后介绍 static 成员知识以及友元、内部类还有匿名对象等知识点,目录如下: 目录 1. 构造函数补充…

逐浪100人丨对话魔珐科技CEO柴金祥:AI时代,虚拟人的边界在哪?

Photo by 《机械姬》剧照 ©自象限原创 访谈丨程心 生成式AI的爆发,带领全民到达AIGC的新时代。 在这个新时代,虚拟人作为一种新兴的内容载体,不仅在娱乐、教育、零售等领域中扮演着越来越重要的角色,也成为了品牌与消费者…

第十三届蓝桥杯国赛真题 Java C 组【原卷】

文章目录 发现宝藏试题 A: 斐波那契与 7试题 B: 小蓝做实验试题 C: 取模试题 D: 内存空间试题 E \mathrm{E} E : 斐波那契数组试题 F: 最大公约数试题 G: 交通信号试题 I: 打折试题 J: 宝石收集 发现宝藏 前些天发现了一个巨牛的人工智能学习网站,通俗易懂&#x…

关于Ansible的模块②

转载说明:如果您喜欢这篇文章并打算转载它,请私信作者取得授权。感谢您喜爱本文,请文明转载,谢谢。 接《关于Ansible的模块 ①-CSDN博客》,继续学习和梳理Ansible的常用文件类模块 1. copy模块 从当前机器上复制文件到…

PCB表面缺陷检测项目 | 轻量化PCB表面缺陷检测算法实现

项目应用场景 面向 PCB 表面缺陷检测场景,包括漏孔 missing hole、咬伤 mouse bite、开路 open circuit、短路 short、支线 spur、杂铜 spurious copper 六种缺陷类型。 项目效果: 项目细节 > 具体参见项目 README.md (1) 下载模型 (2) 安装依赖&…

Master公式(计算递归复杂度)

Master公式 在计算涉及递归的算法的时候,计算复杂度就会变得有些麻烦。Master公式就是用来进行剖析递归行为和递归行为时间复杂度的估算的 Master公式:T(N) a*T(N/b) O(N^d) 公式解释:n表示问题的规模,a表示递归的次数也就是生…

使用 Yoda 和 ClickHouse 进行实时欺诈检测

背景 Instacart 是北美领先的在线杂货公司,拥有数百万活跃的客户和购物者。在其平台上打击欺诈和滥用行为不仅对于维护一个值得信赖和安全的环境至关重要,也对保持Instacart的财务健康至关重要。在这篇文章中,将介绍了一个欺诈平台——Yoda,解释了为什么我们选择ClickHous…

每日一题(相交链表 )

欢迎大家来我们主页进行指导 LaNzikinh-CSDN博客 160. 相交链表 - 力扣(LeetCode) 给你两个单链表的头节点 headA 和 headB ,请你找出并返回两个单链表相交的起始节点。如果两个链表不存在相交节点,返回 null 。 图示两个链表在节…

服务器主机推荐

服务器推荐:雨云 - 新一代云服务提供商 雨云的服务器享受免费使用CDN服务,当前CDN调整中; 使用CDN时域名无需备案; 注册后绑定微信可以获得一张首月5折优惠券; 雨云支持1元任意配置1天试用,试用服务器一…

2024年美团笔试题(1)

一.题目描述 小美拿到了一个排列,其中初始所有元素都是红色,但有些元素被染成了白色。 小美每次操作可以选择交换任意两个红色元素的位置。她希望操作尽可能少的次数使得数组变成非降序,你能帮帮她吗? 排列是指:一个长度为n的数组&#…

将在使用的git分支的历史其中的一个版本切换成新的git分支

要将正在使用的 Git 分支的历史中的一个版本切换成新的 Git 分支,可以按照以下步骤进行操作: 两种方式 1.(命令行)可以使用 git log 命令查看提交历史并找到对应的提交哈希值。 2.(图形化) 2.1通过idea…

Netty教程之NIO基础

NIO 介绍 NIO 全称java non-blocking IO(非阻塞 I/O),后续提供了一系列改进的输入/输出的新特性,被统称为 NIO(即 New IO),是同步非阻塞的。 阻塞和非阻塞是进程在访问数据的时候,数据是否准备就绪的一种…

Php_Code_challenge12

题目: 答案: 解析: 字符串拼接。

城市内涝模拟:慧天【HTWATER】软件,完全兼容SWMM模型格式,可以在本平台模型与SWMM模型之间实现转换

在城市排水防涝规划过程中,水文水动力耦合模型已经成为一种不可或缺的分析工具。在模型建立、城市内涝风险评估、排水系统性能诊断以及海绵城市规划等方面,内涝耦合模型提供了相应的模拟及分析工具: 一、丰富的数据处理功能,兼容…