CCKS2023:基于企业数仓和大语言模型构建面向场景的智能应用

news2024/11/17 15:59:01

8月24日-27日,第十七届全国知识图谱与语义计算大会(CCKS 2023)在沈阳召开。大会以“知识图谱赋能通用AI”为主题,探讨知识图谱对通用AI技术的支撑能力,探索知识图谱在跨平台、跨领域等AI任务中的作用和应用途径。

作为国内知识图谱、语义技术、自然语言理解与知识获取等领域的核心学术会议,每年的CCKS都会邀请相关技术领域顶尖专家学者参会,探讨AI前沿技术。今年以来,大语言模型掀起的新一轮AI浪潮席卷全球。本次大会上,大语言模型也成为众多参会专家学者关注的焦点。

在会上,酷克数据首席科学家杨胜文博士发表了题为《用知识增强“小”语言模型》的主旨演讲,从产业实践的角度分享了在企业数据仓库环境下,利用中小规模语言模型构建面向场景的智能应用的探索与实践,并对企业数智化转型过程中AI与数据如何更好地协同做了探讨。

大模型VS小模型?

在过去的几个月中,大语言模型在公众当中的关注度有所缓和,但学术界和产业界的投入热情并未减弱。国内外各大厂商都在加速技术迭代,众多初创公司也在奋起直追,开源社区的发展也非常迅猛。

杨胜文指出,目前千亿级参数的大语言模型在生成能力方面仍存在一些不足,如生成“幻觉”问题。更为重要的是,企业在实际应用大模型过程中还面临着数据安全、私有化成本高、关键应用场景识别难和高质量数据缺乏等诸多挑战。

图片

图1:酷克数据首席科学家杨胜文博士

相对动辄千亿级甚至万亿参数的大语言模型而言,十亿级或百亿级参数的“小”语言模型,已经具备良好的语言理解和生成能力,并且在落地方面有着显著的成本优势。小语言模型能够以极低的成本在企业私有化部署,微调、推理所需的硬件成本也较低。通过与企业自有数据紧密结合(包括微调和Prompt增强等),在很多垂直场景都可以取得良好的应用效果。凭借其出色的性价比和灵活性,小语言模型成为现阶段LLM在企业落地应用的可行替代方案。

同时,日益繁荣的开源生态为小语言模型在企业低成本、规模化的应用创造了条件。在代码和工具层面,已经出现了很多优秀的开源项目和公开数据集,能够满足百亿级参数模型的训练需求。在模型层面,出现了很多由大型商业公司、研究机构和初创公司研发的模型,参数规模从数十亿到数百亿参数不等,大部分模型都允许免费商用,这为小语言模型的规模化落地进一步创造了条件。

企业数据仓库与大语言模型的有机结合

大语言模型的训练、微调以及知识增强的应用离不开高质量数据的支持。作为企业数据的存储、加工和分析的核心场所,企业数据仓库蕴藏着巨大的企业数据资产。

杨胜文认为,数据仓库为企业打造垂类模型、搭建面向场景的智能应用提供了天然的数据和计算环境。他同时指出,上一代数仓普遍采用传统MPP架构,存在数据冗余、时效性差、数据一致性难保障、数据孤岛治理成本高等难题,增加了数据管理和模型开发的复杂度。

酷克数据的旗舰产品HashData云数仓,是国内最早实现存算分离的云原生分析型数据库,目前已服务金融、电信、能源等行业众多大型企业。HashData数仓系统由1个元数据集群、若干个计算集群、1个对象存储以及1个管理控制台构成,具备极佳的弹性和可扩展性。

相比传统架构的数据仓库,HashData采用存算分离的架构,不仅能够通过SQL计算引擎对传统的数仓业务提供很好的支持,还能够借助ML/DL计算引擎实现对机器学习和深度学习的高效支持,其中包括对大语言模型微调和推理的支持,显著降低了系统的复杂性,也大幅降低了运营成本。

HashData云数仓还内置了对向量数据的支持,基于分布式并行处理技术,可以支持海量语义向量数据的存储和高效检索。

杨胜文表示,以HashData为代表的现代企业数据仓库,为数据查询、分析和AI计算提供了统一的软硬件平台,将极大地推动AI技术在企业中的实际应用。

HashML助力企业轻松构建大模型应用

为了进一步降低AI技术的应用门槛,酷克数据基于HashData云数仓自主研发了下一代In-Database高级分析和数据科学工具HashML。

杨胜文介绍,HashML首要设计目标就是简单易用,帮助企业无门槛地使用各种经典和最前沿的AI算法和模型能力,解决实际业务问题。

为了实现这个目标,HashML对编程接口做了高度抽象和标准化,允许客户只编写少量代码就可以完成从数据加载到数据处理,再到模型训练、模型部署、推理预测的全流程工作。

图片

图2:HashML主要功能概览

就大语言模型而言,借助HashML可以实现高质量数据挖掘、模型微调和Prompt增强,用户只需要少量的代码就能完成智能应用的搭建,包括向量知识库的建库和检索、模型的高效微调、模型部署和在线服务,以及对话式Web应用的快速开发。另外,HashML针对知名的开源语言模型,例如ChatGLM、Baichuan、Llama2等,提供了额外的功能封装,方便客户更加便捷地使用这些模型。

在会上,杨胜文介绍了基于HashML和小语言模型构建的两个智能应用:检索增强的智能问答(ReQA)和基于自然语言交互的数据分析(ChatData)。

在ReQA中,通过将企业长期积累的产品手册、技术手册、行业标准、客户服务记录等资料进行向量化,并以向量知识库的形式存放在HashData,再结合语义向量检索技术和语言模型,就能实现基于本地知识库的精准问答。

图片

图3:基于向量知识库的检索增强的智能问答(ReQA)

在ChatData中,用户能够以自然语言的方式与HashData数据库进行交互, 实现数据查询和结果展示,还能够以自然语言的方式对查询结果进行可视化,从而大幅降低数据分析应用的门槛,允许企业更多的员工在职权范围内借助数据分析提升工作效率和工作质量。为了让模型能够更好的理解用户查询意图并生成正确的SQL语句,酷克数据团队准备了近十万条的训练语料,对模型进行了微调。

图片

图4:基于自然语言的交互式数据分析(ChatData)

展望未来,杨胜文认为,新一代人工智能技术正在加速企业数字化、智能化进程,将对企业的研发、生产、经营带来深远影响。只有让AI计算贴近应用场景、贴近企业数据资产,才能更好地推动AI落地。以HashData为代表的现代企业数据仓库为依托,结合小语言模型,低成本快速试错,发掘高价值应用场景,是现阶段推动大语言模型技术在企业规模化落地的一种可行路径。

本次大会现场,酷克数据云数仓解决方案HashData及下一代数据科学工具HashML受到众多参会者关注。HashML将于近期正式发布,后续我们会带来更多相关技术分享。敬请关注!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/972475.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MAC系统“无法验证开发者”问题

参考:https://blog.csdn.net/suxiang198/article/details/126550955 对于使用MAC电脑的同学而言,许多时候因为使用需要,从第三方源(比如github等)下载工具或软件,而在运行时会受到MAC系统的安全限制,老是弹…

【STM32】学习笔记-SPI通信

SPI通信 SPI通信(Serial Peripheral Interface)是一种同步的串行通信协议,用于在微控制器、传感器、存储器、数字信号处理器等之间进行通信。SPI通信协议需要使用4个线路进行通信:时钟线(SCLK)、主输入/主输出线(MISO)、主输出/主…

深入浅出AXI协议(5)——数据读写结构读写响应结构

目录 一、前言 二、写选通(Write strobes) 三、窄传输(Narrow transfers) 1、示例1 2、示例2 四、字节不变性(Byte invariance) 五、未对齐的传输(Unaligned transfers) 六…

网络版五子棋C++实现

目录 1.项目介绍 2.开发环境 3.核心技术 4.环境搭建 5.WebSocketpp介绍 5.1WebSocketpp是什么 5.2为什么使用WebSocketpp 5.3原理解析: 5.4WebSocketpp主要特性 6.WebSocketpp使用 7.JsonCpp使用 8.MySQL API 9.项目模块设计以及流程图 10.封装日志宏…

基于单片机的太阳能热水器控制器设计

一、项目介绍 随着环保意识的逐渐增强,太阳能热水器作为一种清洁能源应用得越来越广泛。然而,传统的太阳能热水器控制器通常采用机械式或电子式温控器,存在精度低、控制不稳定等问题。为了解决这些问题,本项目基于单片机技术设计…

Qt鼠标点击事件处理:按Escape键退出程序

创建项目 Qt 入门实战教程(目录) 首先,创建一个名称为QtKeyEscape的Qt默认的窗口程序。 参考 :Qt Creator 创建 Qt 默认窗口程序 Qt响应键盘Escape事件 打开Qt Creator >>编辑 >> 项目 >> Headers>> …

服务运营 | MS文章精读:基于强化学习和可穿戴设备的帕金森治疗方案

作者信息:庞硕,李舒湉 编者按 帕金森疾病的治疗是一个备受关注的医疗问题。本文通过患者的可穿戴传感器收集数据,提出了一个基于强化学习的帕金森药物治疗方案。这是第一篇关于可穿戴治疗设备在慢性疾病管理中的应用研究。原文于2023年4月发…

如何在你的Android工程中启用K2编译器?

如何在你的Android工程中启用K2编译器? K2编译器是用于Kotlin代码编译的最新、高效编译器,你现在可以尝试使用了。 Kotlin编译器正在为Kotlin 2.0进行重写,新的编译器实现(代号K2)带来了显著的构建速度改进&#xff…

K210-调用自定义py库

调用自定义py库 导入py库文件调用py库 用过Python的朋友应该知道,Python是支持将自定义py库(或者第三方py库)放到同一个目录下调用的,MicroPython也是支持调用自定义py库的。在调用自定义py库之前,需要提前将py库文件导…

期货基础知识

一、期货是什么?  期货是与现货相对应,并由现货衍生而来。期货通常指期货合约,期货与现货完全不同,现货是实实在在可以交易的货(商品),期货主要不是货,而是以某种大众产品如棉花、大…

影响Windows 和 macOS平台,黑客利用 Adobe CF 漏洞部署恶意软件

FortiGuard 实验室的网络安全研究人员发现了几个影响 Windows 和 Mac 设备的 Adobe ColdFusion 漏洞。 远程攻击者可利用Adobe ColdFusion 2021中的验证前RCE漏洞,获取受影响系統的控制权力。Adobe 已发布安全补丁来解决这些漏洞,但攻击者仍在利用这些漏…

leetcode:1941. 检查是否所有字符出现次数相同(python3解法)

难度:简单 给你一个字符串 s ,如果 s 是一个 好 字符串,请你返回 true ,否则请返回 false 。 如果 s 中出现过的 所有 字符的出现次数 相同 ,那么我们称字符串 s 是 好 字符串。 示例 1: 输入:s…

鼠标悬停阴影的效果被旁边div挡住的解决办法

出现的问题 需求要求鼠标悬停某个图片上有阴影效果,但阴影被旁边相邻的div挡住了,如图所示 解决方案 给悬停的这块div增加2个css属性 $(this).css(position, relative); $(this).css(z-index, 200);新的效果如图所示 一直写后端,前端的…

国际网页短信软件平台搭建定制接口说明|移讯云短信系统

国际网页短信软件平台搭建定制接口说明|移讯云短信系统 通道路由功能介绍 支持地区通道分流,支持关键字,关键词通道分流,支持白名单独立通道,支持全网通道分流,支持通道可发地区设置,通道路由分组&#x…

redis 数据结构(二)

整数集合 整数集合是 Set 对象的底层实现之一。当一个 Set 对象只包含整数值元素,并且元素数量不时,就会使用整数集这个数据结构作为底层实现。 整数集合结构设计 整数集合本质上是一块连续内存空间,它的结构定义如下: typed…

QT C++ 实现网络聊天室

一、基本原理及流程 1&#xff09;知识回顾&#xff08;C语言中的TCP流程&#xff09; 2&#xff09;QT中的服务器端/客户端的操作流程 二、代码实现 1&#xff09;服务器 .ui .pro 在pro文件中添加network库 .h #ifndef WIDGET_H #define WIDGET_H#include <QWidget>…

春秋云镜 CVE-2018-12530

春秋云镜 CVE-2018-12530 Metinfo 6.0.0任意文件删除 靶标介绍 Metinfo 6.0.0任意文件删除。后台密码&#xff1a;f2xWcke5KN6pfebu 启动场景 漏洞利用 /admin进入管理后台&#xff0c;admin/f2xWcke5KN6pfebu /admin/app/batch/csvup.php?fileFieldtest-1&fliename…

目标检测框架MMDetection训练自定义数据集实验记录

在上一篇博文中&#xff0c;博主完成了MMDetection框架的环境部署与推理过程&#xff0c;下面进行该框架的训练过程&#xff0c;训练的入口文件为tools/train.py&#xff0c;我们需要配置的内容如下&#xff1a; parser.add_argument(--config,default"/home/ubuntu/prog…

算法通关村16关 | 滑动窗口最长字串专题

1. 最长字串专题 1.1 无重复字符的最长字串 题目 LeetCode3 给定一个字符串s&#xff0c;请你找出其中不含有重复字符的最长字串的长度。 思路 找最长字串&#xff0c;需要知道所有无重复字串的首和尾&#xff0c;找出其中最长的&#xff0c;最少两个指针才可以完成&#xff…

冠达管理:创业板是二板市场吗?二板市场起什么作用?

说到股市的各买卖板块&#xff0c;适当一部分投资者简单被主板、二板、三板这些词绕晕&#xff0c;其中二板商场一词关于有些投资者来说是比较生疏的&#xff0c;但面对创业板这一个不是主板但也没有说明是哪个层级的板块却熟悉许多&#xff0c;那么&#xff0c;创业板是不是便…