HashML——让更多企业读懂数据,用好AI

news2025/1/12 23:34:31

随着大模型技术的兴起,数据智能和AI正成为企业数字化转型的新驱动力。

酷克数据研发推出的新一代高级分析和数据科学工具箱HashML自推出以来,受到了众多企业和技术爱好者的广泛关注。在最近的直播中,我们邀请了HashData的数据科学工程师,为大家讲解HashML实现原理和技术逻辑,并进行了用例演示。

产品简介

作为一款新一代高级分析和数据科学工具箱,HashML致力于大幅降低AI技术应用门槛,为数据科学家、数据工程师、AI应用开发者构建AI应用提供便利。

HashML不止提供从数据查询处理、高级分析到机器学习、深度学习的一站式多层次数据分析和AI能力,针对近期市场高度关注的大语言模型,也提供了从高质量数据挖掘、模型微调到模型部署和推理的全流程支持。

图1:HashML主要功能概览

HashML提供了数据访问、模型算法、模型部署三大功能:

  • 数据访问

HashML可随HashData云数仓一起安装部署,做到开箱即用。HashML所有模块API的设计,都力求标准化,与数据科学社区流行的第三方库保持一致,最大程度保障易用性。同时,HashML提供了Python和SQL两种语言支持,无论是数据科学社区的Python用户,还是数据库社区的SQL用户,都可以低门槛地上手使用。

  • 模型算法

HashML内置了对多种经典机器学习算法,以及PyTorch等主流深度学习框架和算法支持。此外,HashML也允许用户根据需要定制开发新算法。通过对算法开发框架的精心封装,用户只需关注网络结构的定义和实现,用少量代码就能完成新算法的开发和引入。针对当下热门的大语言模型技术,HashML提供了对大语言模型的支持,包括模型微调以及知识增强的大语言模型应用开发。HashML广泛支持当前业界主流的开源大语言模型,包括ChatGLM、Baichuan、LLaMA-2、Qwen等,简化模型定制的工作量。

  • 模型部署

HashML继承了HashData的云原生优势,从模型训练到模型部署都可以做到按需弹性伸缩。在模型部署的层面,HashML提供了弹性可伸缩的模型部署和在线推理功能,旨在简化部署工作,并根据服务负载动态调整模型实例的数量。无论是机器学习模型、深度学习模型,还是大语言模型,都可以实现多机多卡分布式处理,用户只需通过简短的几行代码就能够完成一个服务的部署。基于HashML,用户可以非常方便地实现百亿级参数大语言模型的私有化部署,在客户私有环境内实现模型微调和智能应用开发,满足敏感数据的安全与合规要求。

产品特性

  • 分布式并行处理数据

数据并行和模型并行是分布式深度学习中常用的并行计算策略,可以加速训练过程,增加对大规模数据和模型的处理能力。

图2:基于HashML的分布式并行处理数据流程示意图

如上图所示,HashML定义了数据模块,可以帮助开发者高效地完成数据读写、数据分析、数据处理等各种功能。这些功能对于开发机器学习、深度学习模型至关重要,可以高效快捷地完成数据清洗、特征提取、特征变换、样本生成等一系列任务。基于封装良好的编程接口,用户只需要关注 format_prompt 和 tokenize 数据处理逻辑的实现,仅需少量的代码开发,就可以由HashData计算引擎以分布式并行处理的方式完成计算过程,大大简化了开发者的工作量。

图3:基于HashML进行分布式并行数据处理的代码示例

  • 丰富的机器学习算法

为了满足各种应用场景,HashML内置了包括Logistic Regression、Random Forest、SVM、XGBoost、LightGBM等经典机器学习算法。通过对算法开发框架精心封装,用户在充分理解算法原理的基础上,只需关注 fit 和 batch predict 网络结构的定义和实现,仅用少量代码就能完成新算法的开发和引入。新算法开发完成后,可以自动具备HashML所提供的分布式并行训练和推理能力。

图4:基于HashML的机器学习算法代码示例

在训练阶段,用户先从 HashML 的模型库中导入 XGBoost 模块,再传入数据库的信息去构建 XGB 对象,接下来调用fit 方法传入训练的数据以及所需要参数,就可以开启模型训练。

  • 自定义神经网络模型

HashML通过引入多种主流的深度学习框架(如PyTorch、TensorFlow、Paddle 等),能够支持各种深度学习算法。通过对深度学习的模型训练推理进行封装,用户可在此基础上轻松完成神经网络模型的搭建工作。以PyTorch 为例,用户只需定义网络结构和 MLP 模型,就可以调用fit方法传入相关参数,对模型进行训练,整个过程中用户只需要专注于模型结构的实现即可,使得工作量大幅降低。

  • 便捷高效模型微调

模型微调可以让大语言模型能够更加适应当前的业务场景,是大语言模型落地非常重要的一个环节。HashML引入了参数高效的微调(PEFT)方法,使用较少的参数来提高模型的微调效率和性能,在单张消费级显卡即可实现模型微调,达到与全量参数(Full Parameter)微调相当的效果,而新增checkpoint通常只有几十到几百MB,大幅降低计算和存储成本。

图5:基于HashML的便捷高效模型微调代码示例

  • 向量知识库的构建与查询

向量知识库是HashML 工具箱当中一个非常重要的组成部分,它提供了一种高效的方式来存储和检索大规模向量化知识,主要应用于基于本地的知识库的智能问答任务。

基于 HashML 的 embedding 服务,可以将文本、图像等非结构化数据转化成向量表示,同时用户可以根据自身业务的需要去自定义 embedding 模型,提高知识库的质量和效果。

图6:HashML向量知识库构建流程示意图

向量知识库模块还提供了处理服务请求功能。当用户发起请求的时候,向量知识库模块会将查询内容转化为向量的表征,然后再与知识库中的向量进行相似度计算,实现内容的检索和推荐功能。HashML 对向量知识库进行了封装,用户仅需几行代码就可以完成整个向量知识库的构建以及查询功能。

应用案例

  • 对话式智能数据查询分析ChatData

ChatData主要帮助对SQL语言不熟悉的用户,能够通过自然语言对数据库进行查询和分析,其背后的核心技术是text to SQL。

为了提升大语言模型的SQL能力,HashML研发团队对模型进行了微调,并针对每个评估样本构造了一个由若干数据表构成的数据库,每张数据表都包含若干条数据记录。对于每个评估样本,分别执行Ground-Truth SQL和生成的SQL,通过检验生成SQL的可执行度和比对查询结果的一致性,判断生成SQL的正确性,最终统计整个评估集的准确率。评估结果显示,HD-SQL-LLaMA2在不同难度的评估样本集上均表现良好,13B模型准确率接近82%,34B模型准确率超过88%。

  • 检索增强的智能问答ReQA

通用大模型在应用于特定领域时普遍存在回答不精准的现象。针对这一问题,HashML可以基于大语言模型,快速搭建面向专业领域的的智能问答系统(ReQA)。

在ReQA中,企业通过调用本地部署的 embedding 服务将自有的知识库(包括管理制度、产品手册、技术手册、运维手册、工作规范、流程记录、FAQ等)进行向量化,并存放到HashData形成向量知识库。当回答用户提问时,通过检索向量知识库获得相关信息,作为上下文和问题一起提交给大语言模型,这样大语言模型就能够生成精准的回答,从而有效解决困扰大语言模型的生成“幻觉”问题。ReQA的典型用例包括智能客服、销售助手、文档阅读助手等,在企业有着非常广泛的应用场景。

展望未来,以大语言模型为代表的AI技术将不断融入各行各业,改变用户与企业产品和服务之间的交互方式。

HashData推出的AI开发工具箱HashML,以简单易用、算法丰富、性能卓越的功能,帮助企业更高效地构建AI应用,更充分地释放数据价值,加速企业迈向AI时代。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1244361.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

目标检测算法 - YOLOv3

文章目录 1. Backbone Darknet-532. 整体架构3. 损失函数4. 训练过程5. 预测过程 YOLOv1、YOLOv2都是在CVPR这种正规的计算机视觉学术会议上发表的正式学术论文。 YOLOv3不算一篇严谨的学术论文,是作者随笔写的技术报告。 YOLOv3性能: 1. Backbone Dark…

七要素微气象仪气象数据监测助手

WX-WQX7 随着科技的发展,气象预测的准确性已成为人们日常生活的重要参考。而七要素微气象仪,作为新型的气象探测设备,以其精细化的数据测量和解析能力,正在改变我们的天气预测方式。 一、产品介绍 七要素微气象仪是一款集成了温…

STM32:基本定时器原理和定时程序

一、初识定时器TIM 定时器就是计数器,定时器的作用就是设置一个时间,然后时间到后就会通过中断等方式通知STM32执行某些程序。定时器除了可以实现普通的定时功能,还可以实现捕获脉冲宽度,计算PWM占空比,输出PWM波形&am…

TEMU平台商品欧盟站要求电子和电气产品提供CE-EMC(Electric)资质

CE-EMC认证是欧盟对于市场上销售的电子和电气产品所要求的一个重要认证标准。该认证指令规定了产品在电磁环境下的辐射和抗干扰性能要求,以确保产品在使用时不会对其他设备和系统产生干扰,并且能够正常工作,不受其他设备的干扰。 CE EMC认证…

【机器学习 | 白噪声检验】检验模型学习成果 检验平稳性最佳实践,确定不来看看?

🤵‍♂️ 个人主页: AI_magician 📡主页地址: 作者简介:CSDN内容合伙人,全栈领域优质创作者。 👨‍💻景愿:旨在于能和更多的热爱计算机的伙伴一起成长!!&…

flink和机器学习模型的常用组合方式

背景 flink是一个低延迟高吞吐的系统,每秒处理的数据量高达数百万,而机器模型一般比较笨重,虽然功能强大,但是qps一般都比较低,日常工作中,我们一般是如何把flink和机器学习模型组合起来一起使用呢? fli…

【Mysql学习笔记】3 - 本章作业

1.判断 1. 这句话表示ename as name 可以不要这个as&#xff0c;同理后面的sal salary也是别名&#xff0c;而选项D的Annual Salary中间也有空格&#xff0c;程序会判断为as 但as不能连用&#xff0c;所以错误&#xff0c;选D 2.选B&#xff0c;因为null不能加上判断符号<&…

shell(函数和数组)

目录 一、函数 1.函数的由来 2.函数的作用 3.函数的使用方法 4.函数的定义 5.查看函数 6.删除函数 7.函数返回值 8.函数的传参数 9.函数递归 二、数组 1.数组的相关介绍 2.声明数组 3.定义数组的格式 4.冒泡排序 总结&#xff1a;本章主要介绍了函数和数组相关知…

Redis集群主备切换原因排查

背景 线上redis部署的是三主三集群&#xff0c;昨天中午&#xff0c;线上各服务接连告警&#xff0c;提示服务已下线&#xff0c;过一段时间又上线了&#xff08;springboot-admin企业微信服务下线、上线告警&#xff09;&#xff0c;赶紧放下手中外卖排查。 排查 1. 查看各…

unreal 指定windows SDK

路径 &#xff1a; “C:\Users\Administrator\AppData\Roaming\Unreal Engine\UnrealBuildTool\BuildConfiguration.xml” 在Configuration中添加 <WindowsPlatform><WindowsSdkVersion>10.0.20348.0</WindowsSdkVersion></WindowsPlatform>示例&…

什么是高防IP?如何进行防护?怎样隐藏源站?

高防IP是针对互联网服务器遭受大流量的DDoS攻击后导致服务不可用的情况下&#xff0c;推出的付费增值服务&#xff0c;是目前最常用的一种防御DDoS攻击的手段。用户在数据不转移的情况下&#xff0c;就可以通过配置高防IP&#xff0c;将攻击流量引流到高防IP&#xff0c;防护系…

objdump反汇编文件解析

命令使用 objdump可以对可执行文件进行反汇编 其常用参数为: objdump -d <file(s)>: 将代码段反汇编&#xff1b;objdump -S <file(s)>: 将代码段反汇编的同时&#xff0c;将反汇编代码与源代码交替显示&#xff0c;编译时需要使用-g参数&#xff0c;即需要调试信…

R数据分析:集成学习方法之随机生存森林的原理和做法,实例解析

很久很久以前给大家写过决策树&#xff0c;非常简单明了的算法。今天给大家写随机&#xff08;生存&#xff09;森林&#xff0c;随机森林是集成了很多个决策数的集成模型。像随机森林这样将很多个基本学习器集合起来形成一个更加强大的学习器的这么一种集成思想还是非常好的。…

回归预测 | MATLAB实现SCN随机配置网络多输入单输出回归预测

回归预测 | MATLAB实现SCN随机配置网络多输入单输出回归预测 目录 回归预测 | MATLAB实现SCN随机配置网络多输入单输出回归预测效果一览基本介绍程序设计参考资料 效果一览 基本介绍 Matlab实现SCN随机配置网络多变量回归预测 1.data为数据集&#xff0c;7个输入特征&#xff0…

二十、索引库

目录 一、Mapping属性 二、创建索引库 1、在DevTools中编写代码 2、运行并查看 三、查询索引库 1、查询索引库语法&#xff1a; 四、删除索引库 1、删除索引库语法 五、修改索引库 一、Mapping属性 mapping是对索引库中文档的约束&#xff0c;常见的mapping属性包括:…

Jquery ajax 同步阻塞引起的UI线程阻塞的坑(loading图片显示不出来 )

Jquery ajax 同步阻塞引起的UI线程阻塞的坑&#xff08;loading图片显示不出来&#xff0c;layer.load延迟&#xff09;jax重新获取数据刷新页面功能&#xff0c;因为ajax属于耗时操作&#xff0c;想在获取数据且加载页面时显示加载遮罩层&#xff0c;结果发现了ajax的好多坑。…

代码随想录算法训练营第五十二天|1143.最长公共子序列 1035.不相交的线 53. 最大子序和

文档讲解&#xff1a;代码随想录 视频讲解&#xff1a;代码随想录B站账号 状态&#xff1a;看了视频题解和文章解析后做出来了 1143.最长公共子序列 class Solution:def longestCommonSubsequence(self, text1: str, text2: str) -> int:dp [[0] * (len(text2) 1) for _ i…

Modbus故障码速查手册(故障码含义、分析原因、详细解读)

Modbus故障码速查手册 文章目录 Modbus故障码速查手册引言故障码表故障详解0x01 IllegalFunction0x02 IllegalDataAddress0x03 IllegalDataValue0x04 SlaveDeviceFailure0x05 Acknowledge0x06 SlaveDeviceBusy0x08 MemoryParityError0x0A GatewayPathUnavailable0x0B GatewayTa…

使用 PowerShell 中的命令来删除共享目录

Remove-SmbShare -Name "ShareName" 请将 "ShareName" 替换为您要删除的实际共享目录的名称。 请注意&#xff0c;执行此命令需要具有适当的权限。确保您以管理员身份运行 PowerShell 或具有足够的权限来删除共享目录。

【iOS】数据持久化(一)之Plist文件、Preference(NSUserDefaults类)

目录 什么是Plist文件&#xff1f;plist可以存储哪些数据类型plist文件数据的读取与存储 Perference&#xff08;NSUserDefaults&#xff09;使用方法registerDefaults: 方法的使用 什么是Plist文件&#xff1f; Plist文件&#xff08;属性列表&#xff09;是将某些特定的类&a…