酷克数据发布HD-SQL-LLaMA模型,开启数据分析“人人可及”新时代

news2024/11/8 11:11:33

随着行业数字化进入深水区,企业的关注点正在不断从“数字”价值转向“数智”价值。然而,传统数据分析的操作门槛与时间成本成为了掣肘数据价值释放的阻力。常规的数据分析流程复杂冗长,需要数据库管理员设计数据模型,数据工程师进行ETL处理,再由数据分析师编写SQL查询进行分析,耗时耗力,同时欠缺足够的业务灵活度。

面对这一挑战,业界也在不断探索解决方案,无论是库函数的封装、API的应用、还是各类图形化界面的出现,都是对流程中各个环节的不断简化。然而,大语言模型的广泛应用提供了一种端到端服务的可能性,凭借崭新的交互体验,为企业对内与对外的业务场景带来了大量的新机遇。数据库管理着高价值的结构化数据,成为了探索数据分析智能化的绝佳起点。

HD-SQL-LLaMA:更准确的Text2SQL垂类模型

众所周知,当面临具体特定场景时,通用模型的准确率、精确率和召回率有限,直接使用效果不佳。为了提升模型效果,降低幻觉产生的潜在风险,对基座模型进行微调生成垂类模型成为了一个必选项目。近日,业界领先的云数仓厂商酷克数据发布了专门用于从问题描述生成SQL的大语言模型HD-SQL-LLaMA。该模型依托酷克数据自研云数仓产品HashData和下一代数据科学与AI开发工具HashML,基于知名的开源语言模型LLaMA2,使用大量高质量的中英文Text2SQL训练数据进行微调而来。在推理过程中,通过在Prompt中引入与查询相关数据库表的Schema信息,进一步提升了从文本描述生成SQL的精准度。

图1: Text2SQL模型微调及交互式数据查询分析应用

为保证微调数据的多样性,团队选取了WikiSQL, Spider, sql-create-context, Bird等在内的多个开源数据集,数据涵盖众多行业领域。除此之外,团队还收集整理了大量自有数据,通过数据清洗、正确性验证、数据采样等处理过程得到最终的微调训练数据。

{
    "data_id": "train_eng_000034",
    "question": "Which teams had more than 3 eliminations?",
    "answer": "SELECT team\nFROM elimination\nGROUP BY team\nHAVING COUNT(*) > 3",
    "context": [
        "CREATE TABLE elimination (elimination_id text, wrestler_id text, team text, eliminated_by text, elimination_move text, time text)",
        "CREATE TABLE wrestler (wrestler_id number, name text, reign text, days_held text, location text, event text)"
        ]
}
{
    "data_id": "train_chn_000188",
    "question": "每门课程有多少注册学生?列出课程名称及其注册学生人数?",
    "answer": "SELECT T3.course_name,\n       COUNT(*)\nFROM students AS T1\nJOIN student_course_registrations AS T2 ON T1.student_id = T2.student_id\nJOIN courses AS T3 ON T2.course_id = T3.course_id\nGROUP BY T2.course_id",
    "context": [
        "CREATE TABLE students (student_id VARCHAR)",
        "CREATE TABLE courses (course_name VARCHAR, course_id VARCHAR)",
        "CREATE TABLE student_course_registrations (course_id VARCHAR, student_id VARCHAR)",
       ]
}

图2:微调样例数据

为了对模型效果进行客观评估,团队参考了CSpider的SQL难度评级方法,构造了一个具备多样性的评估数据集,评估样本涵盖从简单(easy)、中等(medium)、困难(hard)到极难(extra)4个等级。该评价方法主要根据SQL语句中出现关键字(如WHERE、GROUP BY、ORDER BY、 HAVING、UNION、INTERSECT等)的类别和数量对SQL语句的难度进行分级。

{
    "question":"What are the different names of the colleges involved in the tryout in alphabetical order?",
    "answer":"SELECT DISTINCT cname\nFROM tryout\nORDER BY cname",
    "hardness":"easy"
}
{
    "question":"What are the vocal types used in song 'Le Pop'?",
    "answer":"SELECT type\nFROM vocals AS T1\nJOIN songs AS T2 ON T1.songid = T2.songid\nWHERE title = \"Le Pop\"",
    "hardness":"medium"
}
{
    "question":"Which clubs have one or more members whose advisor is '1121'?",
    "answer":"SELECT DISTINCT t1.clubname\nFROM club AS t1\nJOIN member_of_club AS t2 ON t1.clubid = t2.clubid\nJOIN student AS t3 ON t2.stuid = t3.stuid\nWHERE t3.advisor = 1121",
    "hardness":"hard"
}
{
    "question":"How many faculty members did the university that conferred the most degrees in 2002 have?",
    "answer":"SELECT T2.faculty\nFROM campuses AS T1\nJOIN faculty AS T2 ON T1.id = t2.campus\nJOIN degrees AS T3 ON T1.id = t3.campus\nAND t2.year = t3.year\nWHERE t2.year = 2002\nORDER BY t3.degrees DESC\nLIMIT 1",
    "hardness":"extra"
}

图3:SQL难度分级样例数据

图4:评估数据集难度分级占比

为了验证生成SQL的正确性,团队针对每个评估样本构造了一个由若干数据表构成的数据库,每张数据表都包含若干条数据记录。对于每个评估样本,分别执行Ground-Truth SQL和生成的SQL,通过检验生成SQL的可执行度和比对查询结果的一致性,判断生成SQL的正确性,最终统计整个评估集的准确率。评估结果显示,HD-SQL-LLaMA2在不同难度的评估样本集上均表现良好,13B模型准确率接近82%,34B模型准确率超过88%,展现了该模型强大的零样本泛化能力和商业化应用潜力。

表1:Text2SQL难度分级评估结果

与需要大规模计算资源的千亿级参数模型不同,HD-SQL-LLaMA2模型更轻量化,可以部署在单个消费级GPU上进行实时高效推理。这不仅降低了企业使用成本,也使其可以部署于私有环境中,有效保护了企业敏感数据的安全性,满足合规要求。同时,基于HashML提供的AI开发能力,HD-SQL-LLaMA2还支持根据企业数据特点进行快速的本地微调和升级,提供了一个灵活的定制化解决方案。

ChatData:更便捷的对话式数据查询与分析应用

为了帮助客户快速便捷地将这一模型应用于实际业务,酷克数据还研发了ChatData:基于自然语言的交互式数据分析智能应用。

ChatData通过自然语言对话的方式,自动将用户提出的问题转化为SQL查询,使数据库访问和数据分析成为一件尤其简单的事情。用户无需掌握SQL语法,只需用中文或英文提出自己的查询需求,ChatData将自动转换为SQL语句,在后端数据库中检索并返回结果,同时还支持基于自然语言交互的方式对查询结果可视化。这为广大的业务团队提供了简单直观地查询数据的新途径。

图5:中英文对话式数据查询与可视化

结语

HD-SQL-LLaMA2基于大语言模型强大的语言理解和生成能力实现了更精准的Text2SQL,降低了数据分析的工作量,极大地提高了企业大数据团队的工作效率,使得用户能够将宝贵时间投入到更多的商业价值创造中。

ChatData的出现,进一步简化了整个数据分析操作,降低了数据分析的技术门槛。用户只需使用自然语言描述问题,就可以获取所需的信息与结论。这将使得企业内更多的业务团队能够参与到数据驱动的业务决策中,提高整个组织的协同效率和决策准确性,同时大幅缓解数据工程团队的工作负载。在技术创新力量推动下,数据分析正在步入“人人可及”的新时代。

在这个数据赋能商业的时代,酷克数据将继续致力于自主创新的技术和产品,服务助力企业的数智化转型。我们坚信科技进步必将造福人类,让世界变得更加智能与美好。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1114575.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

x86 架构的机载计算机,它来了!

Allspark 2-x86采用Intel酷睿11代或12代CPU,x86架构,适用于无人机等机器人运行SLAM、VIO等复杂逻辑和高精度的机器视觉任务。预装 Ubuntu 22.04或Windows 11,满足多种使用场景。 市面上现有的一些NUC产品,不仅没有针对移动机器人使…

Deepfake!黑客冒充非洲联盟主席与多位欧洲领导人通话

黑客利用人工智能冒充非洲联盟委员会主席穆萨-法基(Moussa Faki)与多位欧洲领导人通话。 法基的发言人 Ebba Kalondo 在 X(前 Twitter)上发文称,网络不法分子假冒法基与一些欧洲国家首都城市领导人进行了深度伪造视频通…

OFDM同步--符号定时偏差STO

参考书籍:《MIMO-OFDM无线通信技术及MATLAB实现》 实验图基本都截取自该本书 一、什么是STO OFDM在接收时需要做FFT,需要在OFDM符号周期内获得对发射信号的精确采样,即在去CP之后我们需要找到OFDM的起始位,这样进行FFT运算时才能…

千耘导航助力冬小麦抢种,农户节本增效待丰收

随着秋收工作的结束,冬小麦等作物进入种植期。多地趁着晴好天,抢抓农时,启动冬小麦的耕种。 为了确保粮食增产的目标顺利达成,贯彻落实“藏粮于地、藏粮于技”战略,作为主要粮食作物之一的秋季冬小麦的种植任务随之加重…

使用poco出现Cannot find any visible node by query UIObjectProxy of “xxx“怎么办

在编写脚本的时候,使用poco的控件识别已经是大家非常喜欢的一种方式,准确度很高,而且也很容上手。 但是有时候会出现下面这种报错,提示 Cannot find any visible node by query UIObjectProxy of “xxx“这个时候是不是开始着急…

网络编程开发及实战(下)

一、IO模型 一、基本概念 (一)I/O基本概念 1、基本概念 1)一个完整I/O分为两个阶段: 用户进程空间->内核空间 内核空间->设备空间(磁盘、网卡) 2)内存I/O(无名管道&…

YOLOv5算法改进(13)— 如何去更换主干网络(2)(包括代码+添加步骤+网络结构图)

前言:Hello大家好,我是小哥谈。为了给后面YOLOv5算法的进阶改进奠定基础,本篇文章就继续通过案例的方式给大家讲解如何在YOLOv5算法中更换主干网络,本篇文章的特色就是比较浅显易懂,附加了很多的网络结构图,通过结构图的形式向大家娓娓道来,希望大家学习之后能够有所收获…

大咖云集,智慧碰撞|第 18 届 CLK 大会完整议程揭晓(内附报名通道)

自 2006 年以来,在国内 Linux 技术爱好者和行业公司的鼎力支持下,中国 Linux 内核开发者大会已走过 17个年头,是中国 Linux 内核领域最具影响力的峰会之一。今年的中国内核开发者大会依然秉承历届理念,以“自由、协作、创新”为理…

C++学习:类

一、类的概念 类是一种将抽象转换为用户定义类型的C工具,它将数据和数据处理组合成一个整体。 比如股票类,首先要考虑如何表示股票。可以将某人持有的股票当成一个基本单元,数据包括他持有股票的数量,哪个公司的股票&#xff0c…

addEventListener与useeffect相撞的火花

const [a, seta] useState(1) const [loading, setLoading] useState(false) //用于等到某个异步操作返回结果后再允许再次触发fn函数useEffect(() > {document.addEventListener(LazShake.Event.onShakeOnce, () > {fn(listener);});}, []);useEffect(() > {setTim…

Kurento多对多webrtc会议搭建测试

环境ubuntu18.04 KMS版本6.13.0 多对多通信demo7.0.0 KMS运行起来后,通过运行它的一个个demo,来实现不同的功能,它的demo很多如下: https://github.com/Kurento 里面有一对一,多对多,还有一些特效的demo。…

OSI笔记

由7层组成,由下自上分别为: 物理层(硬件方面,例如物理网络设备、布线电缆、光纤等), 传输数据主要是比特流0 1 、电信号数据链路层(确定了0 1 的分组方式,通过广播的方式&#xff0…

京东商品详情API接口(标题|主图|SKU|价格|库存..)

京东商品详情接口的应用场景有很多,以下为您推荐几种: 电商平台集成:如果想要实现商品查询、购买、支付等功能,提高自身平台的电商能力,可以将京东API接口集成到自己的电商网站或应用程序中。第三方开发者插件&#x…

央国企、金融信创改造必备的Windows AD域控国产替代方案

自国资委下发79号文并明确规定了2027年底前信息系统全面替换的目标后,金融机构、大型央国企均规划起信创改造方案,其中金融机构更是走在8大行业信创前列,成为央国企、医疗、能源等行业国产化改造的参考样板。 在参与并负责某大型金融机构与某…

他海投260万未回本,一天手写200面单到效率提升200%,经历了什么

他们是时代里的“小人物”,正经历着最为蓬勃的商业变革。年轻一代的创业老板们站在十字路口上,比老一辈更懂直播风口、人工智能、云计算、智能制造、数字经济等经济热词的含义。 作为北京快递行业内少见的本地人,范小菲形容自己的创业历程是…

新媒体时代如何做好新型的网络口碑营销?

从人类开始交换商品的时代开始,口碑营销就已经存在,是靠口耳传播的营销方式。小马识途认为进入当今移动互联网时代,口碑营销又有了新的发展,网络口碑营销推广开始普及。营销人员将传统口碑营销与移动互联网营销相结合,…

英语什么时候加s和es

名词变复数一般情况下加s,以s,x,ch,sh结尾加es。一个名词如果表示一个或一样东西,它取单数形式,如果表示两个或更多的这类东西,则需要用名词复数形式。 1 以s,x,sh,ch结尾的词,加es。 2 以辅音字母(除a/e/…

(一)库存超卖案例实战——库存超卖现象的产生及其解决方案概述

前言 本节内容我们主要介绍一下web应用中常见的一类问题——产品“超卖”问题,通过一个springboot项目案例完成超卖现象的演示,并针对不同的应用场景下,提供这一类问题的解决方案,关于更详细的解决方案案例实战内容,请…

ATFX汇市:日本9月核心CPI年率降低至2.8%,创出13个月以来新低

ATFX汇市:据日本总务省统计局数据,日本9月核心CPI年率为2.8%,低于前值3.1%,略高于预期值2.7%,创出自2022年9月核心CPI站上3%关口后的新低。今年一月份,日本核心CPI冲高至4.2%,国际金融市场一度猜…