openGauss学习笔记-50 openGauss 高级特性-DB4AI

news2024/9/28 9:30:14

文章目录

    • openGauss学习笔记-50 openGauss 高级特性-DB4AI
      • 50.1 关键字解析
      • 50.2 使用指导

openGauss学习笔记-50 openGauss 高级特性-DB4AI

openGauss当前版本支持了原生DB4AI能力,通过引入原生AI算子,简化操作流程,充分利用数据库优化器、执行器的优化与执行能力,获得高性能的数据库内模型训练能力。更简化的模型训练与预测流程、更高的性能表现,让开发者在更短时间内能更专注于模型的调优与数据分析上,而避免了碎片化的技术栈与冗余的代码实现。

当前版本的DB4AI支持基于SGD算子的逻辑回归(目前支持二分类任务)、线性回归和支持向量机算法(分类任务),以及基于K-Means算子的Kmeans聚类算法。

50.1 关键字解析

表 1 DB4AI语法及关键字

名称描述
语句CREATE MODEL创建模型并进行训练,同时保存模型。
PREDICT BY利用已有模型进行推断。
关键字TARGET训练/推断任务的目标列名。
FEATURES训练/推断任务的数据特征列名。
MODEL训练任务的模型名称。

50.2 使用指导

  1. 使用“CREATE MODEL”语句可以进行模型的创建和训练。

    模型训练SQL语句,现有一个数据集为kmeans_2d,该表的数据内容如下:

    openGauss=# select * from kmeans_2d;
     id |              position
    ----+-------------------------------------
      1 | {74.5268815685995,88.2141939294524}
      2 | {70.9565760521218,98.8114827475511}
      3 | {76.2756086327136,23.8387574302033}
      4 | {17.8495847294107,81.8449544720352}
      5 | {81.2175785354339,57.1677675866522}
      6 | {53.97752255667,49.3158342130482}
      7 | {93.2475341879763,86.934042100329}
      8 | {72.7659293473698,19.7020415100269}
      9 | {16.5800288529135,75.7475957670249}
     10 | {81.8520747194998,40.3476078575477}
     11 | {76.796671198681,86.3827232690528}
     12 | {59.9231450678781,90.9907738864422}
     13 | {70.161884885747,19.7427458665334}
     14 | {11.1269539105706,70.9988166182302}
     15 | {80.5005071521737,65.2822235273197}
     16 | {54.7030725912191,52.151339428965}
     17 | {103.059707058128,80.8419883321039}
     18 | {85.3574452036992,14.9910179991275}
     19 | {28.6501615960151,76.6922890325077}
     20 | {69.7285806713626,49.5416352967732}
    (20 rows)
    

    该表的字段position的数据类型为 double precision[].

    从kmeans_2d训练集中指定position为特征列,使用kmeans算法,创建并保存模型point_kmeans。

    openGauss=# CREATE MODEL point_kmeans USING kmeans FEATURES position FROM kmeans_2d WITH num_centroids=3;
    NOTICE:  Hyperparameter max_iterations takes value DEFAULT (10)
    NOTICE:  Hyperparameter num_centroids takes value 3
    NOTICE:  Hyperparameter tolerance takes value DEFAULT (0.000010)
    NOTICE:  Hyperparameter batch_size takes value DEFAULT (10)
    NOTICE:  Hyperparameter num_features takes value DEFAULT (2)
    NOTICE:  Hyperparameter distance_function takes value DEFAULT (L2_Squared)
    NOTICE:  Hyperparameter seeding_function takes value DEFAULT (Random++)
    NOTICE:  Hyperparameter verbose takes value DEFAULT (0)
    NOTICE:  Hyperparameter seed takes value DEFAULT (0)
    MODEL CREATED. PROCESSED 1
    

    上述命令中:

    • “CREATE MODEL”语句用于模型的训练和保存。

    • USING关键字指定算法名称。

    • FEATURES用于指定训练模模型的特征,需根据训练数据表的列名添加。

    • TARGET指定模型的训练目标,它可以是训练所需数据表的列名,也可以是一个表达式,例如: price > 10000。

    • WITH用于指定训练模型时的超参数。当超参未被用户进行设置的时候,框架会使用默认数值。

      针对不同的算子,框架支持不同的超参组合,见表2

      表 2 算子支持的超参

      算子超参
      GD(logistic_regression、linear_regression、svm_classification)optimizer(char*); verbose(bool); max_iterations(int); max_seconds(double); batch_size(int); learning_rate(double); decay(double); tolerance(double)其中,SVM限定超参lambda(double)
      Kmeansmax_iterations(int); num_centroids(int); tolerance(double); batch_size(int); num_features(int); distance_function(char*); seeding_function(char*); verbose(int);seed(int)

      当前各个超参数设置的默认值和取值范围,见表3

      表 3 超参的默认值以及取值范围

      算子超参(默认值)取值范围超参描述
      GD (logistic_regression、linear_regression、svm_classification)optimizer = gd(梯度下降法)gd/ngd(自然梯度下降)优化器
      verbose = falseT/F日志显示
      max_iterations = 100(0, INT_MAX_VALUE]最大迭代次数
      max_seconds = 0 (不对运行时长设限制)[0,INT_MAX_VALUE]运行时长
      batch_size = 1000(0, MAX_MEMORY_LIMIT]一次训练所选取的样本数
      learning_rate = 0.8(0, DOUBLE_MAX_VALUE]学习率
      decay = 0.95(0, DOUBLE_MAX_VALUE]权值衰减率
      tolerance = 0.0005(0, DOUBLE_MAX_VALUE]公差
      seed = 0(对seed取随机值)[0, INT_MAX_VALUE]种子
      just for SVM:lambda = 0.01(0, DOUBLE_MAX_VALUE)正则化参数
      Kmeansmax_iterations = 10[1, INT_MAX_VALUE]最大迭代次数
      num_centroids = 10[1, MAX_MEMORY_LIMIT]簇的数目
      tolerance = 0.00001(0,1)中心点误差
      batch_size = 10[1, MAX_MEMORY_LIMIT]一次训练所选取的样本数
      num_features = 2[1, GS_MAX_COLS]输入样本特征数
      distance_function = “L2_Squared”L1\L2\L2_Squared\Linf正则化方法
      seeding_function = “Random++”“Random++”“KMeans||”初始化种子点方法
      verbose = 0U{ 0, 1, 2 }冗长模式
      seed = 0U[0, INT_MAX_VALUE]种子
      MAX_MEMORY_LIMIT = 最大内存加载的元组数量
      GS_MAX_COLS = 数据库单表最大属性数量

    模型保存成功,则返回创建成功信息如下。

    MODEL CREATED. PROCESSED x
    
  2. 查看模型信息。

    当训练完成后模型会被存储到系统表gs_model_warehouse中。系统表gs_model_warehouse可以查看到关于模型本身和训练过程的相关信息。

    用户可以通过查看系统表的方式查看模型,例如查看模型名为“point_kmeans”的SQL语句如下:

    openGauss=# select * from gs_model_warehouse where modelname='point_kmeans';
    -[ RECORD 1 ]---------+----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
    modelname             | point_kmeans
    modelowner            | 10
    createtime            | 2021-04-30 17:30:39.59044
    processedtuples       | 20
    discardedtuples       | 0
    pre_process_time      | 6.2001e-05
    exec_time             | .000185272
    iterations            | 5
    outputtype            | 23
    modeltype             | kmeans
    query                 | CREATE MODEL point_kmeans USING kmeans FEATURES position FROM kmeans_2d WITH num_centroids=3;
    modeldata             |
    weight                |
    hyperparametersnames  | {max_iterations,num_centroids,tolerance,batch_size,num_features,distance_function,seeding_function,verbose,seed}
    hyperparametersvalues | {10,3,1e-05,10,2,L2_Squared,Random++,0,0}
    hyperparametersoids   | {23,23,701,23,23,1043,1043,23,23}
    coefnames             | {original_num_centroids,actual_num_centroids,dimension,distance_function_id,seed,coordinates}
    coefvalues            | {3,3,2,2,572368998,"(77.282589,23.724434)(74.421616,73.239455)(18.551682,76.320914)"}
    coefoids              |
    trainingscoresname    |
    trainingscoresvalue   |
    modeldescribe         | {"id:1,objective_function:542.851169,avg_distance_to_centroid:108.570234,min_distance_to_centroid:1.027078,max_distance_to_centroid:297.210108,std_dev_distance_to_centroid:105.053257,cluster_size:5","id:2,objective_function:5825.982139,avg_distance_to_centroid:529.634740,min_distance_to_centroid:100.270449,max_distance_to_centroid:990.300588,std_dev_distance_to_centroid:285.915094,cluster_size:11","id:3,objective_function:220.792591,avg_distance_to_centroid:55.198148,min_distance_to_centroid:4.216111,max_distance_to_centroid:102.117204,std_dev_distance_to_centroid:39.319118,cluster_size:4"}
    
  3. 利用已存在的模型做推断任务。

    使用“SELECT”和“PREDICT BY”关键字利用已有模型完成推断任务。

    查询语法:SELECT…PREDICT BY…(FEATURES…)…FROM…;

    openGauss=# SELECT id, PREDICT BY point_kmeans (FEATURES position) as pos FROM (select * from kmeans_2d limit 10);
     id | pos
    ----+-----
      1 |   2
      2 |   2
      3 |   1
      4 |   3
      5 |   2
      6 |   2
      7 |   2
      8 |   1
      9 |   3
     10 |   1
    (10 rows)
    

    针对相同的推断任务,同一个模型的结果是稳定的。且基于相同的超参数和训练集训练的模型也具有稳定性,同时AI模型训练存在随机成分(每个batch的数据分布、随机梯度下降),所以不同的模型间的计算表现、结果允许存在小的差别。

  4. 查看执行计划。

    使用explain语句可对“CREATE MODEL”和“PREDICT BY”的模型训练或预测过程中的执行计划进行分析。Explain关键字后可直接拼接CREATE MODEL/ PREDICT BY语句(子句),也可接可选的参数,支持的参数见表4

    表 4 EXPLAIN支持的参数

    参数名描述
    ANALYZE布尔型变量,追加运行时间、循环次数等描述信息
    VERBOSE布尔型变量,控制训练的运行信息是否输出到客户端
    COSTS布尔型变量
    CPU布尔型变量
    DETAIL布尔型变量,不可用。
    NODES布尔型变量,不可用
    NUM_NODES布尔型变量,不可用
    BUFFERS布尔型变量
    TIMING布尔型变量
    PLAN布尔型变量
    FORMAT可选格式类型:TEXT / XML / JSON / YAML

    示例:

    openGauss=# Explain CREATE MODEL patient_logisitic_regression USING logistic_regression FEATURES second_attack, treatment TARGET trait_anxiety > 50 FROM patients WITH batch_size=10, learning_rate = 0.05;
    NOTICE:  Hyperparameter batch_size takes value 10
    NOTICE:  Hyperparameter decay takes value DEFAULT (0.950000)
    NOTICE:  Hyperparameter learning_rate takes value 0.050000
    NOTICE:  Hyperparameter max_iterations takes value DEFAULT (100)
    NOTICE:  Hyperparameter max_seconds takes value DEFAULT (0)
    NOTICE:  Hyperparameter optimizer takes value DEFAULT (gd)
    NOTICE:  Hyperparameter tolerance takes value DEFAULT (0.000500)
    NOTICE:  Hyperparameter seed takes value DEFAULT (0)
    NOTICE:  Hyperparameter verbose takes value DEFAULT (FALSE)
    NOTICE:  GD shuffle cache size 212369
                                QUERY PLAN
    -------------------------------------------------------------------
     Gradient Descent  (cost=0.00..0.00 rows=0 width=0)
       ->  Seq Scan on patients  (cost=0.00..32.20 rows=1776 width=12)
    (2 rows)
    
  5. 异常场景。

    • 训练阶段。

      • 场景一:当超参数的设置超出取值范围,模型训练失败,返回ERROR,并提示错误,例如:

        openGauss=# CREATE MODEL patient_linear_regression USING linear_regression FEATURES second_attack,treatment TARGET trait_anxiety  FROM patients WITH optimizer='aa';
        NOTICE:  Hyperparameter batch_size takes value DEFAULT (1000)
        NOTICE:  Hyperparameter decay takes value DEFAULT (0.950000)
        NOTICE:  Hyperparameter learning_rate takes value DEFAULT (0.800000)
        NOTICE:  Hyperparameter max_iterations takes value DEFAULT (100)
        NOTICE:  Hyperparameter max_seconds takes value DEFAULT (0)
        NOTICE:  Hyperparameter optimizer takes value aa
        ERROR:  Invalid hyperparameter value for optimizer. Valid values are: gd, ngd. (default is gd)
        
      • 场景二:当模型名称已存在,模型保存失败,返回ERROR,并提示错误原因:

        openGauss=# CREATE MODEL patient_linear_regression USING linear_regression FEATURES second_attack,treatment TARGET trait_anxiety  FROM patients;
        NOTICE:  Hyperparameter batch_size takes value DEFAULT (1000)
        NOTICE:  Hyperparameter decay takes value DEFAULT (0.950000)
        NOTICE:  Hyperparameter learning_rate takes value DEFAULT (0.800000)
        NOTICE:  Hyperparameter max_iterations takes value DEFAULT (100)
        NOTICE:  Hyperparameter max_seconds takes value DEFAULT (0)
        NOTICE:  Hyperparameter optimizer takes value DEFAULT (gd)
        NOTICE:  Hyperparameter tolerance takes value DEFAULT (0.000500)
        NOTICE:  Hyperparameter seed takes value DEFAULT (0)
        NOTICE:  Hyperparameter verbose takes value DEFAULT (FALSE)
        NOTICE:  GD shuffle cache size 5502
        ERROR:  The model name "patient_linear_regression" already exists in gs_model_warehouse.
        
      • 场景三:FEATURE或者TARGETS列是*,返回ERROR,并提示错误原因:

        openGauss=# CREATE MODEL patient_linear_regression USING linear_regression FEATURES *  TARGET trait_anxiety  FROM
        patients;
        ERROR:  FEATURES clause cannot be *
        -----------------------------------------------------------------------------------------------------------------------、
        openGauss=# CREATE MODEL patient_linear_regression USING linear_regression FEATURES second_attack,treatment TARGET *  FROM patients;
        ERROR:  TARGET clause cannot be *
        
      • 场景四:对于无监督学习方法使用TARGET关键字,或者在监督学习方法中不适用TARGET关键字,均会返回ERROR,并提示错误原因:

        openGauss=# CREATE MODEL patient_linear_regression USING linear_regression FEATURES second_attack,treatment FROM patients;
        ERROR:  Supervised ML algorithms require TARGET clause
        -----------------------------------------------------------------------------------------------------------------------------
        CREATE MODEL patient_linear_regression USING linear_regression TARGET trait_anxiety  FROM patients;   ERROR:  Supervised ML algorithms require FEATURES clause
        
      • 场景五:当GUC参数statement_timeout设置了时长,训练超时执行的语句将被终止:执行CREATE MODEL语句。训练集的大小、训练轮数(iteration)、提前终止条件(tolerance、max_seconds)、并行线程数(nthread)等参数都会影响训练时长。当时长超过数据库限制,语句被终止模型训练失败。

    • 推断阶段。

      • 场景六:当模型名在系统表中查找不到,数据库会报ERROR:

        openGauss=# select id, PREDICT BY patient_logistic_regression (FEATURES second_attack,treatment) FROM patients;
        ERROR:  There is no model called "patient_logistic_regression".
        
      • 场景七:当做推断任务FEATURES的数据维度和数据类型与训练集存在不一致,将报ERROR,并提示错误原因,例如:

        openGauss=# select id, PREDICT BY patient_linear_regression (FEATURES second_attack) FROM patients;
        ERROR:  Invalid number of features for prediction, provided 1, expected 2
        CONTEXT:  referenced column: patient_linear_regression_pred
        -------------------------------------------------------------------------------------------------------------------------------------
        openGauss=# select id, PREDICT BY patient_linear_regression (FEATURES 1,second_attack,treatment) FROM patients;
        ERROR:  Invalid number of features for prediction, provided 3, expected 2
        CONTEXT:  referenced column: patient_linear_regression_pre
        

👍 点赞,你的认可是我创作的动力!

⭐️ 收藏,你的青睐是我努力的方向!

✏️ 评论,你的意见是我进步的财富!

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/929349.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【PHP】字符串数组

文章目录 字符串类型字符串转义字符串相关函数 数组定义方式数组特点二维数组数组遍历foreach遍历语法for循环遍历数组相关函数相关题目 字符串类型 定义语法 引号方式:比较适合定义那些比较短(不超过一行)或者没有结构要求的字符串 1&#…

基于Python的图书馆大数据可视化分析系统设计与实现【源码+论文+演示视频+包运行成功】

博主介绍:✌csdn特邀作者、博客专家、java领域优质创作者、博客之星,擅长Java、微信小程序、Python、Android等技术,专注于Java、Python等技术领域和毕业项目实战✌ 🍅文末获取源码联系🍅 👇🏻 …

vscode 与 C++

序 具体流程的话,官方文档里都有的:C programming with Visual Studio Code 浏览器下载一个mingw64,解压,配置环境变量vscode里安装c相关的插件没了 第一步只看文字,可能有点抽象,相关视频: …

云计算企业私有云平台建设方案PPT

导读:原文《云计算企业私有云平台建设方案PPT》(获取来源见文尾),本文精选其中精华及架构部分,逻辑清晰、内容完整,为快速形成售前方案提供参考。 喜欢文章,您可以点赞评论转发本文,…

Linux常用命令_权限管理命令

文章目录 1. 权限管理命令: chmod2. 其他权限管理命令2.1 权限管理命令: chown2.2 权限管理命令: chgrp2.3 权限管理命令: umask 1. 权限管理命令: chmod {ugoa}中分别为:u-user、g-group、a-all;谁创建文件,谁是所有者;所属组为所…

HOOPS Exchange SDK 2023 Service Pack 2 Crack

内容摘自互联网,具体功能以官网介绍为准。。。 HOOPS SDK是全球领先开发商TechSoft 3D旗下的原生产品,专注于Web端、桌面端、移动端3D工程应用程序的开发。长期以来,HOOPS通过卓越的3D技术,帮助全球600多家知名客户推动3D软件创新…

Qt ui对某控件进行全局提升报错:no such file or directory

问题 在Qt项目中,设计师界面,对某一控件进行提升,设置完“提升的类名称”、“头文件”、全局包含后,构建时,报“no such file or directory”错误,但文件命名存在呀。 解决 根据问题就应该明白&#xf…

并查集(C++实现)

目录 一、并查集原理 二、并查集应用 2.1 并查集举例 2.2 并查集数组规律 2.3 并查集功能 三、并查集实现 3.1 并查集 3.2 根据名字查找 四、例题 4.1 省份数量 4.2 等式方程的可满足性 一、并查集原理 再一些应用问题中,需要将n个不同的元素划分成一些…

Python读取Excel:实现数据高效处理的利器

目录 一、Python读取Excel的常用库二、Python读取Excel的步骤三、具体案例和使用场景四、Python读取Excel的优势与其他编程语言比较 摘要 本文将介绍Python读取Excel的方法,并通过具体案例和使用场景展示如何实现数据高效处理。我们将介绍常用的Python库&#xff0c…

QT基础使用:组件和代码关联(信号和槽)

自动关联 ui文件在设计环境下,能看到的组件可以使用鼠标右键选择“转到槽”就是开始组件和动作关联。 在自动关联这个过程中软件自动动作的部分 需要对前面头文件进行保存,才能使得声明的函数能够使用。为了方便,自动关联时先对所有文件…

【Hello Algorithm】堆和堆排序

本篇博客简介: 讲解堆和堆排序相关算法 堆和堆排序 堆堆的概念堆的性质堆的表示形式堆的增加删除堆的最大值 堆排序堆排序思路时间复杂度为N的建堆方法已知一个近乎有序的数组 使用最佳排序方法排序 堆 堆的概念 这里注意!!! 这…

日志系统——性能测试

日志系统项目已经编写完成&#xff0c;在本节完成性能测试之后就正式结束了 测试代码如下 #include "../logs/mjwlog.h" #include <vector> #include <thread>//参数&#xff1a;日志器名称&#xff0c;线程数量&#xff0c;输出日志条数&#xff0c;单…

nginx(七十八)nginx配置http2

一 ngx_http_v2模块 1、本文不讲解HTTP2的知识2、只讲解nginx中如何配置HTTP2 ① 前置条件 1、openssl的版本必须在1.0.2e及以上2、开启https加密,目前http2.0只支持开启了https的网站编译选项&#xff1a;--with-http_ssl_module --with-http_v2_module 特点&#xff1a…

【翻译】RISC-V指令集手册第Ⅱ卷:特权体系结构

第三章 机器级ISA&#xff0c;版本1.11 本章描述RISC-V系统中最高权限的机器模式(M-mode)下的机器级操作。M模式用于对硬件平台的低级访问&#xff0c;是复位时进入的第一个模式。M模式还可以用于实现在硬件中直接实现过于困难或代价过高的特性。RISC-V机器级ISA包含一个公共核…

Android Studio升级到Android API 33版本后,XML布局输入没有提示

低版本的Android Studio升级到Android API 33版本后&#xff0c;XML布局输入没有提示。查一下我目前使用的Android Studio 是2021年发布&#xff0c;而Android API 33是2022年发布的&#xff0c;这是由低版本升级到高版本造成不兼容的问题。解决方法有两种&#xff1a; 第一种…

1 Hadoop入门

1.Hadoop是什么&#xff1f; (1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 (2)主要解决&#xff0c;海量数据的存储和海量数据的分析计算问题。 (3)广义上来说&#xff0c;Hadoop通常是指一个更广泛的概念——Hadoop生态圈 2.Hadoop的优势 3 Hadoop组成 4 HDF…

如何将储存在Mac或PC端的PDF文件传输到移动设备呢?

iMazing是一款iOS设备管理软件&#xff0c;用户借助它可以将iPad或iPhone上的文件备份到PC或Mac上&#xff0c;还能实现不同设备之间的文件传输&#xff0c;能很大程度上方便用户进行文件管理。 在阅读方面&#xff0c;iPad和iPhone是阅读PDF的优秀选择&#xff0c;相较于Mac或…

IDEA常用配置之类Tab页多行显示

文章目录 IDEA常用配置之类Tab页多行显示 IDEA常用配置之类Tab页多行显示 默认在Idea中打开类过多&#xff0c;后面会隐藏显示&#xff0c;这里修改配置&#xff0c;将类设置为多行显示&#xff0c;方便查找已经打开的类 修改后显示样式

抢先体验|乐鑫推出 ESP32-S3-BOX-3 新一代开源 AIoT 开发套件

乐鑫科技 (688018.SH) 非常高兴地宣布其开发套件阵容的最新成员 ESP32-S3-BOX-3。这款完全开源的 AIoT 应用开发套件搭载乐鑫高性能 ESP32-S3 AI SoC&#xff0c;旨在突破传统开发板&#xff0c;成为新一代开发工具的引领者。 【乐鑫新品抢先体验】ESP32-S3-BOX-3 新一代开源 A…

ctfshow-web13 文件上传

0x00 前言 CTF 加解密合集CTF Web合集 0x01 题目 0x02 Write Up 首先看到是一个上传页面&#xff0c;测试其他无果&#xff0c;遂进行目录遍历&#xff0c;发现upload.php.bak文件 可以看到这里的限制条件&#xff0c;大小&#xff0c;以及内容&#xff0c;这里可以使用.use…