[1.2.0新功能系列:三]Apache doris 1.2.0 Java UDF 函数开发及使用

news2024/11/18 10:18:59

概述

我们在使用各个SQL引擎时,会有纷繁复杂的查询需求。一部分可以通过引擎自带的内置函数去解决,但内置函数不可能解决所有人的问题,所以一般SQL引擎会提供UDF功能,方便用户通过自己写逻辑来满足特定的需求,Doris也不例外。

在java UDF之前,Doris提供了两种用户可以自己实现UDF的方式:

远程UDF,其优缺点如下:

  • 支持通过 RPC 的方式访问用户提供的 UDF Service,以实现用户自定义函数的执行

  • 只要支持Protobuf的各类语言都能使用,有足够的安全和灵活性

  • 额外的网络开销和基于protobuf的开发模式让该使用方式的用户望而却步

原生UDF,其优缺点如下:

  • 支持使用C++编写UDF,执行效率高、速度快

  • 跟Doris代码耦合度高,需要自己打包编译Doris源码

  • 只支持C++语言并且容易造成BE挂掉

  • 熟悉大数据组件(Hive Spark等)的用户有一定的门槛

看起来上述UDF的两种方式实现起来有点复杂。有没有相对简单,门槛较低,跟Doris代码耦合度低,对Java友好的UDF方式呢?

在 Doris 1.2.0 版本我们正式支持 Java UDF 函数,你可以像之前写 Hive udf函数一样去写自己的Doris udf函数来处理自己复杂的业务逻辑。

SinceVersion 1.2.0

Java UDF 为用户提供UDF编写的Java接口,以方便用户使用Java语言进行自定义函数的执行。相比于 Native 的 UDF 实现,Java UDF 有如下优势和限制:

  1. 优势

  • 兼容性:使用Java UDF可以兼容不同的Doris版本,所以在进行Doris版本升级时,Java UDF不需要进行额外的迁移操作。与此同时,Java UDF同样遵循了和Hive/Spark等引擎同样的编程规范,使得用户可以直接将Hive/Spark的UDF jar包迁移至Doris使用。

  • 安全:Java UDF 执行失败或崩溃仅会导致JVM报错,而不会导致 Doris 进程崩溃。

  • 灵活:Java UDF 中用户通过把第三方依赖打进用户jar包,而不需要额外处理引入的三方库。

  1. 使用限制

  • 性能:相比于 Native UDF,Java UDF会带来额外的JNI开销,不过通过批式执行的方式,我们已经尽可能的将JNI开销降到最低。

  • 向量化引擎:Java UDF当前只支持向量化引擎。

doris 提供

  • UDF:用户自定义函数,user defined function。一对一的输入输出,(最常用的)。

  • UDAF:用户自定义聚合函数。user defined aggregate function,多对一的输入输出,类似 count sum max 等统计函数

怎么实现 Doris Java UDF函数

下面我们来开始讲解怎么编写和使用 doris java udf函数。

Doris java udf 函数是基于 Hive udf 框架来实现的

  1. 继承org.apache.hadoop.hive.ql.exec.UDF

  1. 重写evaluate(),

特殊说明:

evaluate()方法不是由接口定义的,因为它可接受的参数个数,数据类型都是不确定的。Doris 会检查UDF, 看能否找到和函数调用相匹配的evaluate()方法

这里演示的是我们怎么实现一个 AES 加解密的函数

函数开发

我们创建一个普通的java maven 工程

pom.xml依赖如下:

<project xmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
 xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
 <modelVersion>4.0.0</modelVersion>

 <groupId>org.apache.doris</groupId>
 <artifactId>doris.java.udf.demo</artifactId>
 <version>1.0-SNAPSHOT</version>
 <packaging>jar</packaging>

 <name>doris.java.udf.demo</name>
 <url>http://maven.apache.org</url>

 <properties>
   <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
 </properties>

 <dependencies>
   <dependency>
     <groupId>org.apache.hive</groupId>
     <artifactId>hive-exec</artifactId>
     <version>2.3.5</version>
   </dependency>
 </dependencies>

 <build>
   <finalName>java-udf-demo</finalName>
   <plugins>
     <plugin>
       <groupId>org.apache.maven.plugins</groupId>
       <artifactId>maven-jar-plugin</artifactId>
       <version>3.2.2</version>
     </plugin>
     <plugin>
       <groupId>org.apache.maven.plugins</groupId>
       <artifactId>maven-assembly-plugin</artifactId>
       <version>3.3.0</version>
       <configuration>
         <descriptorRefs>
           <descriptorRef>jar-with-dependencies</descriptorRef>
         </descriptorRefs>
       </configuration>
       <executions>
         <execution>
           <phase>package</phase>
           <goals>
             <goal>single</goal>
           </goals>
         </execution>
       </executions>
     </plugin>
     <plugin>
       <groupId>org.apache.maven.plugins</groupId>
       <artifactId>maven-compiler-plugin</artifactId>
       <configuration>
         <source>8</source>
         <target>8</target>
       </configuration>
     </plugin>
   </plugins>
 </build>
</project>

加解密工具类:

package org.apache.doris.udf.demo;

import javax.crypto.*;
import javax.crypto.spec.SecretKeySpec;

import org.apache.commons.lang3.StringUtils;

import java.security.SecureRandom;


/**
* AES encryption and decryption tool class
*
* @author zhangfeng
*/
public class AESUtil {
   private static final String defaultCharset = "UTF-8";
   private static final String KEY_AES = "AES";

   /**
    * AES encryption function method
    *
    * @param content
    * @param secret
    * @return
    */
   public static String encrypt(String content, String secret) {
       return doAES(content, secret, Cipher.ENCRYPT_MODE);
  }

   /**
    * AES decryption function method
    *
    * @param content
    * @param secret
    * @return
    */
   public static String decrypt(String content, String secret) {
       return doAES(content, secret, Cipher.DECRYPT_MODE);
  }

   /**
    * encryption and decryption
    *
    * @param content
    * @param secret
    * @param mode
    * @return
    */
   private static String doAES(String content, String secret, int mode) {
       try {
           if (StringUtils.isBlank(content) || StringUtils.isBlank(secret)) {
               return null;
          }
           //Determine whether to encrypt or decrypt
           boolean encrypt = mode == Cipher.ENCRYPT_MODE;
           byte[] data;

           //1.Construct a key generator, specified as the AES algorithm, case-insensitive
           KeyGenerator kgen = KeyGenerator.getInstance(KEY_AES);
           SecureRandom secureRandom = SecureRandom.getInstance("SHA1PRNG");
           //2. Initialize the key generator according to the ecnodeRules rules
           //Generate a 128-bit random source, based on the incoming byte array
           secureRandom.setSeed(secret.getBytes());
           //Generate a 128-bit random source, based on the incoming byte array
           kgen.init(128, secureRandom);
           //3.generate the original symmetric key
           SecretKey secretKey = kgen.generateKey();
           //4.Get the byte array of the original symmetric key
           byte[] enCodeFormat = secretKey.getEncoded();
           //5.Generate AES key from byte array
           SecretKeySpec keySpec = new SecretKeySpec(enCodeFormat, KEY_AES);
           //6.According to the specified algorithm AES self-generated cipher
           Cipher cipher = Cipher.getInstance(KEY_AES);
           //7.Initialize the cipher, the first parameter is encryption (Encrypt_mode) or decryption (Decrypt_mode) operation,
           // the second parameter is the KEY used
           cipher.init(mode, keySpec);

           if (encrypt) {
               data = content.getBytes(defaultCharset);
          } else {
               data = parseHexStr2Byte(content);
          }
           byte[] result = cipher.doFinal(data);
           if (encrypt) {
               //convert binary to hexadecimal
               return parseByte2HexStr(result);
          } else {
               return new String(result, defaultCharset);
          }
      } catch (Exception e) {
           System.out.println(e.getMessage());
      }
       return null;
  }

   /**
    * convert binary to hexadecimal
    *
    * @param buf
    * @return
    */
   public static String parseByte2HexStr(byte buf[]) {
       StringBuilder sb = new StringBuilder();
       for (int i = 0; i < buf.length; i++) {
           String hex = Integer.toHexString(buf[i] & 0xFF);
           if (hex.length() == 1) {
               hex = '0' + hex;
          }
           sb.append(hex.toUpperCase());
      }
       return sb.toString();
  }

   /**
    * Convert hexadecimal to binary
    *
    * @param hexStr
    * @return
    */
   public static byte[] parseHexStr2Byte(String hexStr) {
       if (hexStr.length() < 1) {
           return null;
      }
       byte[] result = new byte[hexStr.length() / 2];
       for (int i = 0; i < hexStr.length() / 2; i++) {
           int high = Integer.parseInt(hexStr.substring(i * 2, i * 2 + 1), 16);
           int low = Integer.parseInt(hexStr.substring(i * 2 + 1, i * 2 + 2), 16);
           result[i] = (byte) (high * 16 + low);
      }
       return result;
  }

}

加密函数

package org.apache.doris.udf.demo;

import org.apache.hadoop.hive.ql.exec.UDF;
import org.apache.commons.lang3.StringUtils;

public class AESEncrypt extends UDF {

   public String evaluate(String content, String secret) throws Exception {
       if (StringUtils.isBlank(content)) {
           throw new Exception("content not is null");
      }
       if (StringUtils.isBlank(secret)) {
           throw new Exception("Secret not is null");
      }
       return AESUtil.encrypt(content, secret);
  }
}

解密函数

package org.apache.doris.udf.demo;

import org.apache.hadoop.hive.ql.exec.UDF;
import org.apache.commons.lang3.StringUtils;

public class AESDecrypt extends UDF {

   public String evaluate(String content, String secret) throws Exception {
       if (StringUtils.isBlank(content)) {
           throw new Exception("content not is null");
      }
       if (StringUtils.isBlank(secret)) {
           throw new Exception("Secret not is null");
      }
       return AESUtil.decrypt(content, secret);
  }

}

函数打包

mvn clean package

这个时候我们可以得到一个 java-udf-demo.jar

注册函数

注册加密函数

这里有两个参数,一个是加密内容,一个是秘钥,返回值是一个字符串

CREATE FUNCTION ase_encryp(string,string) RETURNS string PROPERTIES (
   "file"="file:///Users/zhangfeng/work/doris.java.udf.demo/target/java-udf-demo.jar",
   "symbol"="org.apache.doris.udf.demo.AESEncrypt",
   "always_nullable"="true",
   "type"="JAVA_UDF"
);

注意:

  1. 这里我是单机测试,使用的是本地文件方式,如果你也是要本地文件方式需要再所有的 FE 及 BE 上相同目录下都要有这个文件

  2. 我们也可以使用http方式,让每个节点自己下载这个文件,我们更推荐这种方式,下面也给出这种方式的示例

Http 方式示例:

CREATE FUNCTION ase_encryp(string,string) RETURNS string PROPERTIES (
   "file"="http://192.168.31.54/work/doris.java.udf.demo/target/java-udf-demo.jar",
   "symbol"="org.apache.doris.udf.demo.AESEncrypt",
   "always_nullable"="true",
   "type"="JAVA_UDF"
);

然后我们执行我们刚才创建的函数

要加密的内容是:zhangfeng,秘钥是: java_udf_function

select ase_encryp('zhangfeng','java_udf_function');

从下图可以看到我们得到了加密后的结果

注册解密函数

CREATE FUNCTION ase_decryp(string,string) RETURNS string PROPERTIES (
  "file"="file:///Users/zhangfeng/work/doris.java.udf.demo/target/java-udf-demo.jar",
  "symbol"="org.apache.doris.udf.demo.AESDecrypt",
  "always_nullable"="true",
  "type"="JAVA_UDF"
);

http方式:

CREATE FUNCTION ase_decryp(string,string) RETURNS string PROPERTIES (
  "file"="http://192.168.63.32/work/doris.java.udf.demo/target/java-udf-demo.jar",
  "symbol"="org.apache.doris.udf.demo.AESDecrypt",
  "always_nullable"="true",
  "type"="JAVA_UDF"
);

验证函数

我们对上面解密的结果进行解密操作

select ase_decryp('4442106BB8C98E74D19CEC0413467810','java_udf_function');

可以看到我们得到了正确的解密结果

总结

这样看来 Doris Java UDF 函数是不是非常简单呢,可以大大加速我们业务的开发,降低业务系统开发复杂度,而且使用大家都非常熟悉的Java 语言来开发UDF,基本每个会Java 语言的人都可以非常轻松的完成,避免的学习和开发 C++ UDF函数的难度,还不赶快行动起来。


最后来个我们公司广告

如果您对 Doris 有商业化需求,请将您的需求告诉我们,SelectDB 专业人员将为您进行 「1对1 专属服务」。同时,您还可以获得 SelectDB 商业产品「免费使用」体验。

扫描下方二维码,开启您的 SelectDB 云上之旅

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/82542.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【扫盲】Getting into project of R

⭐️ what is an r project include in r studio? An R project in RStudio is a self-contained directory that contains all the files and resources associated with a specific R project. This includes the R code files, data files, output files, and any additio…

虹科案例 | 虹科Panarama SCADA平台在风电场测量的应用,实现风电场的高效管理!

虹科Panorama SCADA平台 在风电场测量的应用 虹科方案 01应用背景 随着煤碳、石油等能源的逐渐枯竭&#xff0c;人类越来越重视可再生能源的利用。风能作为一种清洁的可再生能源日益受到世界各国的重视。中国风能储量大&#xff0c;分布面广&#xff0c;仅陆地上的风能储量就…

go基础第二遍学习——简单易理解

此博文是猿猿对go基础的二遍学习&#xff0c;这一遍学习中对go基础有了进一步的理解&#xff0c;笔记齐全&#xff0c;下面跟着猿猿一起学习吧。 文章目录零、知识补充一、包引入三种方式二、go变量和基本数据类型2.1.基本数据类型2.1.1.整数类型2.1.2.浮点类型2.1.3.字符串类型…

VTK-vtkFieldData

欢迎大家加入社区&#xff0c;雪易VTK社区-CSDN社区云 前言&#xff1a;为区分vtkPoints和vtkPointData的区别&#xff0c;了解vtkFieldData在VTK中的存在意义&#xff0c;从而系统的掌握vtk中关于数据的表达方式。 vtk中通过vtkDataArray进行数据的存储&#xff0c;通过vtkD…

艾美捷内皮细胞生长添加剂参数说明和相关研究

内皮细胞生长因子&#xff08;ECGF&#xff09;或内皮细胞生长补充物&#xff08;ECGS&#xff09;是一个术语&#xff0c;也用于含有促进内皮细胞生长和维持活性的牛&#xff08;或猪&#xff09;脑提取物&#xff08;T.Maciag&#xff0c;1972和1982&#xff09;。在早期&…

SQL语法CREATE_大数据培训

1 CREATE 1.1 CREATE DATABASE 用于创建指定名称的数据库&#xff0c;语法如下&#xff1a; CREATE DATABASE [IF NOT EXISTS] db_name 如果查询中存在IF NOT EXISTS&#xff0c;则当数据库已经存在时&#xff0c;该查询不会返回任何错误。 create database test; Ok. 0 …

【虚幻引擎】UE4/UE5Map、Set、 Array的用法

一、Array Array:数组是一个内存空间连续&#xff0c;可以存储多个相同类型的有序的元序列集合。 每一个索引值对应一个Value值&#xff0c;比如0号索引值对应A&#xff0c;值可以是任意类型的变量 用法&#xff1a; 节点 描述 Add 取入一个数组和一个变量。它将该变量插入…

014. 解数独

1.题目链接&#xff1a; 37. 解数独 2.解题思路&#xff1a; 2.1.题目要求&#xff1a; 暂时的理解就是&#xff0c;编写一个程序然后自动填完数独&#xff0c;填完返回&#xff08;不用求解各种不同的数独组合&#xff09; 填的时候&#xff0c;数字要满足的规则&#xff1…

198.打家劫舍,213.打家劫舍II ,337.打家劫舍III

198. 打家劫舍 你是一个专业的小偷&#xff0c;计划偷窃沿街的房屋。每间房内都藏有一定的现金&#xff0c;影响你偷窃的唯一制约因素就是相邻的房屋装有相互连通的防盗系统&#xff0c;如果两间相邻的房屋在同一晚上被小偷闯入&#xff0c;系统会自动报警。 给定一个代表每个…

项目管理中的WBS

项目管理中的WBS(工作分解结构) 在项目管理中&#xff0c;我们必然会用到一个工具WBS(工作分解结构)&#xff0c;在PMP的课程中&#xff0c;也作为了一个重要的考察对象。 一. WBS的定义 工作分解结构&#xff08;Work Breakdown Structure&#xff09;&#xff1a;以可交付成…

什么是网络分析仪噪声参数?

噪声参数在被测器件的输入端口和测试仪器内置噪声接收机的输入端口上都会产生影响。要想了解为什么噪声参数会给测量结果带来误差&#xff0c;我们首先需要了解什么是噪声参数。放大器的噪声参数描述了噪声系数随着源阻抗Γs而变化的情况。在史密斯圆图上&#xff0c;噪声参数通…

长盈通在科创板上市:研发费用率低于行业均值,皮亚斌为实控人

12月12日&#xff0c;武汉长盈通光电技术股份有限公司&#xff08;下称“长盈通”&#xff0c;SH:688143&#xff09;在上海证券交易所科创板上市。本次上市&#xff0c;长盈通的发行价为35.67元/股&#xff0c;发行市盈率48.61倍&#xff0c;而该公司所属行业最近一个月静态平…

QTabBar进阶用法:修改标题宽度,使标题宽度自适应窗体宽度,close图标大小设置,close图标修改,文字对齐方式修改

这是一个没有处理过的QTabWidget, 在功能上已经满足使用了&#xff0c;但是有时会有一些外观上特殊的需求&#xff0c;需要对它进行修改。 1. 更改标签的长度。 可以用样式表改&#xff1a; setStyleSheet("QTabBar::tab{height:50;width:200}");"QTabBar::t…

GitLab安装与卸载

一、安装Postfix以发送通知邮件 安装命令&#xff1a;sudo yum install postfix 将postfix服务设置成开机自启动&#xff0c;安装命令&#xff1a;sudo systemctl enable postfix 启动postfix&#xff0c;安装命令&#xff1a;sudo systemctl start postfix 二、安装gitlab …

【数据结构】栈定义及其常用的基本操作(C/C++)

目录 ●图示&#xff08;以顺序栈为例&#xff09; ●栈的类型定义 ●栈常用的基本操作 ●顺序栈 ●链式栈 ●简单案例 1.顺序栈&#xff08;这里只实现用顺序表存储3个学生的学号、姓名、年龄并且将其输出查看。若进行其他操作&#xff0c;对代码进行简单修改即可&…

Read IDS scan文件

IDS 雷达的文件格式比原来的。dt格式文件复杂&#xff0c;由于数据来自检测单位&#xff0c;对文件的理解并不到位。 采集的数据如下&#xff1a; 产生的文件很多&#xff0c;比如这次有2个采集 Data内部的文件 很多文件并没有理解到 3 文件说明 3.1 pos 结尾是 但距离与最后…

Mysql高频面试题(二)

文章目录1. 平衡二叉树、红黑树、Hash结构、B树和B树的区别是什么&#xff1f;2. 一个B树中大概能存放多少条索引记录&#xff1f;3. 使用B树存储的索引crud执行效率如何&#xff1f;4. 什么是自适应哈希索引&#xff1f;5. 什么是2-3树 2-3-4树&#xff1f;6. 为什么官方建议使…

边界安全防护方案

汽车制造业 MES系统 DNC系统 生产 安全域1 管理层 工控安全隔离装置 交换机 安全配置核查系统 HMI 历史数据库 运行监控系统 实时数据库 打印机 过程 安全域2 监控层 工控漏洞扫描系统 安全交换机 工控安全审计系统 工控入侵检测系统工程师站 A 操作员站 A 实时数据库A 操作员…

测试员做外包能转正吗?外包员工能变正式员工吗?

外包员工能变正式员工吗&#xff1f;这里辟谣一波&#xff0c;许多外包都说有转正机会。实际情况是几乎等于零。其中&#xff0c;三方外包更是可以直接和零划等号。三方外包的转正&#xff0c;往往就是给个内推机会&#xff0c;然后和面试官会熟悉一些。 然而这些都没什么价值…

简述基于JavaEE企业级开发技术(Spring)

一、绪论 1、学习内容 javaEE企业开发技术概述javaEE容器——SpringORM数据层——MyBatis/JPAWeb层——Spring MVC展现层——JSP/Thymeleaf整合框架——SSM/SSH用户模块分析用户模块功能模块设计 前端框架&#xff1a;Bootstrap&#xff0c;NodeJS&#xff0c;Vue/React/Ang…