Doris部分列更新在广告行业应用

news2025/2/25 6:01:56

背景:业务需要在不同的时间点对同一个session_id上的广告行为(展示、点击、转换等)数据的更新。
基于HBase归因

  • 更新原理:以session_id为Key在HBase中写入数据,数据更新是先点查到历史数据,补齐当前数据后再次写入。
  • 方案优点:数据入库和更新快,支持高效点查
  • 方案缺点:
    1.不支持数据分析和报表统计;
    2. 不支持联邦查询;
    3. HBase社区发展不活跃;
    4. 每次要读取数据然后写入,IO压力大

基于Doris的更新

  • 更新原因:使用Doris部分列(imp、click、conv)更新能力实现广告上行为数据的更新
  • 方案优点:
    1.更新能力强:基于MVCC机制,数据更新其实是个append写入的过程,因此更新能力和写入能力基本匹配)。
    在这里插入图片描述

对于大数据架构来说。高并发的写入并不难,难点在于高并发的更新。如何在上亿数据中快速找到要更新的数据并对数据进行更新一直是大数据领域比较难处理的问题。在这个问题上Doris通过MVCC多版本并发控制的机制来实现。
特别的在unique模型中,当我们写入一个数据时,如果数据在库中不存在则会写入一个版本数据,当我们再次对该数据进行更新时会直接再写入一个版本,此时数据的变更(新增、修改、删除)在Doris中以多版本的形式存在。用户查询的时Doris会将最新的版本对应的数据返回给用户,并在Compaction时对历史变更数据进行清理。这种设计很好的解决了海量数据更新难问题。
接下来我们通过一个例子看下:

  1. 首先我们执行insert 写入3条的订单数据,此时Doris数据中不但包含了原始数据,还包含SEQUENCE列(DORIS_SEQUENCE_COL)和删除标记(DORIS_DELETE_SIGN)。SEQUENCE列用于支持在高并发更新时数据更新的顺序性问题,删除标记用于对删除的数据进行记录。
  2. 当我们将订单1的cost修改为30的时候,数据通过Append的形式以新的版本写入Doris。
  3. 当我们对订单2的数据进行删除时,数据仍然通过Append的形式以新的版本写入Doris,只不过此处写入的数
    DELETE_SIGN字段变为1了,表示该条数据被删除了,当Doris读取数据的时候发现最新版本的数据被标记删除了,则会将该数据从查询结果中过滤。

2.支持ad-hoc多维分析和报表查询
3.支持灵活数据导出
4.基于Doris更新后的数据可以构建数据仓库服务
5.支持联邦查询和湖仓加速

使用Doris部分列更新功能实在广告行业的展示、点击、转换等数据的更新实战如下:

  1. 创建表
CREATE TABLE IF NOT EXISTS request_log
(
    `session_id` LARGEINT NOT NULL COMMENT "id",

    `imp_time` DATE REPLACE_IF_NOT_NULL COMMENT "展示",
    `imp_data` VARCHAR(20)  REPLACE_IF_NOT_NULL COMMENT "",

    `click_time` DATE REPLACE_IF_NOT_NULL COMMENT "点击",
    `click_data` VARCHAR(20)  REPLACE_IF_NOT_NULL COMMENT "",

    `conv_time` DATE REPLACE_IF_NOT_NULL COMMENT "转化",
    `conv_data` VARCHAR(20)  REPLACE_IF_NOT_NULL COMMENT ""
)
AGGREGATE KEY(`session_id`)
DISTRIBUTED BY HASH(`session_id`) BUCKETS 1
PROPERTIES (
"replication_allocation" = "tag.location.default: 1"
);
  1. 更新展示数据
mysql> insert into request_log(session_id,imp_time,imp_data)VALUES(1,'2022-12-20','imp');
Query OK, 1 row affected (0.05 sec)
{'label':'insert_31a037849e2748f6_9b00b852d106eaaa', 'status':'VISIBLE', 'txnId':'385642'}

mysql> select * from request_log;
+------------+------------+----------+------------+------------+-----------+-----------+
| session_id | imp_time   | imp_data | click_time | click_data | conv_time | conv_data |
+------------+------------+----------+------------+------------+-----------+-----------+
| 1          | 2022-12-20 | imp      | NULL       | NULL       | NULL      | NULL      |
+------------+------------+----------+------------+------------+-----------+-----------+
1 row in set (0.01 sec)
  1. 更新点击数据
ysql> insert into request_log(session_id,click_time,click_data)VALUES(1,'2022-12-21','click');
Query OK, 1 row affected (0.03 sec)
{'label':'insert_2649087d8dc046bd_a39d367af1f93ab0', 'status':'VISIBLE', 'txnId':'385667'}

mysql> select * from request_log;
+------------+------------+----------+------------+------------+-----------+-----------+
| session_id | imp_time   | imp_data | click_time | click_data | conv_time | conv_data |
+------------+------------+----------+------------+------------+-----------+-----------+
| 1          | 2022-12-20 | imp      | 2022-12-21 | click      | NULL      | NULL      |
+------------+------------+----------+------------+------------+-----------+-----------+
1 row in set (0.01 sec)

mysql>
  1. 更新转化数据
mysql> insert into request_log(session_id,conv_time,conv_data)VALUES(1,'2022-12-22','conv');
Query OK, 1 row affected (0.03 sec)
{'label':'insert_dadfa5f0f65e46b8_a6c54259110791ad', 'status':'VISIBLE', 'txnId':'385684'}

mysql> select * from request_log;
+------------+------------+----------+------------+------------+------------+-----------+
| session_id | imp_time   | imp_data | click_time | click_data | conv_time  | conv_data |
+------------+------------+----------+------------+------------+------------+-----------+
| 1          | 2022-12-20 | imp      | 2022-12-21 | click      | 2022-12-22 | conv      |
+------------+------------+----------+------------+------------+------------+-----------+
1 row in set (0.00 sec)


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/118793.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

风已起,待云涌---多维度理解云安全

Fix the Unknown,Before You Know it. 新时代大门开启的时候,蜂拥而上的大都是勇士,风已起,待云涌! 1.云安全: 未来安全的能力将成为计算、存储、网络之外的第四大基础设施,并全部融入到云基础设施中&…

Python爬虫入门 ~ selenium访问元素信息与交互基本使用

访问元素信息 前面我们成功定位到了页面的标签元素,那接下来就该轮到获取元素的信息了,常用的函数有以下几种: get_attributetexttag_name 前置准备 from selenium import webdriver from selenium.webdriver.chrome.service import Service from sel…

【Django项目开发】用户认证功能开发(四)

一、JWT Token配置 1、下载djangorestframework-jwt pip install djangorestframework-jwt2、settings.py指定使用的认证类JSONWebTokenAuthentication REST_FRAMEWORK {# 指定使用的认证类# a、在全局指定默认的认证类(认证方式)DEFAULT_AUTHENTICA…

企业金融App评测系列——微众银行以App构筑企业金融服务新生态,成为企业的随身数字银行

易观分析:近年来,疫情驱动小微企业线上化需求不断提升,经营面临的财力、人力、信息获取的紧迫性进一步提升。为更好发展普惠小微金融的商业银行对公服务,正聚焦更好满足小微企业的数字化需求,加快打造企业手机银行等移…

mybatis xml接收日期格式参数

实现方式一&#xff1a; mapper List<AsLLjgcfVO> selectjgcf(Param("rq")Date rq)mapper.xml <select id"selectjgcf" parameterType"string" resultType"com.bysen.mes.domain.VO.AsLLjgcfVO"> where ${rq} between …

使用openEuler系统 搭建Nginx服务器

文章目录1 Nginx服务器1.1 概述1.2 安装1.3 管理nginx1.3.1 概述1.3.2 前提条件1.3.3 启动服务1.3.4 停止服务1.3.5 重启服务1.3.6 验证服务状态1.4 配置文件说明1.5 管理模块1.5.1 概述1.5.2 加载模块1.6 验证web服务是否搭建成功1 Nginx服务器 1.1 概述 Nginx 是一款轻量级…

【Vue】course_3

13.vue3过渡效果 学习&#xff1a;Vue3过渡效果开发&#xff08;内置组件 、内置组件 &#xff09; Vue 提供了两个内置组件&#xff0c;可以帮助你制作基于状态变化的过渡和动画&#xff1a; <Transition> 会在一个元素或组件进入和离开 DOM 时应用动画。本章节会介绍…

算法设计与分析

目录 7-1 汉诺塔问题 7-2 逆序对 7-3 前t个组合结果 7-4 跳马问题 7-5 加油站之最小加油次数 7-6 删数问题 7-1 因子分解 7-2 英雄出场王 7-3 最佳组队问题 7-4 回文串的切割 7-5 和谐宿舍 7-6 h0221.激光炸弹 7-1 小H分糖果 7-2 子集和问题 7-3 数列游戏 7-4 叠…

CentOS8 Kibana8.x 安装遇到的问题解决

起因 在安装完相同版本的Elasticsearch和Kibana后&#xff0c;Elaticsearch运行成功并可以正常使用&#xff0c;Kibana也正常启动&#xff0c;但是在访问时会出现以下错误及提示&#xff1a; 浏览器访问提示&#xff1a;Kibana server is not ready yet.&#xff08;服务器尚…

Allegro如何设置自动捕捉圆和Via中心操作指导

Allegro如何设置自动捕捉圆和Via中心操作指导 在做PCB设计的时候,时常需要抓取圆或者Via的中心,Allegro支持自动捕捉圆或者via的中心,如下图,需要移动器件自动捕捉到圆或者via的中心 具体操作如下 选择Edit-moveOptions中的Point选择Sym Origin

Python小技巧练习【悄悄学Python惊艳所有人】

文章目录一、反转数字二、类的说明文档三、设置 Python 文件的编码四、旋转字符串五、实现控制台滚动条print 函数直接写入文件合并 2 个列表一、反转数字 问题场景: 把数字 789 转换为 987。 典型的数字翻转问题。 解决思路: 将数字的百位十位个位拆解出来&#xff0c;就解…

VUE3-路由《七》

路由就是点击链接或者按钮&#xff0c;进行跳转另一个界面中。在vue中一般使用vue-router来完成路由的操作。 下面我们进行路由的跳转和嵌套路由的实例操作。 1.首先建立一个正常的运行程序 2. 安装vue-router 使用下面的命令&#xff0c;安装路由 npm install vue-router4…

【技巧】vs2019调试

文章目录一.计算机Bug的由来二.调试1.调试的定义2.调试的基本步骤2.release和debug的区别3.调试的快捷键4.其他功能的快捷键1、窗口快捷键2、项目功能快捷键**3、查找相关快捷键4、代码快捷键5、编辑快捷键5.经典例题6.写代码的好习惯举例&#xff1a;模拟实现strcpy7.const的作…

安装Ubuntu Linux,配套安装宝塔,安装禅道OK!

安装Deepin完成后 进行root、SSH允许远程登陆配置&#xff0c; 登录root账号&#xff0c;初次登录可按照以下步骤&#xff1a; sudo passwd root //修改root密码 输入密码后。 sudo su 输入密码登录root权限。 登录后进行ssh安装与配置。 sudo apt-get update//这一句是…

【JavaScript】——javascript牛客专项练习错题合集

答&#xff1a; var b function(){alert(this.a); }, obj {a:1,b:b // 把函数独立出来 }; var fun obj.b;// 存储的是内存中的地址 fun(); 虽然fun是obj.b的一个引用&#xff0c;但是实际上&#xff0c;它引用的是b函数本身&#xff0c;因此此时的fun()其实 是一个不带任何…

云原生周刊 | 使用 kube-reqsizer 自动调整资源配额

开源项目推荐 kptop Kubernetes API 提供的监控指标非常有限&#xff0c;而 kubectl top 就是利用 Kubernetes API 来查看 Node 和 Pod 的实时资源使用情况。kptop 使用 Prometheus 作为数据源&#xff0c;不仅可以在终端上显示 Node 和 Pod 的资源使用情况&#xff0c;还可以…

vue中v-if和v-for的区别是什么

v-if和v-for的区别&#xff1a;1、作用不同&#xff0c;v-if指令用于条件性地渲染一块内容&#xff0c;这块内容只会在指令的表达式返回 true值的时候被渲染&#xff1b;而v-for指令基于一个数组来渲染一个列表。2、优先级不同&#xff0c;v-for优先级比v-if高&#xff0c;在进…

基于 Flask 的后台管理系统源码(含数据库文件),基于 Flask 生态,权限,快速开发平台

开 箱 即 用 的 Flask 快 速 开 发 平 台完整代码下载地址&#xff1a;基于 Flask 的后台管理系统源码&#xff08;含数据库文件&#xff09; 项目简介 Pear Admin Flask 基于 Flask 的后台管理系统&#xff0c;拥抱应用广泛的python语言&#xff0c;通过使用本系统&#xff0c…

解决OSPF不规则区域的实验

目录 1.拓扑图 2.实验思路 3.主要配置 4.测试 5.实验总结 1.拓扑图 2.实验思路 实验的总体流程为&#xff0c;先让所有设备与公网可以正常通信。在边界路由器配置缺省指向ISP&#xff0c;并且向内部所有设备下放缺省路由&#xff0c;在边界路由器上配置NAT。想让左边部分…

IPv4与IPv6

IPv4 地址 IPv4地址是一个32位数字&#xff0c;通常使用点号分隔的四个十进制八位字节 (取值范围从0到255)表示。 此类地址分为两个部分: 网络部分和主机部分。位于同一子网中的所有主机可以在彼此之间直接通信&#xff0c;无需路由器&#xff0c; 这些主机具有相同的网络部分…