【数据集划分】oracle数据集划分(总结版)

news2024/11/23 4:23:45

【数据集划分】假如你有接近百万条oracle数据库数据(成真版)

  • 写在最前面
  • 最终代码
  • 原理:生成随机索引并打乱顺序
    • 示例
    • 作用
    • 应用场景
  • 遇到报错:ORA-01795,通过CTE(Common Table Expressions)和窗口函数解决


请添加图片描述

🌈你好呀!我是 是Yu欸
🌌 2024每日百字篆刻时光,感谢你的陪伴与支持 ~
🚀 欢迎一起踏上探险之旅,挖掘无限可能,共同成长!

写在最前面

前文:【数据集划分】假如你有超百万条oracle数据库数据(成真版)
大模型,何所谓大?先从大数据开始。

假如你有超百万条oracle数据库数据,那么一直使用的代码:train_df, temp_df = train_test_split(df, test_size=0.3, random_state=42),很可能1h还没划分完数据。

最终解决方案:生成一列随机数,然后随机打乱。取前70%的样本划分为训练集,70%到90%之间的样本划分为测试集,剩余的样本划分为验证集。

在这里插入图片描述

最终代码

  1. 连接Oracle数据库:使用jaydebeapi连接Oracle数据库,确保提供正确的JDBC驱动路径和数据库连接信息。
  2. 添加新列:在deal_ct_report表中添加一个新列dataset来保存数据集标签。如果列已经存在,会捕捉到异常并继续执行后续操作。
  3. 获取总行数:查询表的总行数,用于生成随机索引。
  4. 生成随机索引并打乱顺序:生成从1到总行数的索引列表,并打乱顺序。
  5. 计算各数据集的分界点:计算训练集、测试集和验证集的分界点。
  6. 创建临时表:将原表的rowidROWNUM保存到临时表中。
  7. 更新数据集标签列:使用CTE和窗口函数一次性更新所有记录,避免分批次更新的效率问题。
    • 使用dbms_random.value生成随机数进行排序。
    • 使用ROW_NUMBER()窗口函数为每条记录分配一个随机序号。
    • 根据随机序号进行数据集划分并更新dataset列。
  8. 删除临时表:删除临时表以清理临时数据。
  9. 提交事务:将所有更改提交到数据库。
  10. 关闭连接:关闭数据库连接。

通过将参数直接插入到SQL语句中,避免了参数传递中的问题。这种方法可以高效地实现数据集的随机划分和更新操作。

import jaydebeapi
import random

# 连接Oracle数据库
conn = jaydebeapi.connect(
    'oracle.jdbc.driver.OracleDriver',
    'jdbc:oracle:thin:@hostname:port:service_name',
    ['username', 'password'],
    'path/to/ojdbc8.jar'
)
cursor = conn.cursor()

# 添加新列dataset
try:
    cursor.execute("ALTER TABLE deal_ct_report ADD dataset VARCHAR2(10)")
except jaydebeapi.DatabaseError as e:
    print("Column 'dataset' may already exist. Proceeding with data split...")

# 获取表的行数
cursor.execute("SELECT COUNT(*) FROM deal_ct_report")
total_rows = cursor.fetchone()[0]

# 生成随机索引并打乱顺序
indices = list(range(1, total_rows + 1))
random.shuffle(indices)

# 计算各数据集的分界点
train_limit = int(0.7 * total_rows)
test_limit = int(0.9 * total_rows)

# 创建一个临时表来存储带有索引的数据
cursor.execute("CREATE TABLE deal_ct_report_temp AS SELECT rowid AS rid, ROWNUM AS rnum FROM deal_ct_report")

# 更新数据集标签列
update_sql = f"""
    MERGE INTO deal_ct_report d
    USING (
        WITH temp_data AS (
            SELECT rid, rnum,
                   CASE
                       WHEN rnum <= {train_limit} THEN 'train'
                       WHEN rnum <= {test_limit} THEN 'test'
                       ELSE 'validate'
                   END AS dataset
            FROM (
                SELECT rid, ROW_NUMBER() OVER (ORDER BY dbms_random.value) AS rnum
                FROM deal_ct_report_temp
            )
        )
        SELECT rid, dataset
        FROM temp_data
    ) t
    ON (d.rowid = t.rid)
    WHEN MATCHED THEN
    UPDATE SET d.dataset = t.dataset
"""

cursor.execute(update_sql)

# 删除临时表
cursor.execute("DROP TABLE deal_ct_report_temp")

# 提交事务
conn.commit()

# 关闭数据库连接
cursor.close()
conn.close()

原理:生成随机索引并打乱顺序

生成随机索引并打乱顺序的原理是将数据集进行随机化处理,以确保数据集的随机划分,使训练集、测试集和验证集的样本分布尽可能地均匀和独立。这种方法有助于消除因数据顺序带来的偏差,从而使模型训练和评估更加准确。

具体步骤如下:

  1. 生成索引列表:创建一个从1到总行数的索引列表,这些索引表示数据集中每一条记录的序号。
  2. 打乱索引顺序:使用random.shuffle函数将索引列表随机打乱。这样可以确保索引的顺序是随机的,而不是按原始顺序排列。

示例

假设数据集中有10条记录,生成的索引列表为:[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]。打乱后可能变为:[3, 8, 1, 6, 7, 2, 5, 9, 4, 10]。

import random

# 获取表的行数
total_rows = 10  # 这里假设总行数为10

# 生成索引列表
indices = list(range(1, total_rows + 1))

# 打乱索引顺序
random.shuffle(indices)

print(indices)

打乱后的索引列表是随机的。例如,输出可能是:[7, 2, 9, 1, 5, 3, 10, 6, 4, 8]。

作用

  1. 随机化数据顺序:确保数据集的样本顺序是随机的,这样可以防止某些样本因顺序而集中在同一个子集。
  2. 均匀分布:在随后的数据集划分中(如7:2:1),可以保证训练集、测试集和验证集中的样本更加均匀和独立。
  3. 减少偏差:通过随机化处理,可以减少因数据顺序带来的潜在偏差,从而提高模型的泛化能力。

应用场景

这种方法特别适用于需要将大数据集随机划分为多个子集的场景,如机器学习中的数据集划分(训练集、测试集、验证集)。在这种情况下,确保每个子集的样本分布尽可能均匀和独立是至关重要的。

通过这种方式,可以在后续的模型训练和评估过程中,尽量避免因数据顺序或分布不均而导致的模型偏差,从而提高模型的性能和可靠性。

遇到报错:ORA-01795,通过CTE(Common Table Expressions)和窗口函数解决

DatabaseError: java.sql.SQLException: ORA-01795: maximum number of expressions in a list is 1000

ORA-01795错误表示Oracle数据库限制了在IN子句中最多只能包含1000个表达式。

为了克服这一限制,我们可以:

  1. (还是很慢,pass)将大的更新分成多个批次,每个批次最多包含1000个表达式。
  2. 可以使用CTE(Common Table Expressions)和窗口函数来一次性更新所有记录,而不是分批次更新。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1794628.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

springcloud Feign调用拦截器(统一处理拷贝请求头实现透传信息、内部调用鉴权、打印feign调用)

springcloud Feign调用拦截器&#xff08;统一处理拷贝请求头实现透传信息、内部调用鉴权、打印feign调用日志&#xff09; 实现接口Feign.RequestInterceptor 实现接口 feign.RequestInterceptor 并注入到IOC容器即可生效 示范代码如下 拷贝请求头&#xff0c;将原请求信…

系统安全及其应用

系统安全&#xff1a; 1&#xff09;保护数据安全&#xff0c; 2&#xff09;互联网&#xff0c;网络业务服务等&#xff0c;必须要通过工信部的资质审核 3&#xff09;保护品牌形象 应用&#xff1a; 账号安全 1&#xff09;把不需要或者不想登录的用户设置为nologin us…

C++ 11 【可变参数模板】【lambda】

&#x1f493;博主CSDN主页:麻辣韭菜&#x1f493;   ⏩专栏分类&#xff1a;C修炼之路⏪   &#x1f69a;代码仓库:C高阶&#x1f69a;   &#x1f339;关注我&#x1faf5;带你学习更多C知识   &#x1f51d;&#x1f51d; 目录 前言 一、新的类功能 1.1默认成员函数—…

龙迅#LT8711H支持TYPE-C/DP/EDP转HDMI功能应用,分辨率支持 1080p@60Hz,芯片内置固件!

1. 概述 LT8711H是一款高性能 Type-C/DP1.2/EDP 转 HD-DVI1.3 转换器&#xff0c;设计用于将 USB Type-C 源或 DP1.2 源连接到 HD-DVI1.3 接收器。 该LT8711H集成了符合 DP1.2 标准的接收器和符合 HD-DVI1.3 标准的发射器。此外&#xff0c;还包括两个用于 CC 通信的 CC 控制器…

如何去掉IDEA中烦人的警告波浪线

有时候想去掉idea中那些黄色的红色的warning波浪线&#xff0c;这些不是错误&#xff0c;并不影响执行&#xff0c;一直显示显得让人很烦躁&#xff0c;去"Editor" -> "Inspections"中一个个设置很麻烦。 可以通过设置代码检测级别来降低代码检查的严格…

26-unittest之装饰器(@classmethod)

unittest中的setUp可以在每个测试方法运行前执行&#xff0c;有效的减少了代码量。但有个弊端&#xff0c;比如打开浏览器操作&#xff0c;执行每个测试方法前都要重新打开一次&#xff0c;这样就会浪费很多时间。 是否可以只打开一次浏览器&#xff0c;执行完所有的测试方法后…

星火秘境游戏开发链游app定制开发源码部署

星火秘境是一款神秘而充满冒险的游戏&#xff0c;开发这样一款游戏需要综合考虑多个方面&#xff0c;包括游戏设计、美术设计、程序开发、音效制作等。下面我将简要介绍一下游戏开发和链游app搭建的一般流程&#xff1a; 游戏设计&#xff1a; 确定游戏类型&#xff1a;星火秘…

集团性企业数字化建设与经营管理解决方案

一、集团企业经营管理存在的问题 大型集团企业在内部财务经营管理过程中普遍存在五个方面的脱节问题。 1、战略与执行脱节&#xff1a;战略与执行“两张皮”&#xff0c;80%的企业管理者表示&#xff0c;战略执行过程中缺乏监督管理的系统或平台&#xff0c;造成执行结果大打…

手机怎么压缩视频?归纳了三种快速压缩方案

手机怎么压缩视频&#xff1f;在数字时代&#xff0c;手机已经成为我们记录生活的重要工具&#xff0c;而视频作为其中的一种主要形式&#xff0c;更是占据了极大的存储空间。然而&#xff0c;随着手机拍摄的视频越来越多&#xff0c;如何高效压缩视频以节省存储空间&#xff0…

什么无线领夹麦克风音质最好?领夹麦克风品牌排行榜前十名推荐

​在当今的数字化浪潮中&#xff0c;个人声音的传播和记录变得尤为重要。无论是会议中心、教室讲台还是户外探险&#xff0c;无线领夹麦克风以其卓越的便携性和连接稳定性&#xff0c;成为了人们沟通和表达的首选工具。面对市场上琳琅满目的无线麦克风选择&#xff0c;为了帮助…

OpenCV引入QT编译

OpenCV引入QT编译 为什么要引入QT编译编译方式 Reference: OpenCV 配置选项参考文档 网上实在找不到对应教程&#xff0c;在此做个记录。 为什么要引入QT编译 在没引入QT前&#xff0c;没有上述工具栏。 可以显示当前像素位置的像素值。 可以缩放查看每一个像素的大小。这对…

win10系统下WPS工具显示灰色全部用不了,提示登录

如果你在写文档或使用excel时发现导航栏的工具全部使用不了&#xff0c;弹出是需要您登录&#xff0c;可以通过以下操作不用登录。 按照 1&#xff08;搜索框&#xff09;—> 2&#xff08;应用&#xff09;—> 3&#xff08;WPS Office&#xff09;点鼠标左键—> 4&a…

巧用docker+jmeter快速实现分布式百万级并发

分享背景 碰到的问题&#xff1a; 一个JMeter实例可能无法产生足够的负载来对你的应用程序进行压力测试&#xff5e; 解决办法&#xff1a; 1、修改jmeter配置文件里的内存堆 2、引入jmeter分布式压测 带来的问题&#xff1a; 如果我们要做分布式负载测试–我们需要1个…

二叉树的顺序结构(堆的实现)

前言 普通的二叉树是不适合用数组来存储的&#xff0c;因为可能会存在大量的空间浪费。而完全二叉树更适合使用顺序结 构存储。 现实中我们通常把堆 ( 一种二叉树 ) 使用顺序结构的数组来存储&#xff0c;需要注意的是这里的堆和操作系统 虚拟进程地址空间中的堆是两回事&…

Unity3D获得服务器时间/网络时间/后端时间/ServerTime,适合单机游戏使用

说明 一些游戏开发者在做单机游戏功能时&#xff08;例如&#xff1a;每日奖励、签到等&#xff09;&#xff0c;可能会需要获得服务端标准时间&#xff0c;用于游戏功能的逻辑处理。 问题分析 1、自己如果有服务器&#xff1a;自定义一个后端API&#xff0c;客户端按需请求…

性能狂飙:SpringBoot应用优化实战手册

在数字时代&#xff0c;速度就是生命&#xff0c;性能就是王道&#xff01;《极速启航&#xff1a;SpringBoot性能优化的秘籍》带你深入SpringBoot的内核&#xff0c;探索如何打造一个飞速响应、高效稳定的应用。从基础的代码优化到高级的数据库连接池配置&#xff0c;再到前端…

怎么用PHP语言实现远程控制两路照明开关

怎么用PHP语言实现远程控制两路开关呢&#xff1f; 本文描述了使用PHP语言调用HTTP接口&#xff0c;实现控制两路开关&#xff0c;两路开关可控制两路照明、排风扇等电器。 可选用产品&#xff1a;可根据实际场景需求&#xff0c;选择对应的规格 序号设备名称厂商1智能WiFi墙…

WPF国际化的最佳实践

WPF国际化的最佳实践 1.创建项目资源文件 如果你的项目没有Properties文件夹和Resources.resx文件&#xff0c;可以通过右键项目-资源-常规-添加创建或打开程序集资源 2.添加国际化字符串 打开Resources.resx文件&#xff0c;添加需要翻译的文本字符&#xff0c;并将访问修…

Go 1.19.4 切片与子切片-Day 05

1. 切片 1.1 介绍 切片在Go中是一个引用类型&#xff0c;它包含三个组成部分&#xff1a;指向底层数组的指针&#xff08;pointer&#xff09;、切片的长度&#xff08;length&#xff09;以及切片的容量&#xff08;capacity&#xff09;&#xff0c;这些信息共同构成了切片的…

el-input添加clearable属性 输入内容时会直接撑开

<el-inputclearablev-if"item.type number || item.type text":type"item.type":placeholder"item.placeholder":prefix-icon"item.icon || "v-model.trim"searchform[item.prop]"></el-input>解决方案 添加c…