Python 全栈系列242 踩坑记录:租用算力机完成任务

news2024/10/5 20:22:17

说明

记一次用算力机分布式完成任务的坑。

内容

1 背景

很早的时候,做了一个实体识别模型。这个模型可以识别常见的PER、ORG、LOC和TIME几种类型实体。

后来,因为主要只用来做PER、ORG的识别,于是我根据业务数据,重新训练了模型。

再后来,因为在输入和输出端存在问题,于是我做了函数链的封装。输入的问题例如:字符串存在非utf8字符,输出的问题例如主体识别会多一个字,或者过短的实体。总之,函数链封装之后,看起来是一个整体。能适应当时业务的问题。

然后,因为业务上的需求,需要最快速度处理完900万篇文档。

顺带的,我把数据存了clickhouse,计算平均长度是3k。
在这里插入图片描述

2 过程

2.1 nginx反向代理

一开始采用在本地部署nginx反向代理,然后租用算力机启动多个服务来进行分摊。这样只要填写租用算力机的IP:端口就可以横向拓展算力了。

实操时,一方面要不断修改nginx的配置,重启,会浪费很多手工。另外发现,由于租用机的网络会有抖动(总体来说带宽大,但不稳),而当前设计每次处理耗时较长,一旦出错时间就全部浪费了。

2.2 租用机本地服务+任务

租用了算力机,然后把本地文件同步过去。然后在租用的机器上启动3个服务,然后通过脚本均匀分配任务执行。最后将结果回传,写入。

过程中的第一个坑是文件传送。文件整体大小是25G, 按UCS的方式切分数据,只有一个block(0.0.0), 其下有874个brick。在规划上,是启动3台机器,每台机器3个服务,共9条线进行处理。在拷贝时本来是可以通过命令只传送每台机器对应的数据的,但是一时间没有调好命令。时间又比较急,所以用了笨办法,将25G传到每台机器。然后就花了很多手工时间,也花了1个多小时传送数据。

# 命令语句例子
123

rsync -rvltz -e 'ssh -p 46717'  --progress /home/data4T/news_data_1800w_batch2/left root@s9vyc6vwjag1.com:/root/andy/

回传结果

rsync -rvltz -e 'ssh -p 46717'  --progress root@s9vyc6vwjag1.com:/root/andy/right/ /home/data4T/news_data_1800w_batch2/right/

第二个坑就是启动服务,修改服务文件,然后写worker, player这种方式去手动的规划任务了。一方面真的浪费很多手工时间,另一方面也浪费了很多处理时间。原来的设计就是server模式的,这种方式更适合应对持续性的需求,这次任务属于一次性的,其实应该采取worker模式。从显存上看,server模式会一直维持显存,且可能不断增大,所以只能开3个进程。如果是worker模式,那么资源随用随放,我认为开5个worker都没有问题,所以模式的选择错误,又浪费了计算时间。

2.3 其他

还有一些坑。

原来的服务把出具处理和实体识别包在一起了,极大降低了显卡资源利用率。以后应当把资源耗用集中度也作为耦合设计的一个原则(原来只是考虑逻辑复杂性)。

使用文件的方式不可取。一方面是涉及到的手工操作太多,各种文件同步命令,非常浪费时间。最近正好部署了clickhouse,非常适合用于大文件的存取,这也对应了UCS设计中的brick操作,设计可以落地了。

使用数据库,可以规范数据格式。本次在读取pkl文件的时候碰到:ModuleNotFoundError: No module named 'pandas.core.indexes.numeric'错误。大概是因为租用机的pandas、pickle版本的问题。所以后来不得不在本地进行数据的集成,又浪费了很多手工操作。

最后在准备收集数据批量提交时,我稍微修改了一下模式:没有再回收文件到本地,而是存到了clickhouse。然后再按照brick从clickhouse中读取,分块存到postgres。

在存储数据的时候,我倒是又想到了一个问题,就是重复主键。如何避免主键的重复插入?

一种通用的方式是批量的使用主键查询,然后只插入差集。(这些在WMongo都实现了,只是新的库还需要重新适配开发一下)

本次的解决方案是用meta记录brick,按照brick进行批量的增删。

总结

如果再来一次,我会把文件传到一个算力机,然后建一个clickhouse,数据全部写进去。然后将任务写到队列中,按照brick作为基本单位。然后租用更多的算力机,每个算力机上启动n个worker。worker工作时到队列中获取brick,然后根据brick从clickhouse中取数。处理完成后,数据写到结果表。写表前根据brick判断,是否可以插入。

这样的话,估计手工的时间只需要2个小时,整体跑数时间应该短于6小时。

其他:

  • 1 可能会因为连接不稳,而导致处理中断。–不合适把租用机作为稳定的后端服务业源
  • 2 不要只考虑server模式,也要考虑worker模式。 e.g. streamlit --> 前端, tornado --> api, clickhouse,rabbitmq --> worker
  • 3 大量传输数据还是很费时的,传输25个G可能会要1个小时
  • 4 耦合设计:资源集中度、逻辑复杂性
  • 5 使用数据库,非常节约手工操作的时间
  • 6 使用clickhouse的整体感觉还不错
  • 7 不要小气,在执行任务的时候不妨再租一个算力机做中转(带宽大)
  • 8 可能需要使用anaconda搭建虚拟环境(不是所有算力机都允许启动镜像)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1662330.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

一个可以同时使用USB和WIFI传输文件到电脑的软件

双轨快传 结合USB2.0和WIFI6技术,通过1000Mbps网口实现每秒高达150MB的传输速率(理论上可达40MB/s通过USB和110MB/s通过WIFI)。 使用 模式 支持普通模式和Root模式,Root模式可访问~/Android/data/与/data/data/目录下的文件。 …

web安全之登录框渗透骚姿势,新思路

不管漏洞挖掘还是挖SRC,登录框都是重点关注对象,什么漏洞都有可能出现, 本篇文章做个总结,后面发现新思路后会继续更新 万能密码 or 弱口令 SQL注入 水平越权 垂直越权 逻辑漏洞 短信轰炸 邮箱轰炸 信息泄露 验证码DOS XSS万能密…

搭建本地yum仓库

步骤 找个地方存你的rpm包 #我创建了一个rpm文件夹存放我的rpm包 makdir -p /opt/repo/rpmcreaterepo 这个很重要,一定要安装 # 我的能连外网,所以直接yum安装,你的自己想办法 yum install createrepo -y创建repodata 安装了createrepo后…

【SRC-CPP-OpenCV】给图片更换背景色

文章目录 Part.I IntroductionPart.II Main_bodyChap.I 源码简析Chap.II 效果展示 Part.III 源码Reference Part.I Introduction 本文将介绍如何用 OpenCV 更换图片的背景色(附有完整代码)。 Part.II Main_body Chap.I 源码简析 配置部分&#xff1a…

Electron 报错:WinState is not a constructor

文章目录 问题分析 问题 在使用 electron-win-state 库时报错如下 代码如下: const WinState require(electron-win-state) const winState new WinState({ defaultWidth: 800,defaultHeight: 600,// other winState options, see below })const browserWindow…

区块链的跨链交互:从学校间交流看跨链技术

区块链是一种去中心化的分布式账本技术,它通过加密学和共识机制来确保数据的安全性和不可篡改性。每个区块链就像一所独立的学校,有自己的制度、学生和重点专业。它们各自运行,有时在同一领域展开不同的活动。随着区块链技术的不断发展&#…

Java入门基础学习笔记15——强制类型转换

大范围类型的变量是否可以赋值给小范围类型的变量呢? IDEA直接报错。直接报错,是提醒你有问题。但是我非常进行类型转换。 非要强行赋值呢? 强制类型转换,强行将类型范围大的变量,数据赋值给类型范围小的变量。 数据…

几个字符串函数的使用和模拟实现(1)

下面介绍几个常见的字符串函数的使用并且学会自己创建实现与它们一样的功能&#xff0c;借此来巩固与字符串、函数、指针相关方面的知识。 strlen函数&#xff08;头文件是<string.h>&#xff09; 由此可见&#xff1a; strlen函数的返回值是返回值是size_t&#xff0c;…

【回溯 状态压缩 深度优先】37. 解数独

本文涉及知识点 回溯 状态压缩 深度优先 LeetCode37. 解数独 编写一个程序&#xff0c;通过填充空格来解决数独问题。 数独的解法需 遵循如下规则&#xff1a; 数字 1-9 在每一行只能出现一次。 数字 1-9 在每一列只能出现一次。 数字 1-9 在每一个以粗实线分隔的 3x3 宫内只…

突然连接不上 Bitbucket.org?

提交或拉取时都出现了错误 查找一下 Bitbucket.org 的IP&#xff0c;使用这个网址 https://site.ip138.com/bitbucket.org/ 找到C:\Windows\System32\drivers\etc下的hosts文件用记事本/notepad 打开&#xff0c;咱加到host文件里面 一切又恢复正常

UE5 C++软引用

一.软引用通常是仅储存资源对象的资源路径没有与资源产生耦合关系的引用&#xff08;软引用加载到内存中&#xff0c;只有在需要的时候才会被加载&#xff09; 软引用通常有FSoftObjectPath、FSoftClassPath、TSoftObjectPtr、TSoftClassPtr。它指向的资源未被加载&#xff0c…

四足机器人摆线规划程序

一、标准摆线公式 { x r ∗ ( θ − sin ⁡ ( θ ) ) y r ∗ ( 1 − cos ⁡ ( θ ) ) \left\{\begin{array}{l} xr *(\theta-\sin (\theta)) \\ yr *(1-\cos (\theta)) \end{array}\right. {xr∗(θ−sin(θ))yr∗(1−cos(θ))​ 这里的r表示摆线的圆的半径&#xff0c; θ \…

codeforces round944(div4)A~E题解

文章目录 [A. My First Sorting Problem](https://codeforces.com/contest/1971/problem/A)[B. Different String](https://codeforces.com/contest/1971/problem/B)[C. Clock and Strings](https://codeforces.com/contest/1971/problem/C)[D. Binary Cut](https://codeforces…

性能测试 --概念

什么是性能测试 性能测试和功能测试都是在系统测试阶段运行, 两者有什么区别呢? 案例:豌豆射手和三线射手都是射手, 它们的功能都是向前发射豌豆进行攻击, 能够攻击到地面的僵尸. 但是从性能上来讲, 豌豆射手只能攻击到一路的僵尸, 而三线射手能同时攻击三路(注:放在边路实际…

读天才与算法:人脑与AI的数学思维笔记24_预测性文本生成器

1. 起源 1.1. 人类讲故事可能起源于“假如……”这种问答结构 1.2. 讲故事是人类做安全试验的一种方式 1.2.1. 如果你问一个人“假如……”&#xff0c;其实是在探索你的行为对他可能带来的影响 1.3. 最早出现的故事极有可能就源自我们对在周遭混乱的环境中寻找某种秩序的渴…

基于vgg16和efficientnet卷积神经网络的天气识别系统(pytorch框架)全网首发【图像识别-天气分类】

一个能够从给定的环境图像中自动识别并分类天气&#xff08;如晴天、多云、雨天、雪天闪电等&#xff09;的系统。 技术栈&#xff1a; 深度学习框架&#xff1a;PyTorch基础模型&#xff1a;VGG16与EfficientNet任务类型&#xff1a;计算机视觉中的图像分类 模型选择 VGG16 …

螺栓扭矩如何设计?——SunTorque智能扭矩系统

螺栓扭矩设计的大小是一个涉及工程实践的重要问题&#xff0c;它直接关系到螺栓连接的紧固质量和安全性。螺栓扭矩是工程领域中常用的一个概念&#xff0c;用来描述螺栓在连接过程中所需的旋转力矩。正确的螺栓扭矩可以确保螺栓和螺母之间的紧密连接&#xff0c;避免由于松动而…

JINGWHALE 虚拟现实物质与空间理论 —— 全息世界

JINGWHALE 对此论文相关未知以及已知概念、定理、公式、图片等内容的感悟、分析、创新、创造等拥有作品著作权。未经 JINGWHALE 授权&#xff0c;禁止转载与商业使用。 一、虚拟现实物质与空间理论 物质是由离散的奇点JING粒子&#xff0c;依据不同的维度粒度&#xff0c;通过…

《解锁高效合同管理系统:优化业务流程,提升管理效率》

随着企业规模的扩大和业务复杂性的增加&#xff0c;合同管理变得愈发重要。合同是企业与客户、供应商、合作伙伴之间的法律约束和商业承诺&#xff0c;而有效的合同管理系统则成为企业提高运营效率、降低风险的关键工具。本文将探讨合同管理系统的重要性以及如何利用合同管理系…

网络编程——Socket——模拟用户登录

功能一&#xff1a;模拟用户登录 功能二&#xff1a;实现客户发送登录用户信息&#xff0c;服务器端显示登录信息并响应给客户端登录成功 这里设置的用户登录信息为&#xff1a;admin&#xff0c;123456 实现&#xff1a; 1.首先&#xff0c;服务端创建并启动服务器&#x…