ansible 部署FATE集群单边场景

news2025/3/18 16:41:04

官方文档:

https://github.com/FederatedAI/AnsibleFATE/blob/main/docs/ansible_deploy_FATE_manual.md

https://github.com/FederatedAI/AnsibleFATE/blob/main/docs/ansible_deploy_two_sides.md

gitee详细文档:

docs/ansible_deploy_one_side.md · 亦一亦二/AnsibleFATE - Gitee.com

一、前置操作

1、主机映射

第一台:
hostnamectl set-hostname fate01
第二台:
hostnamectl set-hostname fate02

 2、关闭selinux

确认是否已安装selinux

centos系统执行:rpm -qa | grep selinux

ubuntu系统执行:apt list --installed | grep selinux

如果已经安装selinux就执行:setenforce 0

 3、修改linux系统参数

vi /etc/security/limits.conf

如果没有一下内容,则添加:

* soft nofile 65535
* hard nofile 65535
* soft nproc 65535
* hard nproc 65535

4、清理20-nproc.conf文件

cd /etc/security/limits.d
ls -lrt 20-nproc.conf

如果存在该文件则:

mv 20-nproc.conf 20-nproc.conf_bak

5、修改系统mysql配置

mv /etc/my.cnf /etc/my.cnf_bak

6、关闭防火墙(可选)

systemctl disable firewalld.service
systemctl stop firewalld.service
systemctl status firewalld.service
## 如果是Ubuntu系统:
ufw disable
ufw status

7、创建用户

groupadd apps
useradd -s /bin/bash -g apps -d /home/app app

8、创建目录并设置sudo权限以及免密登录

# 创建用户
mkdir -pv /data/projects /data/temp /data/logs
chown -R app:apps /data/projects /data/temp /data/logs
# 设置sudo权限
echo "app ALL=(ALL) NOPASSWD:ALL" >> /etc/sudoers
# 免密登录:
# 切换app用户免密登录:
su - app 
ssh-keygen -t rsa
ssh-copy-id -i app@192.168.0.1

9、增加虚拟内存

cd /data
dd if=/dev/zero of=/data/swapfile128G bs=1024 count=134217728
mkswap /data/swapfile128G
swapon /data/swapfile128G
cat /proc/swaps
echo '/data/swapfile128G swap swap defaults 0 0' >> /etc/fstab

10、安装ansible

# yum源没有ansible,配置yum源:

mv /etc/yum.repos.d/epel.repo /etc/yum.repos.d/epel.repo.backup
mv /etc/yum.repos.d/epel-testing.repo /etc/yum.repos.d/epel-testing.repo.backup
wget -O /etc/yum.repos.d/epel.repo https://mirrors.aliyun.com/repo/epel-7.repo
yum clean all && yum makecache
yum install ansible

# 修改ansible: /etc/ansible/ansible.cfg

remote_user = app

二、部署

本章是通过ansible 部署FATE集群单边场景之一:单独部署host和guest。

role

partyid

IP地址

操作系统

主机配置

存储

部署模块

host

10000

192.168.0.1

(有外网)

CentOS 7.2/Ubuntu 18.04

8C16G

500G

fate_flow,fateboard,clustermanager,nodemanger,rollsite,mysql

guest

9999

192.168.0.2

CentOS 7.2/Ubuntu 18.04

8C16G

500G

fate_flow,fateboard,clustermanager,nodemanger,rollsite,mysql

主机资源和操作系统要求

类别

说明

主机配置

不低于8C16G500G,千兆网卡

操作系统

CentOS linux 7.2及以上同时低于8/Ubuntu 18.04

依赖包

需要安装如下依赖包:
#centos
gcc gcc-c++ make openssl-devel gmp-devel mpfr-devel libmpc-devel libaio
numactl autoconf automake libtool libffi-devel ansible
#ubuntu
gcc g++ make openssl ansible libgmp-dev libmpfr-dev libmpc-dev
libaio1 libaio-dev numactl autoconf automake libtool libffi-dev
cd /usr/lib/x86_64-linux-gnu
if [ ! -f “libssl.so.10” ];then
ln -s libssl.so.1.0.0 libssl.so.10
ln -s libcrypto.so.1.0.0 libcrypto.so.10
fi

用户

用户:app,属主:apps(app用户需可以sudo su root而无需密码)

文件系统

1、数据盘挂载在/data目录下。
2、创建/data/projects目录,目录属主为:app:apps。
3、根目录空闲空间不低于20G。

虚拟内存

不低于128G

系统参数

1、文件句柄数不低于65535。
2、用户进程数不低于65535。

2 部署目标介绍

(1) Host端

Party Id: 10000

角色

IP

端口

介绍

rollsite

192.168.0.1

9370

跨站点或者说跨party通讯组件

fate_flow

192.168.0.1

9360;9380

联合学习任务流水线管理模块

clustermanager

192.168.0.1

4670

cluster manager管理集群

nodemanager

192.168.0.1

4671

node manager管理每台机器资源

fateboard

192.168.0.1

8080

联合学习过程可视化模块

mysql

192.168.0.1

3306

数据存储,clustermanager和fateflow依赖

(2) Guest端

Party Id: 9999

角色

IP

端口

介绍

rollsite

192.168.0.2

9370

跨站点或者说跨party通讯组件

fate_flow

192.168.0.2

9360;9380

联合学习任务流水线管理模块

clustermanager

192.168.0.2

4670

cluster manager管理集群

nodemanager

192.168.0.2

4671

node manager管理每台机器资源

fateboard

192.168.0.2

8080

联合学习过程可视化模块

mysql

192.168.0.2

3306

数据存储,clustermanager和fateflow依赖

3 下载离线安装包

wget https://webank-ai-1251170195.cos.ap-guangzhou.myqcloud.com/AnsibleFATE_1.7.2_release-offline.tar.gz
tar -zxvf AnsibleFATE_1.7.2_release-offline.tar.gz
cd AnsibleFATE_1.7.2_release-offline

4 配置(host)

4.1 初始化配置

  • 步骤一:

 # 使用辅助脚本产生初始化配置:
sh deploy/deploy.sh init -h="10000:192.168.0.1"

  • 步骤二:按需修改配置

 vim deploy/conf/setup.conf

#base setup
env: prod
pname: fate
ssh_port: 22
deploy_user: app
deploy_group: apps
#
#deploy mode: deploy|install|config|uninstall
deploy_mode: deploy
#
#moduel list: mysql|eggroll|fate_flow|fateboard
modules:
  - mysql
  - eggroll
  - fate_flow
  - fateboard
#
#role list: host|guest|exchange
roles:
  - host:10000
#
#ssl role list: host && guest | host&&exchange | guest&&exchange 
ssl_roles: []
#
polling: {}
#host ip lists
#host_ips: []
host_ips:
  - default:192.168.0.1
#
#extra host rules
host_special_routes: 
  - default:192.168.0.2:9370		---guest IP,此处需要手工添加,可以设置额外路由指向exchange
#guest ip lists
#guest_ips: []
guest_ips: []
#
#extra guest rules
guest_special_routes: []
#
#exchange ip lists
exchange_ips: []
#
#extra exchange rules
exchange_special_routes: []
default_engines: eggroll
  • 步骤3:执行辅助脚本产生配置

bash deploy/deploy.sh render

4.2 配置host信息

修改如下文件,默认可以不修改。

vi var_files/prod/fate_host

host:
  partyid: 10000
  rollsite:
    enable: true
    coordinator: fate
    ips:
      - 192.168.0.1
    port: 9370
    secure_port: 9371
    server_secure: false
    client_secure: false
    polling:
      enable: false
    route_tables:
      - id: default
        routes:
          - name: default
            ip: 192.168.0.2
            port: 9370
            is_secure: false
      - id: 10000
        routes:
          - name: default
            ip: 192.168.0.1
            port: 9370
            is_secure: false
          - name: fateflow
            ip: 192.168.0.1
            port: 9360
  clustermanager:
    enable: true
    ips:
      - 192.168.0.1
    port: 4670
    cores_per_node: 16
  nodemanager:
    enable: true
    ips:
      - 192.168.0.1
    port: 4671
  eggroll:
    dbname: eggroll_meta
    egg: 4
  fate_flow:
    enable: true
    ips:
      - 192.168.0.1
    grpcPort: 9360
    httpPort: 9380
    dbname: fate_flow
    proxy: rollsite
    http_app_key:
    http_secret_key:
    use_deserialize_safe_module: false
    default_engines: eggroll
  fateboard:
    enable: true
    ips:
      - 192.168.168.104
    port: 8080
    dbname: fate_flow
  mysql:
    enable: true
    type: inside
    ips:
      - 192.168.0.1
    port: 3306
    dbuser: fate
    dbpasswd: fate_deV2999
  zk:
    enable: false
    lists:
      - ip: 127.0.0.1
        port: 2181
    use_acl: false
    user: fate
    passwd: fate
  servings:
    ips:
      - 127.0.0.1
    port: 8000

4.3 执行部署

部署所有服务

bash deploy/deploy.sh deploy

查看部署日志:tailf logs/deploy-??.log

5 配置(guest)

5.1 初始化配置

  • 步骤一:

 # 使用辅助脚本产生初始化配置:
sh deploy/deploy.sh init -g="9999:192.168.1.1"

  • 步骤二:按需修改配置

 vim deploy/conf/setup.conf

#base setup
env: prod
pname: fate
ssh_port: 22
deploy_user: app
deploy_group: apps
#
#deploy mode: deploy|install|config|uninstall
deploy_mode: deploy
#
#moduel list: mysql|eggroll|fate_flow|fateboard
modules:
  - mysql
  - eggroll
  - fate_flow
  - fateboard
#
#role list: host|guest|exchange
roles:
  - guest:9999
#
#ssl role list: host && guest | host&&exchange | guest&&exchange 
ssl_roles: []
#
polling: {}
#host ip lists
#host_ips: []
host_ips: []
#
#extra host rules
host_special_routes: []
#guest ip lists
#guest_ips: []
guest_ips: 
  - default:192.168.0.2
#
#extra guest rules
guest_special_routes: 
  - default:192.168.0.1:9370		---host IP,此处需要手工添加,可以设置额外路由指向exchange
#
#exchange ip lists
exchange_ips: []
#
#extra exchange rules
exchange_special_routes: []
default_engines: eggroll
  • 步骤3:执行辅助脚本产生配置

 bash deploy/deploy.sh render

5.2 配置guest信息

修改如下文件,默认可以不修改。

vi var_files/prod/fate_guest

guest:
  partyid: 9999
  rollsite:
    enable: true
    coordinator: fate
    ips:
      - 192.168.0.2
    port: 9370
    secure_port: 9371
    server_secure: false
    client_secure: false
    polling:
      enable: false
    route_tables:
      - id: default
        routes:
          - name: default
            ip: 192.168.0.1
            port: 9370
            is_secure: false
      - id: 9999
        routes:
          - name: default
            ip: 192.168.0.2
            port: 9370
            is_secure: false
          - name: fateflow
            ip: 192.168.0.2
            port: 9360
  clustermanager:
    enable: true
    ips:
      - 192.168.0.2
    port: 4670
    cores_per_node: 16
  nodemanager:
    enable: true
    ips:
      - 192.168.0.2
    port: 4671
  eggroll:
    dbname: eggroll_meta
    egg: 4
  fate_flow:
    enable: true
    ips:
      - 192.168.0.2
    grpcPort: 9360
    httpPort: 9380
    dbname: fate_flow
    proxy: rollsite
    http_app_key:
    http_secret_key:
    use_deserialize_safe_module: false
    default_engines: eggroll
  fateboard:
    enable: true
    ips:
      - 192.168.0.2
    port: 8080
    dbname: fate_flow
  mysql:
    enable: true
    type: inside
    ips:
      - 192.168.0.2
    port: 3306
    dbuser: fate
    dbpasswd: fate_deV2999
  zk:
    enable: false
    lists:
      - ip: 127.0.0.1
        port: 2181
    use_acl: false
    user: fate
    passwd: fate
  servings:
    ips:
      - 127.0.0.1
    port: 8000

5.3 执行部署

部署所有服务

bash deploy/deploy.sh deploy

查看部署日志:tailf logs/deploy-??.log

5.4 查看进程

# 根据部署规划查看进程是否启动
ps -ef | grep -i clustermanager
ps -ef | grep -i nodemanager
ps -ef | grep -i rollsite
ps -ef | grep -i fate_flow_server.py
ps -ef | grep -i fateboard

三、后置操作

1、清理部署临时目录

bash /data/projects/tools/clean_tmp.sh

2、启停操作

/data/projects/common/supervisord/service.sh status|start|restart 某服务名|all
# eg:
/data/projects/common/supervisord/service.sh status all

3、部署之后fate-board url

http://192.168.0.1:8080 
# admin/admin
# mysql的root密码默认在var_files/*/fate_init
# /data/projects/fate/eggroll/conf/route_table.json 路由表

4、新增节点

(1)复制只部署nodemanager服务的机器的所有文件(/data/projects)过去,排除数据目录下面的数据(/data/projects/data/fate/eggroll
),启动nodemanger服务  
(2)数据库eggroll*的server_node表增加一行新增ip的记录角色为nodemanger(请参考表中已有的数据操作)
(3)crontab定时任务启动supervisor服务的那条记录也需要复制过去设置一下。
执行/data/projects/common/supervisord/boot.sh(启动supervisor)
执行/data/projects/common/supervisord/service.sh status all查看该节点nodemanger是否启动

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1519778.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

十二、项目采购管理

十二、项目采购管理 1、规划采购管理 ​ 规划采购管理是记录项目采购决策、明确采购方法,及识别潜在卖方的过程。 1,1、关键输入 组织过程资产 组织使用的各种合同协议类型也会影响规划采购管理过程中的决策。能够影响规划采购管理过程的组织过程资产包括&#xf…

洗地机选购技巧:希亦|追觅|添可|海尔洗地机值不值得买?多维度测评对比揭晓

如今市面上的洗地机质量良莠不齐,还有其琳琅满目的功能,让很多新手小白挑花了眼。所以,想要挑选一款适合自己家的洗地机,看似容易实则很难,毕竟洗地机是打扫家务的帮手,如果帮手不给力,效果也会…

企业内部培训考试系统单场培训会议解决方案

企业日常内训中,有些时候也会组织会议培训,再按照会议日程分上下午签到进行培训考勤,并形成培训签到表,如果用活动报名工具,一般只能实现单次的签到考勤,如果用培训班系统则操作过于繁琐,不利于…

想做人力RPO项目,网红老阳分享的这个RPO项目可行吗?

近年来,人力资源行业经历了快速的发展和变革,其中RPO(Recruitment Process Outsourcing,招聘流程外包)项目备受关注。网红老阳近期分享了一个RPO项目,让不少想要涉足这一领域的人产生了浓厚的兴趣。那么,老阳分享的RPO…

【C语言】五种方法实现C语言中大小写字母的转化

文章目录 📝tolower/toupper函数🌉tolower🌠 toupper 🌠 ASCII码关系🌉位操作🌉宏定义 🌠小巧第五位🚩总结 📝tolower/toupper函数 🌉tolower tolower函数是…

Windows 11 DirectX 诊断工具获取电脑型号

Windows 11 DirectX 诊断工具获取电脑型号 1. dxdiag2. DirectX 诊断工具References 1. dxdiag Win R 打开运行窗口,输入 dxdiag,点击确定按钮。 2. DirectX 诊断工具 通过 DirectX 诊断工具,可以直接找到电脑型号,型号是硬件制…

鸿蒙Harmony应用开发—ArkTS声明式开发(基础手势:Menu)

以垂直列表形式显示的菜单。 说明: 该组件从API Version 9开始支持。后续版本如有新增内容,则采用上角标单独标记该内容的起始版本。 Menu组件需和bindMenu或bindContextMenu方法配合使用,不支持作为普通组件单独使用。 子组件 包含MenuIt…

Django框架——模型

在上篇文章中,我们学习了Django框架——模板,这篇文章我们学习Django框架——模型。 模型是描述、存储数据的字段和行为,一般情况下,一个模型映射一张数据库表,模型类的属性对应数据库表字段,模型的对象对…

【机器学习】走进监督学习:构建智能预测模型的第一步

🎈个人主页:豌豆射手^ 🎉欢迎 👍点赞✍评论⭐收藏 🤗收录专栏:机器学习 🤝希望本文对您有所裨益,如有不足之处,欢迎在评论区提出指正,让我们共同学习、交流进…

旭日x3派部署自己训练的模型(安全帽识别、视频流推理、yolov5-6.2)

旭日x3派部署自己训练的模型(安全帽识别、视频流推理、yolov5-6.2)windows,框架pytorch,python3.7 效果模型训练模型转换1、pt模型文件转onnx2、检查onnx模型3、准备校准数据4、onnx转bin 上板视频流推理1、图片推理2、视频流推理…

腾讯在线文档下载文档html格式

腾讯在线文档下载文档html格式 步骤 chrome 浏览器打开该文档(edge不行) 同时按住ctrlp快捷键调出腾讯文档内置的打印页面,打印范围要选择整个工作薄,纸张建议调大一点,边距建议较窄,缩放要选择宽度撑满&…

支小蜜AI校园防欺凌系统可以使用在宿舍吗?

随着人工智能技术的快速发展,AI校园防欺凌系统已成为维护校园安全的重要手段。然而,关于这一系统是否适用于宿舍环境,仍存在一些争议和讨论。本文将探讨AI校园防欺凌系统在宿舍中的适用性,分析其潜在的优势与挑战,并提…

node:internal/crypto/hash:69 this[kHandle] = new _Hash(algorithm, xofLen);

npm 打包报错 原因就是npm版本太高了,用的18版本,切换成16版本就好了。

java脱离mybatis框架的环境下如何手撸代码操作数据库

一、问题提出 现今很多java ee开发人员都是直接使用springbootmybatis框架进行数据库操作。这种环境下,大多小白都不知道框架在操作数据库前后都执行了哪些动作。 今天,良哥教你如何在脱离框架的情况下,手撸代码连接和操作数据库资源。 二、…

Google Play上架:谷歌支付政策变更

目录 政策发布时间概括内容付款政策变动内容归纳google付款用户政策政策发布时间 2024 年 3 月 6 日 概括内容 为遵守《数字市场法案》(DMA) 的规定,从 2024 年 3 月 6 日起,我们将更新付款政策,允许开发者将欧洲经济区 (EEA) 的用户引导至其应用之外的平台(包括推广应用…

MySQL死锁案例分析及避免办法

1. 什么是死锁2. 举个栗子:2.1. 栗子一:2.1.1 代码栗子:2.1.2 存储引擎状态分析2.1.2.1 第一部分:2.1.2.2 第二部分:2.1.2.3 第三部分: 2.1.3 解决方式2.1.3.1 注意资源的获取顺序2.1.3.2 大事务拆小 2.2. …

有没有能用蓝牙的游泳耳机?四大年度最佳游泳耳机由衷推荐

随着科技的不断发展,游泳爱好者们对于游泳耳机的追求也越来越高。在游泳过程中,音乐和播客是许多泳者们的最佳伴侣,它能帮助他们保持节奏、提高兴趣。然而,传统的有线耳机在水下容易产生拉扯,不仅影响游泳体验&#xf…

【DL经典回顾】激活函数大汇总(十二)(GLU ReGLU附代码和详细公式)

激活函数大汇总(十二)(GLU & ReGLU附代码和详细公式) 更多激活函数见激活函数大汇总列表 一、引言 欢迎来到我们深入探索神经网络核心组成部分——激活函数的系列博客。在人工智能的世界里,激活函数扮演着不可或…

沃通SSL证书证券行业应用案例

金融证券行业作为现代经济体系中的重要组成部分,其安全性直接关系到国家经济的稳定和广大投资者的利益。沃通SSL证书基于密码技术保护传输数据的机密性、完整性,通过权威身份认证确保服务器身份真实性,已持续为众多知名证券行业客户提供服务&…

微信小程序开发:异步处理接入的生成式图像卡通化

书接上文,我们完成了对接阿里云人像动漫化接口,现已完成的界面是这样的: 就是效果看着一般,看看效果: 然后我就在阿里云api市场转悠,就想看看还有没有什么其他奇奇怪怪的api,结果就发现了这个&a…