国产调度器之光——Fsched到底有多能打?

news2025/1/19 20:43:54

这是一篇推荐我们速石自研调度器——Fsched的文章。

看起来在专门写调度器,但又不完全在写。

往下看,你就懂了。

本篇一共五个章节:

一、介绍一下主角——速石自研调度器Fsched

二、只要有个调度器,就够了吗?

三、全面对比:速石研发平台 VS LSF Suite

四、如果你想尝试AI——

五、不止半导体领域。。。。

介绍一下主角,速石自研调度器Fsched

fastone Scheduler,简称Fsched,是速石科技所有产品的核心调度组件。Ta是面向HPC集群的操作系统,是HPC集群的“大脑”,用于对HPC集群内的计算资源进行管理、监控,对用户提交的任务进行统一管理、分发和远程执行。

Fsched是速石科技基于开源的Slurm版本进化而来的全新产品。

1、我们的Fsched调度器到底厉害在哪?

先看一组我们在半导体领域用户的真实验证数据

5个月时间内:

CPU调度峰值达到5万核

提交了超过8000万Jobs

构建超过700台机器组成的大规模集群;

使用量约3000万核时

Fsched性能指标

吞吐量:

1000 jobs/second

响应时间:

1 ms

集群规模:

单个Fsched集群能够支持的最大节点数:1000

单个Fsched集群能够支持的最大CPU核数:30000

总结一下,Fsched调度器优势:

1. 完全由速石独立开发,性能卓越;

2. 我们能提供代码级技术支持;

3. 支持市面上几乎所有EDA工具;

4. 服务了100+家不同类型的半导体行业用户;

5. 兼容LSF/SGE等调度器,使用体验不变。

关于调度器科普和不同流派近二十年的发展历程,可以点击回顾:亿万打工人的梦:16万个CPU随你用

2、代码级技术支持有什么不一样?

代码级技术支持的特别之处主要体现在解决问题的路径上

一句话,我们能做很多人做不到的事情。

一般问题:我们站在产品视角来解决

特殊问题:我们以开发者身份来解决

比如一些特殊调度策略的改造与优化,我们是开发者,所以能做。包括各种调度器日志的监控分析,优化调度器的提交方式和脚本等等。

DEBUG:深入代码级的技术支持

举一个典型例子:当研发提交任务出现异常状态,怎么办?

我们首先需要定位与任务相关的日志。日志分为:基础设施层日志、中间件层日志、应用层日志等。

IT和研发工程师的关注点不一样:IT工程师一般看基础设施层日志,CAD和研发工程师看中间件层日志和应用层日志。不同角色各看各的,定位问题效率低。

我们通过Fsched调度器:

1. 把调度任务的异常日志分类,找出是哪一层的问题;

2. 任务状态跟踪,通过异常应用找出相应进程和IO信息,方便判断;

3. 通过数据分析抓取日志中的关键信息。

找到问题,over。

3、Slurm之上,我们还做了什么?

Slurm是厉害的:全球60%的TOP500超算中心和超大规模集群(包括我国的天河二号等)都采用Slurm作为调度系统。它拥有容错率高、支持异构资源、高度可扩展等优点,适用性相当强。

那么,基于Slurm之上,我们还做了些什么?

从0到1,帮助用户更快,更简单地用起来

1. 产品级IT自动化管理,标准化地调用资源,保证环境一致性,降低用户配置复杂度和出错率,上手更容易;

2. 从业务出发,Fsched与底层资源的联动性强,根据任务需求自动伸缩,更符合云上使用方式。

从1到10,让用户用得稳定,用得放心

1. 对Slurm开源版进行修复与增强。修复Slurm开源版在复杂环境下任务异常崩溃等问题,增加了混合云智能调度能力;

2. 基于Wrapper组件,Fsched对上层EDA应用进行了兼容与优化,保证用户使用体验不变;

PS:同样是Wrapper,水平也是有高下的。要达到多年战斗在一线的专业高级口译的经验和水平,只能说:有难度。

3. 根据最佳实践经验总结的流程与规则,能优化EDA Workflow,提高调度器使用效率;

4. 代码级支持能力让用户无后顾之忧。

只要有个调度器,就够了吗?

答案自然是否定的。

为什么?

或许,我们可以换个角度来回答这个问题。

就像汽车出现之前,用户的期望永远是——1匹更快的马一样

在当下芯片设计研发领域,我们如果把调度器类比马,那么汽车是什么呢?

我们给大家简单描绘一下:

一个站在整个芯片设计研发体系和架构视角来满足EDA行业用户性能、功能、体验的产品。

1. Ta是完整的一体化产品,功能紧密耦合,且经过层层实战考验;

2. Ta解决的是完整生命周期的芯片设计业务问题,调度器只是其中一个模块;

3. Ta具有对企业未来发展的弹性,能扩展至不同规模和更多业务路线,比如AI

而这,正是我们与其他很多产品最大的区别之一

我们的产品在设计之初就是面向EDA应用,服务芯片设计研发业务场景的。这也决定了我们解决问题的出发点永远是:是否满足研发业务需求,然后从上至下地解决问题。

1、我们提供的是一整套上中下层联动的芯片设计研发环境:

1. 连接上层EDA应用,对应用本身的运行提供支持和优化;

2. 连接底层资源,给用户提供更灵活,更高效使用资源的能力;

3. 结合EDA应用和底层资源的联动和适配,给出最佳实践经验。

2、我们的功能都是面向实际业务场景设计和提供的:

1. License调度优化,可帮助企业用户最大化提升License利用率,更好地规划License购买策略,控制整体使用成本;

2. 我们能多维度监控任务状态,提供基于EDA任务层的监控、告警、数据统计分析功能与服务,让团队管理者监控各个重要指标变化,从全局角度掌握项目的整体任务及资源情况,为未来项目合理规划、集群生命周期管理、成本优化提供支持;

3. 日常数据统计与运营分析管理,实现问题可追溯,可追踪,降低成本,提升整体项目管理效率。

3、我们的交互方式不改变EDA用户使用习惯。原来怎么用,现在还怎么用。

速石研发平台 VS LSF Suite

半导体行业用户最熟悉的调度器是LSF,就不多介绍了。

不过,它背后的LSF Suite大家就不一定熟悉了。

来来,我们盘一下,我们速石研发平台跟LSF Suite的区别是什么?

1、根本区别:设计理念不一样

我们是站在整个芯片设计研发体系和架构视角来设计的一体化产品,解决的是完整生命周期的芯片设计业务问题,功能紧密耦合,且经过层层实战考验。

Fsched调度器只是其中一个模块,不单独售卖,在我们的全线企业级产品均属内置,且与产品其他功能深度绑定

这正是我们上一节提到的面向EDA业务的产品定位决定的。

而LSF Suite里的核心调度器LSF与其他组件是不关联的,属于可选项。这也导致了用户大多只接触过LSF,而对它的其他组件没有什么概念。

而且,因为各种功能组件之间独立存在的,用户使用的时候需要根据自己业务需要进行二次开发组装,从零开始进行功能模块需求评估、采购、对接、开发和测试验证兼容性,才能搭建出一个完整的研发环境,时间周期也会比较长

另外还有期间的运维、后续的更新升级和功能扩展等事项。

2、性价比:速石研发平台TCO更低

下图是我们研发平台与LSF Suite的横向对比图,可以清楚地看到,两者的收费模式差别很大。

我们Fsched调度器是包含在平台费用里的,相关组件也都是随产品一起内置的,不单独收费。

而LSF Suite除了核心调度器按使用核数收费以外,所有功能组件都需要额外收费

从总拥有成本来看,对用户来说,速石研发平台付出的成本更低,获得的东西更多。还有很多隐性成本没有列在表格里,比如对接调试时间成本,人工成本,售后支持成本等等。

总结一下,我们跟LSF Suite的五大主要区别

1. 核心调度器Fsched完全国产自研,有代码级支持能力;

2. 我们的产品设计初衷就是提供面向EDA业务的一整套研发环境,可扩展性强

3. 各功能模块紧密耦合,不单独收费,整体性价比高

4. 我们的CAD能力与经验,能有效提高上中下层整体联动效率;

5. 我们兼容LSF/SGE等调度器,使用体验不变。

如果你想尝试AI——

目前,AI在芯片设计领域的应用主要有两条路线:

路线一:AI+EDA工具

Synopsys、Cadence与Siemens等公司纷纷在其最新工具中使用了AI技术,覆盖先进数字与模拟芯片的设计、验证、测试和制造环节,让开发者在芯片开发的每一个阶段都可以采用借助AI的自主学习能力,提供芯片设计生产力。

当然,越来越多EDA工具也支持借助GPU进行运算加速。

路线二:AI算法模型训练

Google研究人员使用10,000个芯片布局图来训练他们的深度学习模型——PRIME,人工智能生成的芯片的设计时间不到六个小时。

而NVIDIA设计了另一种用于芯片设计的深度学习方法——PrefixRL模型,NVIDIA使用其RL工具设计的电路比人类使用当今EDA工具设计的电路小25%,但性能相似。

路线一需要支持全流程EDA工具的一整套研发环境,以及构建异构资源(CPU+GPU、本地+云上)的调度及管理平台的能力。

路线二需要的支持企业从ML/LLM模型构建、大规模训练到最终部署需求的MLOps模块

我们都有。

另外,我们刚刚发布的一款行业知识库聊天应用Megrez,面向企业客户提供大语言模型的私有化部署能力,允许用户自定义行业知识库,实现领域知识的问答。

Megrez基于芯片设计领域提供的支持

不止半导体领域。。。。

在半导体以外的其他行业,如生命科学、汽车/智能制造,我们也表现不错:

汽车/智能制造

这样跑COMSOL,是不是就可以发Nature了

LS-DYNA求解效率深度测评 │ 六种规模,本地VS云端5种不同硬件配置

怎么把需要45天的突发性Fluent仿真计算缩短到4天之内?

从4天到1.75小时,如何让Bladed仿真效率提升55倍?

生命科学

王者带飞LeDock!开箱即用&一键定位分子库+全流程自动化,3.5小时完成20万分子对接

1分钟告诉你用MOE模拟200000个分子要花多少钱

155个GPU!多云场景下的Amber自由能计算

提速2920倍!用AutoDock Vina对接2800万个分子

关于fastone云平台在各种EDA应用上的表现,可以点击以下应用名称查看:

HSPICE │ OPC │ VCS │ Virtuoso │ Calibre

速石科技芯片设计五部曲,前三部先睹为快:

模拟IC  数字IC  算法仿真

END -

我们有个IC设计研发云平台

IC设计全生命周期一站式覆盖

调度器Fsched国产化替代、专业IT-CAD服务

100+行业客户落地实践

支持海内外多地协同研发与办公

多层安全框架层层保障

现在免费试用,送200元体验金,入股不亏~

更多EDA电子书

欢迎关注小F(ID:iamfastone)获取

你也许想了解具体的落地场景:

暴力堆机器之王——Calibre

Auto-Scale这支仙女棒如何大幅提升Virtuoso仿真效率?

揭秘20000个VCS任务背后的“搬桌子”系列故事

大规模OPC上云,5000核并行,效率提升53倍

从30天到17小时,如何让HSPICE仿真效率提升42倍?

芯片设计研发平台:

【案例】95后占半壁江山的浙桂,如何在百家争鸣中快人一步

最强省钱攻略——IC设计公司老板必读

芯片设计五部曲之三 | 战略规划家——算法仿真

【案例】速石X腾讯云X燧原:芯片设计“存算分离”混合云实践

解密一颗芯片设计的全生命周期算力需求

缺人!缺钱!赶时间!初创IC设计公司如何“绝地求生”?

重大事件:

速石科技联合芯华章,推动新一代EDA向云原生迈进

速石科技赋能里恩特,开拓更广阔的芯片设计市场

速石科技应邀出席2023世界人工智能大会,AI研发平台引人瞩目

速石科技与深信服开启战略合作,助力芯片设计自主创新

速石科技成三星Foundry国内首家SAFE™云合作伙伴

速石科技(ID:Fastone_tech)

我们致力于构建为应用定义的云,让任何应用程序,始终以自动化、更优化和可扩展的方式,在任何基础架构上运行。希望和你共同建立持续迭代的多云世界观。

说出你的应用,我们就有故事~~

咨询热线:021-31263638 (你要是唠这个我就不困了。)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/925808.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

伯俊ERP对接打通金蝶云星空表头表体组合查询接口与应收单新增接口

伯俊ERP对接打通金蝶云星空表头表体组合查询接口与应收单新增接口 对接源平台:伯俊ERP 伯俊科技,依托在企业信息化建设方面的领先技术与实践积累,致力于帮助企业实现全渠道一盘货。伯俊提供数字经营的咨询与系统实施,助力企业信息化升级、加速…

ChatGPT在工业领域的研究与应用探索-数据与工况认知

1. ChatGPT发展现状 ChatGPT是基于OpenAI的GPT-4架构的一种大型语言模型。截至2021年9月,最新版本是GPT-3。在过去的几年里,ChatGPT已经取得了显著的进步,具备更强的自然语言处理和生成能力。 目前,ChatGPT的应用领域广泛&#…

05架构管理之持续集成-DevOps的理解与实现

专栏说明:针对于企业的架构管理岗位,分享架构管理岗位的职责,工作内容,指导架构师如何完成架构管理工作,完成架构师到架构管理者的转变。计划以10篇博客阐述清楚架构管理工作,专栏名称:架构管理…

基于SSM+vue框架的个人博客网站源码和论文

基于SSMvue框架的个人博客网站源码和论文061 开发工具:idea 数据库mysql5.7 数据库链接工具:navcat,小海豚等 技术:ssm (设计)研究背景与意义 关于博客的未来:在创办了博客中国(blogchina)、被誉为“…

【LeetCode75】第三十六题 路径总和3

目录 题目: 示例: 分析: 代码: 题目: 示例: 分析: 题目给我们一棵树,每个节点都有一个值,我们需要找出一条路径,这条路径上所有节点的值的和等于一个目标…

解决华为云ping不通的问题

进入华为云控制台。依次选择:云服务器->点击服务器id->安全组->更改安全组->添加入方向规则,添加一个安全组规则(ICMP),详见下图 再次ping公网ip就可以ping通了 产生这一问题的原因是ping的协议基于ICMP协…

缺少代码签名证书会怎么样?

在当下恶意软件攻击频发的情形下,使用代码签名证书来保护代码安全已经成为每个软件开发商的基本认知。代码签名证书将保护软件代码的完整性,避免软件被非法篡改或植入恶意代码病毒,从而使得软件可以正常运行。那么如果软件缺少代码签名证书会…

栈和队列OJ题

有效括号问题: 题目描述: 给定一个只包括 (,),{,},[,] 的字符串 s ,判断字符串是否有效。 有效字符串需满足: 左括号必须用相同类型的右括号闭合。左括号必须以正确的…

R语言之 dplyr 包

文章和代码已经归档至【Github仓库:https://github.com/timerring/dive-into-AI 】或者公众号【AIShareLab】回复 R语言 也可获取。 文章目录 1.使用 filter( ) 和 slice( ) 筛选行2.使用 arrange( ) 排列行3. 使用 select( ) 选择列4.使用 mutate( ) 添加新变量5.使…

FMCW雷达基于时分复用波形(TDMA) 3D点云获取方法的仿真

摘要:通过设置时分复用(TDMA)波形结合FMCW毫米波雷达仿真获取目标的距离、速度和方位角3D点云信息。在本案例中,首先通过发射天线交替发射FMCW波形并通过接收天线依次接收回波信号从而得到雷达原始数据,其次对获取的原始数据依次经行距离、速…

电脑怎么把视频转换gif动图?视频生成gif的操作步骤

如果你也想把一些精彩的视频转gif图片(https://www.gif.cn)的话,今天的文章你可千万不要错过,利用专业的视频转gif工具,轻松在线视频转gif,操作简单又方便,支持电脑、手机双端操作,赶…

金蝶云星空和管易云接口打通对接实战

金蝶云星空和管易云接口打通对接实战 对接系统金蝶云星空 金蝶K/3Cloud在总结百万家客户管理最佳实践的基础上,提供了标准的管理模式;通过标准的业务架构:多会计准则、多币别、多地点、多组织、多税制应用框架等,有效支持企业的运…

静电中和风机在所具有的的优点

半导体生产过程中,静电积聚和离子污染是常见的问题,会对产品质量和工艺稳定性造成负面影响。为了解决这个问题,可以采用专门用于半导体自动化的静电消除/中和离子风机。 静电消除/中和离子风机是一种集静电消除和离子中和功能于一体的装置。…

Arnold置乱

一、Arnold置乱概述 Arnold变换是俄国数学家弗拉基米尔阿诺德(Vladimir Igorevich Arnold)提出,Arnold将其应用在遍历理论研究中。由于Arnold本人最初对一张猫的图片进行了此种变换,因此它又被称为猫脸变换(cat映射&am…

24 | 紧跟时代步伐:微服务模式下API测试要怎么做?

微服务架构(Microservice Architecture) 微服务是一种架构风格。在微服务架构下,一个大型复杂软件系统不再由一个单体组成,而是由一系列相互独立的微服务组成。其中,各个微服务运行在自己的进程中,开发和部…

【pdf密码】PDF文件,无密码取消限制

PDF文件设置了限制编辑,会导致什么情况呢?比较常见的就是无法编辑、无法复制粘贴、无法打印或者打印文件清晰度差。这些都是PDF限制编辑导致的,想要编辑文件,我们就需要取消限制编辑,但是有些时候,大家可能…

静电中和设备在半导体自动化生产中起到了怎样的作用

静电中和设备在半导体自动化生产中起到了重要的作用。在半导体生产过程中,由于材料的摩擦、粉尘的飞扬、人员的移动等原因,会产生大量的静电电荷。这些静电电荷如果不得到有效的中和处理,会对生产过程和产品质量产生严重的影响。 静电中和设…

LPC1768运行threadx数组越界导致出现硬件错误死机问题的排查

移植了threadx后运行发现程序莫名跑飞,停留在 HardFaultHandler 即硬件错误异常 调试过程中发现在汇编启动文件启动后跳转main函数即刻就发生了错误异常,先排除是在操作系统运行过程中的问题,而且是硬件错误异常所以先对导致改错误的可能进行…

ENSP操作平台命令汇总一(第五课)

一 Ensp基础指令操作 1 ipconfig 查看 pc机的IP地址2 ping 连接的IP地址 3 system-view 进入系统视图4 [Huawei]interface GigabitEthernet 0/0/1 进入接口视图 过0/0/15 quit 返回上一层视图6 ctrlZ 快速返回用户视图7 [sy]sysname tedu-ntd-lswl 进入系统视…

Java --- 内部类

目录 一、什么是内部类 二、为什么需要内部类 三、内部类的分类 3.1、成员内部类 3.2、局部内部类 四、练习 一、什么是内部类 将一个类A定义在另一个类B里面,里面的那个类A就称为内部类(InnerClass),类B则称为外部类&#…