IBM Spectrum LSF (“LSF“ ,简称为负载共享设施) 用户案例

news2024/11/15 10:20:29

IBM Spectrum LSF (“LSF” ,简称为负载共享设施) 用户案例

IBM Spectrum LSF (“LSF” ,简称为负载共享设施) 软件是业界领先的企业级软件。 LSF 在现有异构 IT 资源之间分配工作,以创建共享,可扩展且容错的基础架构,从而提供更快,更可靠的工作负载性能并降低成本。 LSF 均衡负载和分配资源,并提供对这些资源的访问权。

LSF 提供了一个资源管理框架,用于满足您的作业需求,查找运行该作业的最佳资源,并监视其进度。 作业始终根据主机装入和站点策略运行。

IBM Spectrum LSF 被世界上30家最大的商业企业中的23家使用,包括众多基因组学、生物信息学、儿童医院、医药系统。

1、国内某制造企业使用 LSF 搭建高性能计算平台

挑战

  • HPC 场景复杂,机器资源利用率不高
  • 数据存储分散,有安全隐患
  • 商业许可证使用率不高,导致资源浪费。
  • 作业环境可靠性不高,导致作业出错或者突然停机等导致大量作业失效,浪费时间。

方案

  • 利用 Spectrum LSF 提高复杂计算环境的性能,依据业务优先级和策略,智能地为工作负载分配计算资源。
  • 同时结合 IBM Spectrum Scale 来提供高数据可用性,可靠性和安全性。
  • 使用License Scheduler 来调度商业许可证。
  • Spectrum RTM提供集群计算节点和作业实时监控和报警功能

结果

  • 此龙头企业借助LSF,在相同的硬件上,性能提高了10倍,开发周期缩短3~4倍。
  • 将作业运行在Spectrum Scale,数据高可靠性大大力高,消除了计划外停机时间。
  • 将许可证利用率从70%提高到几乎100%,显著节约成本
  • 提高对HPC集群的资源利用率,并确保高优先级任务快速完成。

2、Spectrum LSF 为跨国半导体公司每年节省了100 万美元的 TCO

全球重组项目背景

  • 由于并购和公司重组,客户的申请许可证和机器资源被孤立,导致下面问题:
    1) 机器和许可证资源利用率不足;
    2) 缺乏异地资源统一管理
    3)由于采购重复,业务费用飞涨。
  • 独立的工程团队只能访问他们自己的应用软件和集群
  • 超过10个集群需要作业调度和许可证权限,这些集群属于不同的业务单位和地域(美国、意大利、印度、日本、新加坡、中国上海)
  • 缺乏多集群的作业管理和监控能力

方案

  • LSF MultiCluster
  • LSF License Scheduler
  • LSF RTM

结果

  • 最小的开销实现LSF高性能作业调度
  • 缓解资源紧张问题,促进良好的资源共享机制
  • 根据业务优先级,仲裁Spectrum LSF集群、业务单元、项目和功能之间的license共享
  • 确保为关键项目和集群分配 license
  • 统一门户对多集群管理和监控,提高管理员的掌控能力

在这里插入图片描述

3、国内某工业仿真系统使用LSF做动态资源扩展

挑战

  • 国内某工业企业需要搭建复杂的仿真系统,已经采用了第三方的仿真软件。
  • 仿真作业的周期太长,最长可以达到三个月左右,而且作业容易出错,很难恢复。
  • 使用较为复杂,想通过前台的界面来提交作业。
  • 资源不够用的情况下,可以扩展到云端。

方案

  • 此研究机构采用了LSF来调度作业,工作效率大幅提升,原来需要三个月的作业,在数天之内就可以完成。
  • 使用LSF checkpoint之后,如果作业出问题,只需要从checkpoint去运行,无需从头开始,大大的节省了时间。
  • Application Center极大提高易用性,方便研发人员使用,极大提高工作效率
  • 使用License Scheduler来调度商业许可证。

结果

  • 部署IBM Spectrum LSF系列解决方案帮助此电子研究机构大幅提高了工作效率。
  • 借助于LSF,研究成果也大幅的提升,论文数量翻倍。
  • 使用人员借助于Application Center可以很好的完成了作业的提交、运行和监控。
  • 当作业量激增的情况下,LSF有效的将部分作业分发到了公有云端运行,大大提高了效率。
  • 云端资源共享的同时,采用许可证调度,使得许可证使用率从原有的40%提高到85%。

4、国内某超级计算中心使用LSF做作业调度

挑战

  • 集群规模庞大(2000个计算节点,2.5万个核)
  • 应用复杂(40多种商业软件,100多种科学计算程序)
  • 商业软件许可证管理
  • 资源租赁、计费

方案

  • Spectrum LSF统一管理集群所有软硬件资源和不同类型作业调度
  • Spectrum License Scheduler统一管理商业许可证分配和调度
  • Spectrum PAC提供一个易于使用且无缝的Web门户,用于可视化提交和管理工作负载
  • Spectrum RTM提供集群计算节点和作业实时监控和报警功能
  • Spectrum PA提供集群运行数据的报表、分析和挖掘功能

结果

  • 有效解决了多领域、复杂、大规模作业统一调度和管理
  • 作业运行效率提升20%-50%,运行时间大大缩短,每天作业吞吐量超过1000
  • 总体硬件资源利用率超过90%
  • 全面解决方案,易于监控和管理
  • 目前中国商业化运行最成功的超算中心

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/824237.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux进程(万字解析)

进程 一.冯诺依曼体系结构二.操作系统1.管理的概念2.系统调用和库函数概念 三.进程1.先描述2.再组织 四.Linux里的PCB1.概念2.理解当前路径3.PID1.kill指令2.获取自己的PID 4.初识fork函数 五.进程状态1.一般意义上的1.运行2.阻塞3.挂起 2.Linux内核里的状态1.运行态2.阻塞态3.…

2023软考下半年考试和报名时间汇总(附详细报名流程)

2023年上半年软考结束了,相信有不少准备报考下半年软考的考生正摩拳擦掌,期待在11月的考试中大显身手。2023下半年软考什么时候报名呢?一起来看看吧~ 根据中国计算机技术职业资格网发布的关于《2023年度计算机技术与软件专业技术资格&#x…

ERROR: transport error 202: gethostbyname: unknown host报错解决方案

Java 9 syntax for remote debugger: -agentlib:jdwptransportdt_socket,servery,suspendn,address*:5005Java 8 不适用 *:port,应该使用: -agentlib:jdwptransportdt_socket,servery,suspendn,address5005参考 https://stackoverflow.com/questions/50344957/ja…

预测性维护:融合新兴技术6大发展趋势

随着技术的不断进步,预测性维护在工业领域呈现出新的发展趋势。这些趋势旨在通过更有效地分析数据和利用先进的技术手段来提高设备的维护效率和性能。以下是笔者认为可能的预测性维护的六大新兴趋势,抛砖引玉,供交流探讨: 一、数据…

清风数学建模——层次分析法

层次分析法 文章目录 层次分析法评价类问题可以用打分来解决1.通过查阅资料选定指标2.画出权重表格并填写2.1.判断矩阵一致矩阵2.3一致性检验的步骤先算一致性指标CI根据表格查找n对应的RI(平均随机一致性指标),表格一般会在题目中给出计算一…

现场服务管理系统有哪些?5个现场服务管理软件对比

现场售后服务管理软件的使用者通常是机械设备、家电、仪表仪器、医疗器械等厂商的工程师和客服调度人员。现场售后服务管理软件可将服务过程标准化,包括工单派发、服务过程步骤、配件订购出货和付款、客户评价都有系统支持,有的现场售后服务软件还支持数…

有理逼近 C++详解

有理逼近 C详解 有理逼近问题描述输入输出格式输入格式输出格式 输入输出样例输入样例输出样例: 解法代码代码解法变量解析算法 注:本文支持互3~ 有理逼近 问题描述 输入输出格式 输入格式 输入文件的第一行为 P 、 N P、N P、N,其中 P …

MongoDB文档--架构体系

阿丹: 在开始学习先了解以及目标知识的架构体系。就能事半功倍。 架构体系 MongoDB的架构体系由以下几部分组成: 存储结构:MongoDB采用文档型存储结构,一个数据库包含多个集合,一个集合包含多个文档。存储形式&#…

ReID网络:MGN网络(2) - 模型定义

1. 概述 MGN网络使用ResNet50((Before res_conv4_2) )作为Backbone进行特征的析取。为了实现多粒度(Multiple Granularities),MGN从ResNet50的网络的尾部开始,将后续网络划分为3个分支,对应三个不同的粒度。 2. ResNet ResNet 网络是在 20…

【SQL应知应会】表分区(三)• Oracle版

欢迎来到爱书不爱输的程序猿的博客, 本博客致力于知识分享,与更多的人进行学习交流 本文收录于SQL应知应会专栏,本专栏主要用于记录对于数据库的一些学习,有基础也有进阶,有MySQL也有Oracle 分区表 • Oracle版 前言一、分区表1.什么是表分区…

CountdownLatch(门闩)

CountDownLatch是一个同步工具类,用来协调多个线程之间的同步,或者说起到线程之间的通信(而不是用作互斥的作用)。 CountDownLatch能够使一个线程在等待另外一些线程完成各自工作之后,再继续执行。使用一个计数器进行实…

前端视频播放技术概览

转眼间,2023 年已进入下半场,在这样一个时间节点下,长视频平台如爱奇艺、优酷、腾讯视频等,以及短视频平台如抖音、快手等,对大家来说早已是司空见惯的事物。然而,在我们追剧、刷弹幕的时候,很少…

超越AI的未来:ChatGPT菜鸟级使用流程

文章目录 1. ChatGPT简介2. 准备工作3. 安装OpenAI Python库4. 创建ChatGPT会话5. 发起对话请求6. 处理ChatGPT响应7. 示例应用8. 结语 引言: 随着人工智能技术的不断发展,自然语言处理(NLP)领域的一个重要突破是开放式AI语言模型。OpenAI的ChatGPT&…

系统架构设计师-软件架构设计(6)

目录 一、物联网分层架构 二、大数据分层架构 三、基于服务的架构(SOA) 1、SOA的特征 2、服务构件与传统构件的区别 四、Web Service(WEB服务) 1、Web Services 和 SOA的关系 五、REST(表述性状态转移) 六、ESB(…

linux系统编程重点复习--进程之间通信

目录 复习目标 2 进程间通信相关概念 2.1 什么是进程间通信 2.2 进程间通信的方式 3 管道-pipe 3.1管道的概念 3.2管道的原理 3.3管道的局限性 3.4创建管道-pipe函数 3.5父子进程使用管道通信 3.6 管道练习 3.7 管道的读写行为 3.8 如何设置管道为非阻塞 3.9 如何…

Maven设置阿里云路径(防止加载过慢)

<?xml version="1.0" encoding="UTF-8"?><!-- Licensed to the Apache Software Foundation (ASF) under one or more contributor license agreements. See the NOTICE file distributed with this work for additional information regardin…

git | git使用心得记录

公司里项目最近使用Git进行协作开发&#xff0c;总结一下使用心得 一、第一次用git&#xff0c;完全同步最新代码checkout 按照以下步骤操作 1、git init 2、git remote add origin 远程仓库的地址https://gitlab.xxxx.com.cn/xx/xx/xxx/Android/baseline/x.x.x.git(远程仓库…

剑指offer48.最长不含重复字符的子字符串

我一开始的想法是创建一个大小为26的int数组&#xff0c;下标为0对应的是‘a&#xff0c;25对应的是’z&#xff0c;然后一开始都赋为-1&#xff0c;用一个for循环从头遍历这个字符串&#xff0c;通过char c s.charAt(i)获得字符&#xff0c;然后c-97&#xff0c;就是它对应的…

《向量数据库指南》——向量数据库向专业化和智能化的发展趋势

随着数据的规模不断扩大和信息技术的发展,向量数据库在各个行业中扮演着越来越重要的角色。未来,随着技术的不断进步和市场需求的不断增长,向量数据库的应用将更加广泛和深入,同时也会出现更加专业化和智能化的趋势。 一、向量数据库的专业化发展 随着各个行业数据量的不…

【雕爷学编程】Arduino动手做(178)---超迷你哦,用徽商香烟盒做个智能小车2

早上去打羽毛球&#xff0c;路上捡到一个香烟盒子&#xff0c;于是就想尝试一下&#xff0c;捣鼓捣鼓。 经测试&#xff0c;控制器与电机使用同一组电源会互相干扰&#xff0c;故只好再加一组电池 商徽烟盒小车内部结构总算整好了&#xff0c;够迷你吧 小车轮子准备用矿泉水瓶盖…