Preface: Summit and Sierra Supercomputers

IF 1.3 4区 计算机科学 Q1 Computer Science
{"title":"Preface: Summit and Sierra Supercomputers","authors":"","doi":"10.1147/JRD.2020.2976169","DOIUrl":null,"url":null,"abstract":"","PeriodicalId":55034,"journal":{"name":"IBM Journal of Research and Development","volume":null,"pages":null},"PeriodicalIF":1.3000,"publicationDate":"2020-03-13","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"https://sci-hub-pdf.com/10.1147/JRD.2020.2976169","citationCount":"1","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"IBM Journal of Research and Development","FirstCategoryId":"94","ListUrlMain":"https://ieeexplore.ieee.org/document/9093084/","RegionNum":4,"RegionCategory":"计算机科学","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q1","JCRName":"Computer Science","Score":null,"Total":0}
引用次数: 1
前言:Summit和Sierra超级计算机
2018年在橡树岭(ORNL)和劳伦斯利弗莫尔(LLNL)能源部(DOE)国家实验室部署的Summit和Sierra超级计算机系统相对于其前身提供了计算能力的显着提高,代表了向百兆级计算迈出的重要一步。由IBM根据美国能源部CORAL计划开发的Summit和Sierra自2018年11月以来一直是世界500强超级计算机的第一名和第二名,而在之前的榜单中分别排名第一和第三。Summit和Sierra等超级计算机在并行计算、同步协调、网络带宽、通信模式和存储方面面临着独特的设计挑战,这在传统计算基础设施部署中是不常见的。虽然超级计算机和数据中心都是安装在单个位置的相互连接的计算节点的大型集合,但它们执行的计算风格不同。特别是,超级计算机的特点是在“裸机”资源上进行同步计算,协调并行工作,在并行任务之间传递消息,以及持续数小时甚至数天的密集计算周期,因此作业持续时间可能长于可靠性窗口。相比之下,通用数据中心使用虚拟化映像、由外部事件驱动的交互组件和用于驱动工作的信息交换,导致大量的短寿命计算块和为故障设计的软件结构。尽管这些领域的需求不同,但有一种趋势是将Summit和Sierra中的超级计算机技术整合到超大规模数据中心中,这反映了在更大的计算空间中日益扩大的高性能需求。在所需目标所要求的高效率的驱动下,Summit和Sierra系统基于异构计算方法,通过高带宽互连和最先进的存储系统将不同的计算引擎连接在一起,这是满足高性能应用需求的关键方面。通过OpenPOWER, IBM及其合作伙伴创建了一个模块化环境,依靠强大的IBM POWER9中央处理单元(cpu)来处理应用程序的串行和有限并行部分,依靠强大的NVIDIA V100图形处理单元(gpu)来处理大规模并行部分。节点通过Mellanox CX-5 ib网口互连,存储由IBM ESS (Elastic storage Server)服务器提供。额外的基础设施元素为操作此类大型系统所需的系统管理功能提供支持。这期IBM研究与开发杂志的特刊提供了对Summit和Sierra的主要硬件和软件属性的描述,以及在不同环境中使用这些超级计算机系统的示例。尽管它的内容很全面,但这个问题并没有涵盖这些系统能够提供的所有内容,也没有涵盖科学家和工程师已经用这些系统在相应领域推进知识的所有内容。与这些系统相关的许多其他出版物正在不同的技术场所出现,毫无疑问,随着越来越多的用户在其应用程序上使用这些系统,未来将会有更多的出版物。本期特刊的内容组织如下:前几篇文章介绍系统的体系结构和硬件方面,然后是系统软件管理和通信。然后,重点转移到两个DOE实验室的用户在系统开发期间和部署后的一段时间内收集的早期经验总结。下一篇文章将涉及可编程性和编译器技术,通过描述系统在两个应用领域的使用来完成这个问题。汉森的第一篇文章“珊瑚超级计算机系统”概述了部署在ORNL和LLNL的系统解决方案架构的最相关方面,基本上是一个以数据为中心的架构,其中计算能力嵌入数据所在的位置,将强大的cpu与针对科学计算和人工智能工作负载优化的gpu相结合,再加上最新一代的互连技术。为科学家提供计算能力,以解决许多研究领域的挑战,超出了以前的可能性。第二篇文章,Roberts等人的“为CORAL重新定义IBM POWER系统设计”,强调了在计算节点中引入的创新,而不是使用类似技术的非超级计算机的需求。具体来说,CORAL计划规定计算节点的规模为200petaflops,访问权限为2。 5 PB的内存,但也应该适用于单服务器应用程序的商业市场,这导致了Summit和Sierra使用的AC922 POWER服务器;这样的服务器也以不同的规模部署在多个其他安装上,利用风冷和水冷版本,允许在广泛的环境中使用。本文还描述了一些新颖的设计特性,它们可以促进数据移动并支持新的连贯编程模型。下一篇文章,由Stunkel等人撰写的“Sierra和Summit超级计算机的高速网络”,讨论了基于infiniband的Fat-tree网络https://www.top500.org/lists/ https://openpowerfoundation.org/ https://www.ibm.com/it-infrastructure/power/power9/ https://www.nvidia.com/en-us/data-center/volta-gpu-architecture/ https://www.mellanox.com/products/ https://www.ibm.com/us-en/marketplace/ibm-elastic-storage-server的属性
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 求助全文
来源期刊
IBM Journal of Research and Development
IBM Journal of Research and Development 工程技术-计算机:硬件
自引率
0.00%
发文量
0
审稿时长
6-12 weeks
期刊介绍: The IBM Journal of Research and Development is a peer-reviewed technical journal, published bimonthly, which features the work of authors in the science, technology and engineering of information systems. Papers are written for the worldwide scientific research and development community and knowledgeable professionals. Submitted papers are welcome from the IBM technical community and from non-IBM authors on topics relevant to the scientific and technical content of the Journal.
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术官方微信