作为一个社区,高性能计算(HPC)所看到的不仅仅是其“闪亮对象”技术的合理份额。随着新技术带来更高性能的希望,我们已经看到了超级计算几乎各个方面的变化。我们希望,这最终将转化为更好的研究或更好的见解。更改的选择可能是选择的供应商,或者是HPC群集基础上的技术(例如处理器,互连和存储)。它也可能是新型的工作负载,新的软件工具,甚至是用于容纳或冷却数据中心的根本不同的技术。我们是处于创新前沿的人们,这是我有信心不会改变的一件事。
其中许多像流星一样在天空中闪烁,一开始看上去很明亮,但是在奔跑时很快褪色。其他的则更像是彗星,它们显示出一段时间的希望,然后变暗,但最终又变得更亮。在我从HPC中断的五年中,有很多新技术出现和消失,两年前,我回到了一个非常熟悉的世界-相同处理器,相似互连和相似存储的更快版本。除非有真正的游戏规则改变者,否则HPC不会从根本上改变长期,并且社区在确定这些概念是相当机敏的。
几年前,人工智能(AI)在HPC领域崭露头角,令人振奋,但也受到HPC社区的怀疑。AI的出现方式与大多数人不同,其用户对优化核心性能或并行计算的代码不感兴趣,并且完全不熟悉传统的HPC批处理调度和集群。他们只是知道谁掌握了组织中高性能系统的关键,并希望参加聚会。
HPC管理员将尝试以“ HPC Jedi Masters”的神圣方式培训他们,但这种对话却收效甚微。事实证明,数据科学家希望成为数据科学工具的专家,而不是集群在下面的工作方式。其他人也敲开了高性能计算的大门,希望他们可以利用相同的高性能基础架构来收集他们在以AI为中心的用例的特定专业中收集的大量数据。最终,即使是经验丰富的HPC资深人士也开始研究AI,以查看它是否可以从他们的工作中获得更大的见解。他们真正知道要问的就是GPU,因为他们知道对于AI来说走得更快。幸运的是,对于HPC而言,加速系统并不是什么新鲜事物,尽管它似乎处于某些领域的第二轨道。
好消息是,HPC社区一直被公认为创新和绩效的孵化器,正在吸引这些新用户并推动增长。事实证明,AI不仅可以即时使用,它还正在迅速成为“跨科学”的基础科学,实际上非常适合作为HPC集群的工作负载。我们面临的挑战是如何最好地拥抱这些“ HPC新手”,以便他们可以提供下一代创新。
两年前,我们在联想向HPC客户推出了联想智能计算业务流程(LiCO)软件,其目标是使所有用户都能轻松利用联想集群的强大功能。具有不同专业知识水平的AI用户以及在“网络”上成长且喜欢图形界面的新HPC用户可以通过基于Web的门户网站使用LiCO获得他们想要的工具,以在集群上部署,监视和管理其工作负载Lenovo支持的解决方案。LiCO还提供了一个管理员门户,该门户提供群集监视和工具,以使用户能够使用一种解决方案。是的,LiCO仍然支持那里的“命令行牛仔”和“脚本专家”。
我们始终如一的目标是使Lenovo集群易于使用,并为所有需要资源的人提供访问权限,以继续进行创新。在过去两年中,通过五个LiCO版本以及全球范围内不断增长的客户群,HPC社区已经为我们提供了有关用户所需工具以及管理员有效使用这些工具的最大指导。例如,在LiCO 5.5中,新的计费和集群使用情况监视功能已添加到LiCO管理员门户中,从而使您更容易理解集群的HPC和AI使用情况,并确保向用户提供适当数量的资源。