高性能计算(HPC)和云计算曾是两个“平行世界”,各自演绎着精彩,却鲜有交集。

传统上,HPC主要应用于大规模计算,如天气预报、石油勘探、药物研发等。这些任务通常借助超级计算机或计算集群运行,需要很多特殊的软硬件来加速节点间通讯并提升性能和可靠性,自成一统的同时也阻碍了拥抱新技术、新平台的步伐。

云计算在诞生初期掀起了虚拟化的浪潮,甚至尝试过与HPC亲密接触,但终因性能损耗和网络延时而失之交臂。伴随亚马逊等云平台的迅猛发展,通用计算领域几乎已变成云的天下,千行百业都在基于云底座进行数字化转型。迈向纵深的云计算与下落凡尘的HPC,有望再续前缘。

值得关注的是,外部环境发生的剧烈变化,也促使“平行世界”之间的相互穿越成为可能。

一方面,数字经济的高速发展带来数据规模的几何级数增长,随之而来的算力需求也大幅增加。既有的高性能计算集群或超级计算中心模式,已很难满足爆发性的需求和多元化的场景,HPC必须谋求崭新的演进路径。

另一方面,人工智能的快速渗透与新型硬件的风起云涌,使云计算如虎添翼。机器学习、深度学习极大拓展了业务应用范畴,推动智能化与高性能紧密结合。

正所谓“歇马凭云宿,扬帆截海行”——HPC在踌躇谋变之际,恰好遇到处于上升期的云计算,和人工智能、加速计算等提供助力的“小伙伴”,他们组成强大的HPC+阵营,共赴数字化升级的星辰大海。

这不是纸上谈兵,重要的是付诸行动。近日,亚马逊云科技举办“云启赋新 高性能计算业务创新论坛”(点击链接观看视频回放),与来自不同行业的专家共同探索“HPC +”时代如何为客户赋能,帮助他们加速创新。

行业领导者的率先垂范,是HPC+扬帆起航的标志性信号。云上的澎湃算力,将为客户解决运行大型复杂模拟和深度学习工作负载的难题,高性能计算会继续乘风破浪。

云计算驱动HPC开疆扩土

Hyperion Research市场调研的数据显示,到2022年底将有18.8%的HPC在云端运行,而这个数据在2021年只有12.3%。

来自Market Research Future的报告也表明,云端高性能计算在未来五年会保持21%的年复合增长率,2023年的市场规模将达220亿美元。

显而易见,HPC与云的深度融合正在提速,这既是客户应对业务挑战的必然结果,又与高性能计算本身的进化密切相关。

从客户需求的角度看,本地高性能计算基础设施限制了工程师、科学家和研究人员及时获得成果,约有72.8%的组织表示高性能计算工作遭到延迟或取消。这将导致很多客户错失创新的窗口期,收入预期自然难以达成。

路径依赖造成的成本负担与技术压力也不容忽视。客户在建设与运营自有数据中心的过程中,总是在高峰期的捉襟见肘与日常的浪费闲置之间痛苦摇摆。通过采用新算法适应原有基础设设施的做法,难免以牺牲部分性能为代价,综合评估得不偿失。

如果把视野再放大一些,会发现HPC早就不局限于原来的“一亩三分地”,应用场景的显著扩展也促使基础设施向云底座跃迁。

在计算机辅助工程与流体力学、天气及气候预报、地震反演和储层预测、新药发现和基因检测等传统优势领域,HPC要应对超大规模计算带来的技术架构与投入产出比挑战;面对金融量化交易风控模型、电子芯片设计EDA、数字孪生、自动驾驶、影视渲染乃至量子计算等新场景,HPC必须融入各个行业数字化转型的进程,满足层出不穷的差异化需求。

图:点击观看视频

以竞争激烈的美洲杯帆船赛为例(参见视频):像素分割模拟计算对帆船竞赛将产生决定性影响——把船分成的像素越多,模型就越精确,但这意味着计算量成倍地飙升,此时云计算的价值就会凸显。从某种意义上讲,乘风破浪的动力不是风的力量,而是云的力量。

云的弹性、灵活性、可扩展性等先天禀赋正是HPC化解难题的良方,后天形成的市场渗透力及其与人工智能、加速计算等新兴技术的协同效应,更为云与HPC携手同行奠定了坚实基础。

云上高性能计算的进化路径

作为云平台的开创者与领路人,亚马逊云科技在高性能计算领域屡创佳绩,连续四年入选HPC连线杂志“最佳HPC云平台”,并在2021 CCF年会上获得高性能计算实例产品创新大奖。

目前,在全球高性能计算转向云平台的过程中,约有58%的高性能计算云端计算量处于亚马逊云科技平台上。依托领先的前瞻性研究、成熟的服务体系和扎实的落地案例,亚马逊云科技探索出云与HPC融合的最佳路径,并根据市场环境变化不断演进。

亚马逊云科技大中华区产品部总经理陈晓建认为,构建HPC云上服务并非堆砌服务器资源那么简单,背后是完整的HPC生态系统。

以亚马逊云科技建立的完整堆栈的HPC服务模式为例:

底部的基础层涵盖算力资源、高速网络和存储,构成整个体系的基石。亚马逊云科技500+不同类型的服务器组合满足各类复杂场景需求,提供100G以上带宽吞吐、支持MPI的EFA网卡使网络不再是高性能计算的瓶颈,支撑高性能计算且在云端实现多级的文件存储策略,进一步帮助客户提升资源利用效率。

中间的控制层是HPC生态系统的大脑,主要涉及集群创建和任务编排——亚马逊云科技提供了各种性能、功能的产品,为不同场景的客户带来价值;最上层的可视化致力于营造易用的环境,亚马逊云科技基于NICE DCV方案可在极低的网络吞吐量前提下,提供高分辨率、低延迟的用户体验。

需要指出的是,HPC生态不是存在于一个岁月静好的稳定环境,而是要随时应对大系统的变迁与小场景的打磨。在混合云日益盛行的背景下,公有云平台需要推出更有针对性的策略,才能立于不败之地。

基于NICE Enginframe server+Amazon HPC Connector中间件,亚马逊云科技帮助客户在混合云架构下,实现本地数据中心与云上资源的平滑切换,并根据不同场景提供适宜的解决方案:

应对突发任务上云,当客户的本地数据中心无法支撑任务时,可无缝访问亚马技云科技的充足资源;针对缺乏上云经验的客户,通过HPC混合云逐步、分批地帮助客户使用相关资源;对于决定工作迁移的客户,以统一的控制台有计划、大规模地将 HPC任务跨本地数据中心和云上环境部署。

以更长远的眼光来看,量子计算是未来算力增量的源泉。亚马逊云科技不仅拥有Braket这样的商业化产品,而且面向量子计算构筑起多层次的服务体系,在化学及材料科学、城市交通优化等场景取得积极进展。

首先,亚马逊云科技打破量子计算技术壁垒,建立完全托管的服务模式,便于客户快捷地探索和试验;其次,提供专家级的支持,客户可与亚马逊量子实验室进行深度合作;再次,基于量子计算中心在量子算法和硬件等方面做创新研究,寻求通往未来的算力密码。

HPC+催生场景化创新

《美国创新史》的作者Harold Evans发现,由借鉴和结合产生的创新多于纯粹的发明,洞察事物间相互关联性的能力比创造力更重要。

以前定义HPC工作负载的方法,通常是根据高性能计算任务是松耦合型还是紧耦合型,更看重网络带宽和延迟需求,同时会从HPC任务涉及的数据规模来考量。

但最近两年,亚马逊云科技发现,随着硬件技术的创新,以及人工智能的迅猛发展,越来越多的HPC任务和AI、ML、DL相结合。这就要求为客户提供相对应的方案,也由此催生出HPC+的概念——从更广泛的维度,包括加速计算、机器学习、深度学习等多方面去设计服务和构建方案。

伴随HPC的重量级伙伴逐渐增多,围绕HPC+的场景化创新正纷至沓来,亚马逊云科技在其间扮演着举足轻重的角色。

助力影视渲染行业转型,是HPC+展示身手的新舞台。内容制作需要超大规模渲染算力,从传统的CPU渲染升级为GPU渲染可加速制作进程,深度学习自动生成形状、材质、光照及场景能提供增强型的观看体验——三者分别对应云、加速计算、人工智能,HPC+的好伙伴,一个也不能少。

以多部史诗级作品著称的影视制作巨头Weta Digital即是典型案例。十几年前,《阿凡达1》基于Weta Digital自己的数据中心完成制作;从2020年起,由亚马逊云科技为其提供大规模渲染集群、云上工作室方案、机器学习堆栈等服务支撑,显著提升制作效率与渲染效果,即将瓜熟蒂落的《阿凡达2》值得期待。

辅助创新药物和疫苗研发,也是HPC+擅长的领域。靶点的选择和确认、化合物的发现与优化、临床研究、真实世界分析等都离不开各方的协同发力。亚马逊云科技和药明康德在用药机理上合作,借助图神经网络技术将建模时间缩短5倍;与晶泰科技在分析发现上也取得突破,不仅计算出最稳定的晶体结构,而且得到其全景图,为后续药物研发筑牢根基。

此外,在自动驾驶、流体仿真等场景,HPC+同样显现出不可或缺的作用,在海量数据存储与分析、从仿真结果中提取复杂关系等方面成果显著。据了解,亚马逊云科技已为国内外主流商用车、乘用车厂商提供与自动驾驶相关的服务支撑,在F1赛车、帆船竞技等流体仿真应用前沿亦屡有斩获。

未来,HPC+的阵容必将持续发展壮大。那些曾经单打独斗的航船会组合成无坚不摧的航空母舰,驶向数字化海洋的最深处。

2022亚马逊云科技中国峰会将于9月22日~23日在上海召开,助力各行各业伙伴及客户在云端自由构建·探索无限。

现已开启报名,请点击链接或者扫描下图海报中的二维码进入神奇的旅程。

来源:IT创事记

HPC+时代,携手亚马逊云科技,共赴数字化升级的星辰大海!的更多相关文章

  1. 亚马逊云科技现身世界人工智能大会,揭示AI最新技术趋势

    2022世界人工智能大会(WAIC)于日前落幕.经过过去四届的发展与沉淀,今天的世界人工智能大会已成为人工智能领域最有影响力的国际盛会之一,今年大咖云集.国际大厂扎堆,充分彰显了大会的国际影响力和磁力 ...

  2. 当 EDA 遇到 Serverless,亚马逊云科技出招了

    近二三十年来,软件开发领域毫无疑问是发展最为迅速的行业之一. 在上个世纪九十年代,世界上市值最高的公司大多是资源类或者重工业类的公司,例如埃克森美孚或者通用汽车,而现在市值最高的公司中,纯粹的软件公司 ...

  3. 使用AWS亚马逊云搭建Gmail转发服务(三)

    title: 使用AWS亚马逊云搭建Gmail转发服务(三) author:青南 date: 2015-01-02 15:42:22 categories: [Python] tags: [log,G ...

  4. 使用AWS亚马逊云搭建Gmail转发服务(二)

    title: 使用AWS亚马逊云搭建Gmail转发服务(二) author:青南 date: 2014-12-31 14:44:27 categories: [Python] tags: [Pytho ...

  5. 使用AWS亚马逊云搭建Gmail转发服务(一)

    title: 使用AWS亚马逊云搭建Gmail转发服务(一) author:青南 date: 2014-12-30 15:41:35 categories: Python tags: [Gmail,A ...

  6. 亚马逊云架设WordPress博客

    作者:Vamei 出处:http://www.cnblogs.com/vamei 欢迎转载,也请保留这段声明.谢谢! 这篇文章介绍如何在亚马逊云架设WordPress博客.最强的云,加上最流行的建站工 ...

  7. [转]Amazon AWS亚马逊云服务免费一年VPS主机成功申请和使用方法

    今天部落将再次为大家介绍如何成功申请到来自亚马逊的Amazon AWS免费一年的VPS主机服务.亚马逊公司这个就不用介绍了,是美国最大的一家网络电子商务公司,亚马逊弹性计算云Amazon EC2更是鼎 ...

  8. 亚马逊云服务器VPS Amazon EC2 免费VPS主机配置CentOS及其它内容

    Amazon目前提供为期一年的免费VPS服务,可到地址http://aws.amazon.com 进行申请. 现在对账号申请成功后,对VPS主机配置CentOS的过程做个图文介绍 1.创建实例(Ins ...

  9. AWS系列之一 亚马逊云服务概述

    云计算经过这几年的发展,已经不再是是一个高大上的名词,而是已经应用到寻常百姓家的技术.每天如果你和互联网打交道,那么或多或少都会和云扯上关系.gmail.github.各种网盘.GAE.heroku等 ...

随机推荐

  1. 一文详解JackSon配置信息

    背景 1.1 问题 Spring Boot 在处理对象的序列化和反序列化时,默认使用框架自带的JackSon配置.使用框架默认的,通常会面临如下问题: Date返回日期格式(建议不使用Date,但老项 ...

  2. ASP.NET MVC的核心-Controller(控制器)

    "每一个请求都必须通过Controller处理,然而其中有些请求是不需要模型和视图的" MVC框架规定带Controller后缀的类称为所谓的"控制器",在xx ...

  3. NFS网络文件系统搭建

    1. 简介 NFS, 就是network file system的简称. 可以通过NFS, 来共享不同主机的文件.目录. 2010年,NFS已经发展到v4.1版本. 2. 应用场景 在中小型企业中,N ...

  4. 『现学现忘』Docker基础 — 41、将本地镜像推送到阿里云

    目录 1.准备工作 2.阿里云容器镜像仓库的使用 (1)创建命名空间 (2)创建容器镜像 (3)查看阿里云镜像仓库的信息 3.将本地Docker镜像推送到阿里云 (1)登陆阿里云 (2)给镜像生成版本 ...

  5. 【题解】Educational Codeforces Round 82

    比较菜只有 A ~ E A.Erasing Zeroes 题目描述: 原题面 题目分析: 使得所有的 \(1\) 连续也就是所有的 \(1\) 中间的 \(0\) 全部去掉,也就是可以理解为第一个 \ ...

  6. 配置git的ssh

    Linux,Windows就在git bash here里面输 ① 初始化git账户 git config --global user.name "Eisen" git confi ...

  7. 5-11 Redis缓存 | 持久化 | 集群_哨兵_主从复制_读写分离

    Redis 强化 缓存淘汰策略 Redis服务器繁忙时,有大量信息要保存 如果Redis服务器内存全满,再要往Redis中保存新的数据,就需要淘汰老数据,才能保存新数据 noeviction:返回错误 ...

  8. day06 Socket_线程API_线程并发安全

    使用多线程实现多客户端连接服务端 流程图 服务端代码改造: package socket; import java.io.BufferedReader; import java.io.IOExcept ...

  9. [javaweb]javaweb中HttpServletResponse实现文件下载,验证码和请求重定向功能

    HttpServletResponse web服务器接受到客户端的http请求之后,针对这个请求,分别创建一个代表请求的httpServletRequest和代表响应的HttpServletRespo ...

  10. ESP8266 使用 DRV8833驱动板驱动N20电机

    RT 手里这块ESP8266是涂鸦的板子,咸鱼上三块一个买了一堆,看ESP8266-12F引脚都差不多的.裸焊了个最小系统,加两个按钮(一个烧录,一个复位) 1. 准备工作 搜索过程中发现 DRV88 ...