当下,多元化的计算催生了庞大的算力需求,技术的发展在推动各行各业迈向数字化的同时,也给计算带来了前所未有的巨大挑战。如何应对数据洪流的冲击?如何利用多元化计算满足不同算力需求?如何以创新驱动来释放现在与未来的数据潜力?对于英特尔这样的半导体行业推动者们来说,是亟需明确的问题。
近日,英特尔公司市场营销集团副总裁、中国区云与行业解决方案部总经理梁雅莉,英特尔市场营销集团副总裁、中国区数据中心销售总经理兼中国区运营商销售总经理庄秉翰,英特尔亚洲AI及视觉计算销售技术高级总监伊红卫以及来自多个行业的英特尔合作伙伴发言人分享了关于这些问题的看法,从中我们可以看到英特尔与其合作伙伴,对于数字化、对于多元计算等领域和趋势的洞察。
(相关资料图)
·数字洪流催生庞大且多元化的计算需求
技术在人类生活的方方面面都发挥着越来越重要的作用。展望未来十年,一切都将继续数字化进程。我们的工作、学习、联络、开发和经营方式等都是如此。这一进程是由科技创新所驱动。在数字时代,我们将见证技术的真正力量。
梁雅莉说:“正如英特尔CEO 帕特·基辛格在2022年英特尔On技术创新峰会上提出的洞察,作为基础性技术的“五大超级技术力量”,包括计算、连接、从云到边缘的基础设施、人工智能、传感和感知,正在深刻地塑造我们体验世界的方式,这些基础技术推动了从模拟时代到数字时代的跨越,并结合在一起,相互增强和赋能,深刻地塑造了我们体验世界的方式。”
十年前,这些超级技术力量是模糊的,是天马行空的,是无法被普通大众所亲身感知的,而今天,这些超级技术力量正在深入到日常生活的每一个角落,变得越来越普遍,越来越与普通人所息息相关。我们可以促进创新、探索和增长,搭建起从现实世界到数字世界的桥梁。而这也带来了数据量的指数级增长以及数据形态的多元化。
在数据“量”的方面,当我们把日常的经济、娱乐、生活中的一些事情搬到虚拟数字世界去进行,缩短时空带来的交互,继续提高我们的效率时,与之相应产生的数据量预计将达到Quecca级别,这将是10的27到30次方,数据量之庞大可见一斑。
在数据“质”的方面,任何新的应用发展都会带来新的数据形式以及新的数据处理方式的要求,因而会有越来越多新的数据格式出现,它的实时性要求越来越高,数据量也越来越高。同时这些数据都是来自真实世界的一些场景,不可能依靠预先编好的程序,必须要有新的算法,这些算法又带来了对更强计算能力的要求。
因此,不论是从数据“量”还是“质”上来看,传统的单一计算架构在当下以及未来都无法一劳永逸,同时解决所有问题。我们需要用不同的架构处理不同类型的数据,真正做到“用好的工具解决好的问题”,从而更加高效地处理复杂计算。
而在不同的计算架构中,GPU的主要任务是加速图形渲染:即在2D屏幕上创建2D和3D图像。简言之,GPU就是负责在屏幕上绘制像素。CPU旨在一次处理一两个复杂任务,而GPU旨在并行处理许多小任务。
现在,我们正处于一场由更多用户、更多应用和更高分辨率所共同驱动的像素爆炸变革中。云游戏,网络媒体处理与传输,AI推理,虚拟桌面基础设施等等新兴应用场景,都对像素提出了巨大需求。
如3D游戏这样的任务,当人们越需要身临其境、真实的沉浸感游戏时,像素变化就会不断加剧,进而要求GPU做更多的工作。不同的物理特效、光影效果等细节,每一个像素的显示都要比以往消耗更多的GPU资源,从而确保细节渲染的流畅度,并快速完成这些工作。
除了游戏这类常见应用之外,当今的数据中心基础设施也承担着计算、编码、解码、传输、存储和显示视觉信息的巨大压力。GPU的应用场景正在快速增长,除了绘制像素,GPU在人工智能、深度学习和科学计算等领域的应用也正在帮助人类解决复杂的计算挑战。
·英特尔推出数据中心级GPU Flex系列
因此,英特尔推出了专为消费端打造,致力于为全球游戏玩家和创作者不断打造卓越体验的英特尔锐炫(Intel Arc)高性能显卡产品品牌;旨在满足智能视觉云的工作负载需求,提供更出色的媒体转码吞吐性能和支持多达68路实时云游戏流的英特尔数据中心GPU Flex系列。
英特尔数据中心GPU Flex系列就是此前英特尔公布的代号Arctic Sound-M的数据中心级GPU,这一系列为客户提供的单一GPU解决方案,能够在不牺牲性能或质量的情况下,灵活处理多种工作负载。帮助客户突破孤立且封闭的开发环境的限制,同时降低数据中心对于不得不使用多个分离、独立的解决方案的需求。Flex系列GPU有两种规格:75W的Flex 140配备了12GB内存,150W的Flex 170配备了16GB内存,两款产品均已向客户出货。
作为英特尔XPU战略的重要一环,GPU是应对多元化计算的又一利器,它强大的并行计算能力可以补全CPU所无法覆盖到的计算类型。
英特尔市场营销集团副总裁、中国区数据中心销售总经理兼中国区运营商销售总经理庄秉翰先生详细介绍了GPU Flex系列。
Flex系列GPU的两个型号Flex 140和Flex 170均基于英特尔XeHPG架构打造,Flex140功耗为75W,半高PCIe卡,内置16个Xe内核和16个光追单元;Flex170功耗为150W,全高PCIe卡,内置32个Xe内核和32个光追单元。
在媒体运算方面,Flex系列GPU支持最多单卡4个(Flex140)媒体运算引擎,可提供业界领先的编解码密度。Flex系列GPU支持业界领先的AV1编码格式,在同样的视频质量下,可节省30%以上的传输带宽(vs.AVC)。
在算力方面,Flex系列GPU内置英特尔Xe矩阵扩展(XMX)计算单元,大幅提升AI算力,可提供高达256Tops(INT8)的算力支持。
而在虚拟化方面,Flex系列GPU支持硬件SR-IOV技术,并且不需要软件授权费用,可以帮助企业客户节省大量成本支出。
在开发方面,除了在硬件层面的创新和突破之外,英特尔还积极打造开放、全面的软件堆栈,为开发者带来良好的开发环境与技术支持。
基于英特尔开源软件工具oneAPI,提供统一的编程架构,包括一整套开发者熟悉的编程语言和标准的跨架构库、工具和框架,使开发人员可以利用oneAPI支持的开放软件堆栈,轻松地开展面向Flex系列GPU的设计工作,充分释放硬件的性能潜力。并且帮助用户开发开放的、易于移植的代码,更大限度利用多种跨英特尔硬件平台的组合,例如CPU和GPU。实现用不同的架构处理不同类型的数据,真正做到“用好的工具解决好的问题”,并打破跨架构计算的平台壁垒。
庄秉翰表示,“基于全方位的硬件和软件创新,Intel Flex系列GPU可以灵活处理多种云工作负载。首先是媒体处理、传输和媒体编解码,在像素爆发的时代,这是非常常见的应用。以及云游戏,我们稍候也会介绍Flex系列产品在云游戏的应用,可以为云游戏的厂商提升性价比。Flex系列也有强大的AI推理功能,尤其是与媒体处理结合,在图像的智能视觉推理上,可以带来非常大的性能提升。最后是虚拟桌面基础架构(VDI),因为Flex系列GPU支持硬件SR-IOV技术,对提供VDI的厂商来说,可以优化使用者的TCO(总体拥有成本)。”
随后,英特尔分享了Flex系列GPU在各个工作负载中的表现。
在媒体处理与传输方面,Flex GPU系列支持的AV1编解码技术相比于H.264技术在同样画质下可带来码率的大幅下降,从而降低数据的传输带宽,节省总体拥有成本。
如上图所示可以看到,包括AV1在内的多种编码格式,Flex 140 GPU都在解码性能测试中取得了远超英伟达A10 GPU的成绩。值得一提的是Flex 140的功耗为75W,仅仅为A10 GPU的一半。
在转码性能上,英特尔Flex 140 GPU同样在75W功耗的情况下取得了远超竞品的性能测试成绩。所以在编解码上,Flex系列GPU也拥有非常优异的性能。
云游戏方面,上图我们可以看到单张Flex 170或者140可以同时支持的游戏的路数。对于当下热门的游戏如王者荣耀,单张Flex 170显卡在游戏画质为720p@30fps时,可以同时支持多达68路的游戏同时运行。这可以为客户带来了极大的成本优化。除了Android游戏之外,在最近的版本发布上,Flex GPU系列也支持Windows云游戏,同一张卡既可以支持Android云游戏,又可以支持Windows云游戏,对于英特尔的合作伙伴来说,这是一个非常灵活的方案。
Flex系列GPU支持XeSS超级采样技术。通过AI超分的技术手段,在画面质量接近的前提下,大幅缩短渲染时间,进而提升运行效率。上图可以看到,在4K渲染下,XeSS超采样技术可以大幅缩短渲染时间。因此,对于很多标清转高清和修复老视频的应用,XeSS超采样技术是可以带来大幅度的性能提升。
Flex GPU也拥有强劲的AI推理能力。尤其在视频流编解码使用时,性能提升尤为明显。以智能视觉推理场景为例,需要先对视频流进行解码处理,然后再进行AI运算。这是一个典型的多种工作负载融合的应用场景,需要GPU具有很好的灵活性。得益于Flex GPU的媒体计算引擎和Xe矩阵引擎(XMX),Flex 170在多种不同的编码格式和AI模型的组合中的性能测试表现都超过了竞品。
任何产品的成功都离不开产业上下游的通力合作。英特尔与OEM合作伙伴们有着多年的良好合作,包括国内的新华三、浪潮、宁畅、宝德、超聚变在内的众多合作伙伴在第一时间就已经展开了对于Flex系列GPU的适配工作,支持Flex GPU的服务器产品也已陆续上市。
除了硬件合作伙伴之外,英特尔也携手了广泛且多样的行业生态伙伴,包括互联网和电信运营商在内的终端客户等,共同构建起了Flex GPU的规模化生态体系。
·合作伙伴案例分享
中科大洋技术研究院院长褚震宇讲解了英特尔数据中心Flex GPU在视频解码与转码方面的应用与性能表现。
北京中科大洋科技发展股份有限公司成立于1989年,是一家有着30多年历史的广电企业,现在拥有5家子公司,近百家办事处和经销机构,员工有千余人。公司深入发展超高清、媒体融合、媒体云服务等多项业务领域,致力于以视音频、广播电视多媒体为核心的融媒体全生态链技术的研究、开发与应用。为广电、报业、媒体集团、视频运营商、MCN、自媒体以及政府教育等数于家行业用户提供优质服务。先后两次荣获“国家科技进步一等奖”及数百个行业奖项,参与数十项国家及行业标准的起草和修订工作。
中科大洋选用了自研的LeoVideo Cloud云转码产品构建Flex GPU应用生态,这是针对高性能视频处理需求设计的专业媒体处理平台。平台基于CPU+GPU的硬件加速架构,为电视台全媒体融合内容生产、IPTV节目点播、OTT多屏点播、手机电视、互联网电视等业务提供优质高效的转码、技审、抽帧、打包等服务。
平台支持从8K到SD的任意分辨率,覆盖电视、电影、IPTV、Mobile、OTT、Web等多屏新媒体格式,支持集群、软件、云服务、单机等多种应用模式,在电视台、广电新媒体、视音频制作公司以及教育、档案、文博等行业广泛使用。
褚震宇说:“为了能够进一步加速视频解码和转码的性能,同时能够提升服务的性价比,中科大洋验证了搭载英特尔数据中心GPU Flex 140时,LeoVideo Cloud在视频解码以及转码方面的性能表现。测试选用操作系统CentOS 7.4,在双至强6348处理器平台上搭载了75瓦功耗的Flex140 GPU,使用了广电领域专业测试视频素材来保证测试的严格和严谨性。”
从上图来看,高性能方面,搭载Flex GPU的LeoVideo Cloud能够解码16路4K并发或4路8K并发或60路高清并发。编码方面实现了6路4K并发或30路高清并发。需要重点提及的是,在编码质量上,尤其是在甚低码率编码质量上,英特尔Flex 140较竞品有明显优势。右侧柱状图中是Flex 140和CPU在不同码率和分辨率PSNR客观指标的对比。GPU硬件加速在编码质量方面超过CPU相当有难度。Flex系列GPU使用了英特尔oneAPI工具套件优化,LeoVideo Cloud表现出超越前代N卡平台产品的性能和质量,而且具有更优异的性价比,将非常契合国内电视台及新媒体等主流应用场景。最后,通过提升解码和转码系统的性能和质量,Flex系列GPU实现了有效降低TCO的目标。
亿联网络高级解决方案架构师林振鹏则分享了基于Flex GPU的高性能远程视频会议案例。
亿联网络成立于2001年,是一家专注于统一通信与协作解决方案的供应商,深植于音、视频领域20多年。正是由于20多年的深耕,公司对远程音、视频的应用覆盖面既多又广,覆盖了云上、云下的业务。
林振鹏介绍说,“关于视频会议的传统应用,早期更多是将其用于传统的自建式的视频会议服务,这种服务更多应用于安全、数据可靠、自主管理的使用,比如说幻灯片中所示总部下沉式的服务。随着2020年疫情爆发,很多用户在使用时更多选择转向云上的应用服务,以便扩展到快速扩容,快速易用的使用场景。相信各位线上的朋友们也经历过远程办公,云上的服务能够更多提供远程办公的路径,但是随着后疫情时代的到来,很多业务可能会下沉到本地使用,针对这样的业务使用场景,亿联网络一直致力于深耕自身解决方案,努力将自建化与云上结合打造出一整套的业务,满足更多的应用使用场景。但在整个应用的使用场景下,这一整体的业务更多依赖传统的编解CPU的应用处理方式,而这种传统的应用方式在面对高性能处理时还存在一定缺陷。”
其实在传统的处理方式上,对于远程视频会议的处理面临很多挑战。无论是早期的MCU传统架构下,或者是现在新的视频会议架构下,都无法实现优质的高并发的处理,仍有问题亟待解决,即当SIPH.323终端接入会议的时候,需要进行全编全解的能力。
在传统的处理架构之下,CPU的处理架构需要兼顾到多种业务处理方式,又要做到整体的业务编解码,这时会出现在传统的H.265的情况下,编解能力是较为低下,而在H.264的情况下,同样存在性能和性价比不足的情况。在这样的情况下,亿联网络引入了Flex GPU的方案,通过英特尔Flex GPU做到了全方位的优化和提升。
如图所示,通过引入Flex GPU处理的方式,亿联网络将GPU全方位用来做图像的编解、处理、缩放以及对应的混屏功能,而CPU则可以专注在更优的业务处理上,通过这样一个完整的业务处理方式,大家可以看到最终的优化效果。
在使用CPU处理方式的传统情况下,其软编解的能力在H.265,4K@30FPS的情况下只能达到2路,但通过引入Flex GPU硬编解,我们可以在4K@30FPS,H.265的情况下达到19路,即在同应用场景、同等性能的情况下可以做到更高更好。
应用Flex GPU也得到了在可靠性方面的全面提升。功能上可以满足用户的实际应用,包括解码、混屏、缩放、编码等功能。同时,在引入GPU的情况下,原有的CPU也可以专注在原有的业务使用上,将传统业务处理地更好,使得业务的容灾、切换、使用上更大更强。目前亿联网络在容灾应用的使用场景上达到了业界领先的标准。在会议服务器宕机的情况下,其容灾机制可以做到5秒内会议快速切换,用户使用无感知,整体业务在1分钟之内可以全部恢复,这是亿联网络在当前业务过程中最强、最高的应用。
云游戏方面,来自火山引擎的系统架构师梁宇分享了Flex 140 GPU的安卓云游戏案例。
梁宇首先介绍了火山引擎云游戏解决方案的大体情况,他说:“目前我们的云游戏解决方案能够兼容多架构和多种GPU的硬件,同时支持安卓容器和安卓虚拟机。目前主要的落地场景集中在抖音云游戏和试玩广告上。”
在制定安卓云游戏解决方案的过程中,火山引擎遇到了许多挑战。挑战一是整个安卓实例单路的成本,具体分为两部分:一是包含GPU在内的硬件服务器成本,尤其是GPU的成本在整个服务器当中占了较大的比重;二是网络带宽的成本,为了应对降低网络带宽成本的需求,开启了H.265编码格式。在H.265编码格式开启之后,对于同样画质的码流,网络带宽的需求会下降。挑战二是在安卓云游戏的场景,对GPU的硬件编解码能力的需求较大。目前,在业界生态当中,GPU编解码主要有两种类型,一种是额外增加外部的编码硬件,即特定的编码卡,另一种是GPU自带的编码器。而Flex 140自带的强大硬件编解码功能,十分有助于软硬件的整合和成本控制。挑战三是端到端延迟。火山引擎在视频推流方面有自研的Byte RTC,以及利用火山引擎的边缘节点部署来缩短端到端的网络延时。
以《航海王热血航线》这款游戏为例,在最大加载的情况下,720p@60FPS的场景下,可以看到单张Flex 140的GPU编码达到60路,渲染为20路。在1080p@60FPS下,编码达到28路,渲染为10路。总体而言,同样是75W功耗下,Flex 140 GPU渲染能力高于参考GPU的12路渲染,编码能力更强大,最大可以支持60路的编码,高于参考GPU的12路编码。
最后,来自当虹科技的解决方案总监郑晓玲女生分享了Flex GPU在AI老片修复系统方面的应用。
当虹科技自1994年起就一直深耕音、视频领域,首先服务海外市场,随后拓展到国内市场。服务的客户主要包括IPTV新媒体公司、有线电视、电信运营商和产业园等,他们均对视、音频转码和老片修复有着一定需求。基于此,当虹科技打造了老片修复解决方案。
郑晓玲女士介绍说,“我们知道历史上有很多珍贵的影视材料,随着科技的发展,工作人员致力于把这些经典影片再次呈现在我们面前。传统的老片修复需要人工去一帧帧修复,一天工作人员能完成20-30帧的修复,一部90分钟的影片,通常需要几个月的时间才可以完成修复,修复进度十分缓慢。在这个基础上,我们运用AI辅助老片修复的工具,大大解放了人力,提高了老片修复的效率。”
老片修复的AI技术主要有以下几方面应用:一是AI插帧,通过AI插帧把更多的帧数插入以前25帧、24帧,或是40帧的画面,让影片可以在4K、8K要求的50帧甚至是更高帧率要求下播放出来,换言之,通过这样的方式就可以把它从标清或者是高清变为4K、8K视频。二是AI HDR转换,以前标清和高清的画面都是BT.709色域的,在4K、8K播放时,就需要把色域空间变大为HDR的色域空间。三是AI超分,指提高分辨率,变为4K和8K。四是AI画质增强。所有的应用实际上都是让视频具有更高画质、更高质量。
AI老片的修复流程主要如下:首先要将胶片数字化,数字化之后可以开始对它进行修复,在修复过程当中,通常采取手动修复和AI修复相结合的方式,对素材的各类损伤进行处理,主要是去除噪点,后续是色彩修复。先结合老片的背景和特点人工给关键帧上色,再让AI学习上色,AI会对颜色深浅、色度、亮度作出修复。修复之后,通过对视频进行插帧、超分和上变换,让修复后的老片画面更流畅逼真。将视频进行上变换,可以把标清、高清转换为4K、8K。
郑晓玲女士补充说,“我们都知道,在老片修复的过程当中,会涉及不断的编解码,而当虹科技的拳头产品是编解码。在这个过程当中,我们携手英特尔利用Flex GPU的技术,实现了跨架构的CPU+GPU的模式,提高了效率。同时,我们还应用了英特尔OpenVINO的工具套件,进一步优化AI修复模型,从而更具效率,大家可以看到,右边图片是修复前和修复后的画面,在画质上有非常大的提升。”
接下来郑晓玲女士介绍了两个业务场景,一是直播业务场景,如1U服务器通过搭载英特尔Flex,最高可支持2通道的4KHDR超分信号增强和编转码处理,也就是说只要一台1U的设备,就可以同时有两路,实时画面是1:1的流输出,因此它可以支持两路的4KHDR超分和视频增强。二是离线业务场景,1U服务器最高可支持3倍速4K HDR超分视频增强转换处理。比如60分钟的视频,只需20分钟便可以将一个高清或标清的视频转换成4K HDR视频,效率大幅提升。
英特尔重返高性能GPU市场,为企业用户带来了低功耗、高性能且效率出众的Flex GPU系列。强大的AV1编解码能力,出色的GPU图形计算能力为企业用户降本增效带来巨大助益。
关键词: Flex