新闻动态
News
N
AI崛起 GPU超越CPU窜升成一线主角
2020-12-14
8800
分享至:

导读: 因为AI、VR/AR与自驾车应用需求提高后,也促使GPU重要性与日俱增,甚至为了因应深度学习与AI应用趋势,新世代GPU反而希望尽可能在晶片中装入了更多电晶体和核心数,来提高大量同性质的资料计算能力。 GPU应用因AI开始有了截然不同的新转变,不只让一些支援高度平行运算应用的高阶GPU相继问世,现在连整套GPU深度学习专用伺服器也抢滩登陆,要助企业加快AI应用。

AI崛起 GPU窜升成一线主角

AI人工智慧、虚拟/扩增实境(VR/AR)与自动驾驶技术,在过去一年引起很高的市场关注,而一举跃升成为当前最火红的热门话题,特别是以深度学习(Deep Learning)为首的AI应用,过去几个月来,因为Google的AI电脑AlphaGo接连大败欧洲和南韩国围棋棋王,更在全世界吹起一股AI风潮,使得现在不只有大型科技或网路公司要大力投资AI,就连各国政府也都要砸重金扶植AI产业。

目前一些大型科技或网路业者,例如Google、Facebook、亚马逊AWS、IBM、微软与百度等,都陆续已在云端服务中融入AI服务,做为电脑视觉、语音辨识和机器人等服务用途,甚至,也开始有越来越多规模较小的新创或网路公司,如Api.ai、Drive. ai、Clarifai与MetaMind等,打算将AI开始应用在各行各业的领域上。

GPU开始在AI应用逐渐崭露头角

然而,决定这些AI服务能不能获得更好发挥的关键,不只得靠机器学习的帮忙,甚至得借助深度学习的类神经演算法,才能加深AI未来的应用。这也使得近年来,GPU开始在一些AI应用当中逐渐崭露头角。这是因为不论是AI、VR/AR,还是自动驾驶技术的应用,虽然各有不同用途,但他们普遍都有一个共同的特色,都是需要大量平行运算(Parallel Computing)的能力,才能当作深度学习训练模型使用,或者是将图形绘制更贴近真实呈现。

所谓的平行运算泛指的是将大量且密集的运算问题,切割成一个个小的运算公式,而在同时间内并行完成计算的一种运算类型。而GPU则是最能够将平行运算发挥到极致的一大关键,这是因为GPU在晶片架构上,原本就被设计成适合以分散式运算的方式,来加速完成大量且单调式的计算工作,例如图形渲染等。所以,过去像是高细腻电玩画面所需的大量图形运算,就成为了GPU最先被广为运用的领域,现在,VR/AR则是进一步打算将原本就擅于绘图运算的GPU发挥得更淋漓尽致,来呈现出高临场感的3D虚拟实境体验。

当然在游戏绘图运算外,后来GPU也被拿来运用在需要大量同质计算的科学研究中使用。甚至近年来,GPU也开始因为深度学习的关系,而在一些AI应用当中担任重要角色。

深度学习其实是机器学习类神经网路的其中一个分支,深度学习本身是由很多小的数学元件组合成一个复杂模型,就像是脑神经网路一般,可以建构出多层次的神经网路模型,来分别处理不同层次的运算工作,这些神经网路本身并不做判断,只重覆相同计算工作,使得GPU在深度学习方面可以获得很好的发挥,而随着网路、云端和硬体技术成熟所带来巨量的资料,也造就了现在所需完成训练的深度学习模型,比起以前更需要大量高阶GPU的平行运算能力,才足以应付得了。

GPU平行运算性价比赢过CPU

因为AI、VR/AR与自驾车应用需求提高后,也促使GPU重要性与日俱增,甚至为了因应深度学习与AI应用趋势,新世代GPU反而希望尽可能在晶片中装入了更多电晶体和核心数,来提高大量同性质的资料计算能力。若是以Nvidia新的Tesla P100系列的GPU加速器产品来举例说明的话,在这个GPU加速器内总共装有3,584个CUDA核心数(单精度条件下),其内含的电晶体数更一举超过了150亿颗,数量几乎是前一代Tesla M40 GPU的翻倍,在双精度条件下的浮点运算能力,更高达有5.3 TFLOPs。

当然GPU之外,CPU本身也具有计算处理的能力,不过在处理平行运算时,台湾大学资工系副教授洪士灏认为,GPU的CP值(性价比)比CPU还要高。这是因为GPU原本就擅长处理大量高同质性的资料计算工作,而CPU则擅于通用型任务的资料处理,所以对于一些需要大量单调式运算工作的应用,就很适合使用GPU来执行,例如利用深度学习神经网路训练模型来实现AI应用,或者是用绘图运算呈现VR/AR所需的高细腻画面,都很适合用GPU的方式来进行计算。

另外从Nvidia官方所公布的一份CUDA C Programming Guide设计指南中也揭露了在2013年前的过去10年间,GPU与CPU两者在单精度与双精度浮点运算(Floating-Point Operations Per Second,FLOPS)发展的比较差异。整体来看,GPU与CPU发展越到后期,两者在浮点运算处理能力的差距,有逐渐被拉大的趋势,这是因为越到后面才推出的新款GPU,更加强调浮点运算的重要性,而尽可能要提高GPU浮点运算的处理能力。所以,现在许多超级电脑内都有使用GPU,来大幅提高浮点运算的实力。

AI崛起 GPU窜升成一线主角

从Nvidia官方所公布的一份CUDA C Programming Guide设计指南中也部分揭露了在2013年前的过去10年间,GPU与CPU两者在单精度与双精度浮点运算发展的比较差异。

整体来看,GPU与CPU发展越到后期,两者在浮点运算处理能力的差距,有逐渐被拉大的趋势,这是因为越到后面才推出的新款GPU,更加强了浮点运算的能力。

今年GTC大会聚焦AI、VR/AR与无人汽车应用

今年在美国圣荷西举行的GTC技术大会(GPU Technology Conference),也因为AI、VR/AR、无人汽车的关系而格外备受瞩目。今年总共吸引了全球超过5千人参加,更有将近上百位的全球媒体、分析师到场,还有多达2百家厂商参展,规模是历年来最大。而做为主办方的Nvidia今年氛围也很不一样,Nvidia不仅在现场同时发布多款与深度学习和AI有关GPU新品,还针对了原本就擅长的VR/AR与自动驾驶应用领域推出了新的开发工具和产品,希望就此能让VR/AR与自动驾驶可以更进一步应用。

也正因为AI、VR/AR与自驾车让GPU的应用更广了,因而造就了GPU在这次GTC大会扮演的重要性和应用性明显提高不少,特别是AI与深度学习的应用方面,今年更成为会场上最炙手可热的技术话题,在为期4天超过240场大小场的GPU主题讲座中,有半数以上都围绕着AI与深度学习而打转,这还不包括了来自2位人工智慧界的重量级AI大师,分别是IBM人工智慧研究和技术策略的IBM Watson 技术长Rob High与丰田汽车研究机构执行长Gill Pratt,今年都亲自到场分享他们所观察到的最夯AI技术和应用新进展。

Nvidia执行长黄仁勋在今年主题演说中也强调GPU未来角色的重要性,将替深度学习与AI开启一种前所未有的全新运算模式(Computing Model),将促使深度学习成为未来企业甚至每个人,都不能加以忽视的大事(Big Deal ),甚至将开启另一种AI即平台的新服务模式(AI-as-a-Platform)。而为了抢攻AI与深度学习市场,Nvidia今年甚至还罕见地,首度发表世上第一台整套式深度学习专用的超级电脑DGX-1。

AI专用伺服器将助企业加快深度学习应用

Nvidia在这台深度学习专用的超级电脑DGX-1内,使用了伺服器专用的GPU加速器Tesla P100为基础而打造完成,Tesla P100采用了新一代Pascal架构设计,比前一代Maxwell架构的GPU加速器,在用来训练神经网路的效能方面,Nvidia宣称,Tesla P100足足有提升12倍之多。

Nvidia在这组超级电脑内总共装入8张Tesla P100加速卡,使得DGX-1在半精度(FP16)的浮点运算次数每秒高达有170TFLOPS,如此高度的运算能力,Nvidia甚至宣称,只要有了DGX-1,就等同于拥用了250台x86伺服器而搭建的运算丛集规模,将有助于企业在深度学习方面获得更好的应用效果。

而靠着DGX-1的高度运算能力,也因而缩短了过去用来做为深度学习训练所需花费的冗长时间,若以单组2路Xeon E5伺服器和DGX-1进行比较的话,根据Nvidia测试的结果,在做为AlexNet机器学习的模型训练方面,DGX-1完成训练所花费的时间要远比Xeon E5伺服器还快许多,Xeon级伺服器得要花150小时才能做完的训练,DGX-1只须2小时就能完成。若以训练机器辨识照片来举例的话,所代表的是,每天被喂给DGX-1机器做训练的照片,数量高达有13亿张。

除了GPU以外,这台DGX-1还有配置了一个2路Xeon E5 CPU处理器,系统记忆体部分最大则可支援512GB DDR4的记忆体容量,并也配备有7TB大小的SSD硬碟,至于电力供给部份则是使用一台3U高度3,200瓦的电源供应设备,还支援了NVLink 混合式立方网格 (NVLink Hybrid Cube Mesh)技术,可提供更高速GPU互连的能力,网路部分则提供了双10GbE连接埠和一个100Gb的Quad InfiniBand高速网路介面,而使得每台DGX-1机器的总传输频宽,每秒最高可达768GB。

不仅如此,Nvidia在这台DGX-1中加入许多新的深度学习软体功能,像是新增加的Nvidia深度学习GPU训练系统(Deep Learning GPU Training System,DIGITS),可用来协助企业设计一个完整且互动的神经网路,还支援了 CUDA深度神经网路图库(CUDA Deep Neural Network library,cuDNN )的v5新版本,可用来做为设计神经网路时可供GPU加速的函式图库。DGX-1系统内也提供了一些深度学习优化的框架,例如Caffe、Theano与Torch等,另还搭配一套云端管理存取的工具和一个容器应用储存库(Repository )。

Nvidia这台深度学习专用的超级电脑DGX-1,主要是使用了伺服器专用GPU加速器Tesla P100来打造完成的AI专用伺服器,因而在这台机器内总共装入8张Tesla P100加速显卡,使得DGX-1在半精度(FP16)的浮点运算次数每秒可高达170TFLOPS,如此高度的运算能力,Nvidia甚至宣称,这几乎等同于用250台x86伺服器而搭建的运算丛集规模,将助企业获得更好的深度学习作用。

GPU将挤身成为AI伺服器界的一线主角

而从Nvidia这次所发布DGX-1的销售策略来看,除了要积极抢攻深度学习与AI市场外,也不难看出Nvidia想要透过推出整套式AI专用的GPU伺服器,好让自己也开始变身成为一家能提供特殊GPU解决方案的伺服器供应商。

而这样的作法所带来的其中一个改变,便是也开始让GPU应用位置有了截然不同以往的转变。相较于过去GPU只在游戏或研究领域受到重视,但在伺服器应用当中,GPU始终沦为配角,CPU才是主角,CPU处理器规格决定了一台伺服器工作效能的高低,但现在,在一些特殊深度学习或AI专用的伺服器当中,GPU受重视的程度有时反而还高过了CPU,GPU反倒窜升成为一线主角。

以前,CPU是伺服器效能高低的关键,但现在,在这些深度学习或AI等特定用途的伺服器当中,GPU则是变成了关键,GPU拥有的核心数量多寡,决定了能不能将深度学习与AI更进一步延伸应用,CPU反而变成了配角,两者位置恰恰好颠倒了过来,不过这种情况,目前只有在一些特殊运算用途的AI设备中才看得到,但也确实反应了GPU应用位置,正在逐渐改变当中。

当然,除了AI与深度学习需要用到GPU外,另一个需要用到GPU的VR/AR应用也成为今年GTC大会的另一大热门焦点。除了现场有Nvidia技术人员展示结合GPU技术的各类VR应用外,展区内也设有VR Village体验区,参加者可以现场试用Oculus与HTC Vive这两款已正式出售的VR头戴式装置,现场体验VR带来的沉浸式视觉效果。

而从这些VR展示体验当中,也说明了VR技术已开始跨入大众化的实用阶段,而且不只运用在游戏娱乐领域,其他专业领域也开始能与VR结合,像是Nvidia在这次大会中就推出了一个Iray VR新应用,能将原本设计好的3D场景或物件模型,经过Iray渲染技术,在虚拟实境中呈现贴近真实情境的影像渲染效果,让VR不只是当作游戏使用而已,未来就连设计后的3D制图也能用VR渲染技术呈现。当然在持续提高VR影像画面细腻度和更快速的即时反应的同时, VR技术的下一步也需要搭配更高阶的GPU,才能达到更深度沉浸式的高临场感体验。

除此之外,在无人汽车应用方面也有新进展。Nvidia将参与协助打造首辆赛车用的无人汽车的计画,将采用Nvidia自动驾驶平台Drive PX2做为汽车电脑系统核心,未来这辆无人赛车完成以后,重量预估将达1吨重,并且将会参加即将在2016至2017年赛季,由Formula E电动方程式首度举办的Roborace无人驾驶赛事。这场无人赛车比赛,预估将会有10支队伍,共20辆的无人汽车参赛,共同在同个赛车场上较劲。每辆无人赛车硬体配备都完全相同,所以最后决胜关键将决定于哪只队伍可以运用机器学习,甚至借助深度学习的类神经演算法,尽可能提高驾驶判断的预测能力,才能做到在以毫秒为竞速单位的赛车场上称王。

Nvidia这次还首度用VR来呈现火星地理环境,让穿戴者可以沉浸在有如真实火星围绕的视觉感受当中,这些环境资料都是从搜集科学专用卫星的精确影像资料,以及火星任务取得数年的探测数据,所建构出贴近火星地形和气候的虚拟实境。Nvidia执行长黄仁勋现场还与苹果共同创办人Steve Wozniak远端视讯连线,并邀请他现场示范如何用VR来玩火星探险游戏,没想到Steve Wozniak却顾不得旁人,自己就在现场玩开了 ,惹得现场笑声一片,连人称科技顽童的他也难以抵挡VR的魅力,也正说明了VR技术已开始走入实用阶段。