AI崛起 GPU超越CPU窜升成一线主角

新闻动态

News

2020-12-14

10388

分享至：

导读：因为AI、VR/AR与自驾车应用需求提高后，也促使GPU重要性与日俱增，甚至为了因应深度学习与AI应用趋势，新世代GPU反而希望尽可能在晶片中装入了更多电晶体和核心数，来提高大量同性质的资料计算能力。 GPU应用因AI开始有了截然不同的新转变，不只让一些支援高度平行运算应用的高阶GPU相继问世，现在连整套GPU深度学习专用伺服器也抢滩登陆，要助企业加快AI应用。

AI崛起 GPU窜升成一线主角

AI人工智慧、虚拟/扩增实境（VR/AR）与自动驾驶技术，在过去一年引起很高的市场关注，而一举跃升成为当前最火红的热门话题，特别是以深度学习（Deep Learning）为首的AI应用，过去几个月来，因为Google的AI电脑AlphaGo接连大败欧洲和南韩国围棋棋王，更在全世界吹起一股AI风潮，使得现在不只有大型科技或网路公司要大力投资AI，就连各国政府也都要砸重金扶植AI产业。

目前一些大型科技或网路业者，例如Google、Facebook、亚马逊AWS、IBM、微软与百度等，都陆续已在云端服务中融入AI服务，做为电脑视觉、语音辨识和机器人等服务用途，甚至，也开始有越来越多规模较小的新创或网路公司，如Api.ai、Drive. ai、Clarifai与MetaMind等，打算将AI开始应用在各行各业的领域上。

GPU开始在AI应用逐渐崭露头角

然而，决定这些AI服务能不能获得更好发挥的关键，不只得靠机器学习的帮忙，甚至得借助深度学习的类神经演算法，才能加深AI未来的应用。这也使得近年来，GPU开始在一些AI应用当中逐渐崭露头角。这是因为不论是AI、VR/AR，还是自动驾驶技术的应用，虽然各有不同用途，但他们普遍都有一个共同的特色，都是需要大量平行运算（Parallel Computing）的能力，才能当作深度学习训练模型使用，或者是将图形绘制更贴近真实呈现。

所谓的平行运算泛指的是将大量且密集的运算问题，切割成一个个小的运算公式，而在同时间内并行完成计算的一种运算类型。而GPU则是最能够将平行运算发挥到极致的一大关键，这是因为GPU在晶片架构上，原本就被设计成适合以分散式运算的方式，来加速完成大量且单调式的计算工作，例如图形渲染等。所以，过去像是高细腻电玩画面所需的大量图形运算，就成为了GPU最先被广为运用的领域，现在，VR/AR则是进一步打算将原本就擅于绘图运算的GPU发挥得更淋漓尽致，来呈现出高临场感的3D虚拟实境体验。

当然在游戏绘图运算外，后来GPU也被拿来运用在需要大量同质计算的科学研究中使用。甚至近年来，GPU也开始因为深度学习的关系，而在一些AI应用当中担任重要角色。

深度学习其实是机器学习类神经网路的其中一个分支，深度学习本身是由很多小的数学元件组合成一个复杂模型，就像是脑神经网路一般，可以建构出多层次的神经网路模型，来分别处理不同层次的运算工作，这些神经网路本身并不做判断，只重覆相同计算工作，使得GPU在深度学习方面可以获得很好的发挥，而随着网路、云端和硬体技术成熟所带来巨量的资料，也造就了现在所需完成训练的深度学习模型，比起以前更需要大量高阶GPU的平行运算能力，才足以应付得了。

GPU平行运算性价比赢过CPU

因为AI、VR/AR与自驾车应用需求提高后，也促使GPU重要性与日俱增，甚至为了因应深度学习与AI应用趋势，新世代GPU反而希望尽可能在晶片中装入了更多电晶体和核心数，来提高大量同性质的资料计算能力。若是以Nvidia新的Tesla P100系列的GPU加速器产品来举例说明的话，在这个GPU加速器内总共装有3，584个CUDA核心数（单精度条件下），其内含的电晶体数更一举超过了150亿颗，数量几乎是前一代Tesla M40 GPU的翻倍，在双精度条件下的浮点运算能力，更高达有5.3 TFLOPs。

当然GPU之外，CPU本身也具有计算处理的能力，不过在处理平行运算时，台湾大学资工系副教授洪士灏认为，GPU的CP值（性价比）比CPU还要高。这是因为GPU原本就擅长处理大量高同质性的资料计算工作，而CPU则擅于通用型任务的资料处理，所以对于一些需要大量单调式运算工作的应用，就很适合使用GPU来执行，例如利用深度学习神经网路训练模型来实现AI应用，或者是用绘图运算呈现VR/AR所需的高细腻画面，都很适合用GPU的方式来进行计算。

另外从Nvidia官方所公布的一份CUDA C Programming Guide设计指南中也揭露了在2013年前的过去10年间，GPU与CPU两者在单精度与双精度浮点运算（Floating-Point Operations Per Second，FLOPS）发展的比较差异。整体来看，GPU与CPU发展越到后期，两者在浮点运算处理能力的差距，有逐渐被拉大的趋势，这是因为越到后面才推出的新款GPU，更加强调浮点运算的重要性，而尽可能要提高GPU浮点运算的处理能力。所以，现在许多超级电脑内都有使用GPU，来大幅提高浮点运算的实力。

AI崛起 GPU窜升成一线主角

从Nvidia官方所公布的一份CUDA C Programming Guide设计指南中也部分揭露了在2013年前的过去10年间，GPU与CPU两者在单精度与双精度浮点运算发展的比较差异。

整体来看，GPU与CPU发展越到后期，两者在浮点运算处理能力的差距，有逐渐被拉大的趋势，这是因为越到后面才推出的新款GPU，更加强了浮点运算的能力。

今年GTC大会聚焦AI、VR/AR与无人汽车应用

今年在美国圣荷西举行的GTC技术大会（GPU Technology Conference），也因为AI、VR/AR、无人汽车的关系而格外备受瞩目。今年总共吸引了全球超过5千人参加，更有将近上百位的全球媒体、分析师到场，还有多达2百家厂商参展，规模是历年来最大。而做为主办方的Nvidia今年氛围也很不一样，Nvidia不仅在现场同时发布多款与深度学习和AI有关GPU新品，还针对了原本就擅长的VR/AR与自动驾驶应用领域推出了新的开发工具和产品，希望就此能让VR/AR与自动驾驶可以更进一步应用。

也正因为AI、VR/AR与自驾车让GPU的应用更广了，因而造就了GPU在这次GTC大会扮演的重要性和应用性明显提高不少，特别是AI与深度学习的应用方面，今年更成为会场上最炙手可热的技术话题，在为期4天超过240场大小场的GPU主题讲座中，有半数以上都围绕着AI与深度学习而打转，这还不包括了来自2位人工智慧界的重量级AI大师，分别是IBM人工智慧研究和技术策略的IBM Watson 技术长Rob High与丰田汽车研究机构执行长Gill Pratt，今年都亲自到场分享他们所观察到的最夯AI技术和应用新进展。

Nvidia执行长黄仁勋在今年主题演说中也强调GPU未来角色的重要性，将替深度学习与AI开启一种前所未有的全新运算模式（Computing Model），将促使深度学习成为未来企业甚至每个人，都不能加以忽视的大事（Big Deal ），甚至将开启另一种AI即平台的新服务模式（AI-as-a-Platform）。而为了抢攻AI与深度学习市场，Nvidia今年甚至还罕见地，首度发表世上第一台整套式深度学习专用的超级电脑DGX-1。

AI专用伺服器将助企业加快深度学习应用

Nvidia在这台深度学习专用的超级电脑DGX-1内，使用了伺服器专用的GPU加速器Tesla P100为基础而打造完成，Tesla P100采用了新一代Pascal架构设计，比前一代Maxwell架构的GPU加速器，在用来训练神经网路的效能方面，Nvidia宣称，Tesla P100足足有提升12倍之多。

Nvidia在这组超级电脑内总共装入8张Tesla P100加速卡，使得DGX-1在半精度（FP16）的浮点运算次数每秒高达有170TFLOPS，如此高度的运算能力，Nvidia甚至宣称，只要有了DGX-1，就等同于拥用了250台x86伺服器而搭建的运算丛集规模，将有助于企业在深度学习方面获得更好的应用效果。

而靠着DGX-1的高度运算能力，也因而缩短了过去用来做为深度学习训练所需花费的冗长时间，若以单组2路Xeon E5伺服器和DGX-1进行比较的话，根据Nvidia测试的结果，在做为AlexNet机器学习的模型训练方面，DGX-1完成训练所花费的时间要远比Xeon E5伺服器还快许多，Xeon级伺服器得要花150小时才能做完的训练，DGX-1只须2小时就能完成。若以训练机器辨识照片来举例的话，所代表的是，每天被喂给DGX-1机器做训练的照片，数量高达有13亿张。

除了GPU以外，这台DGX-1还有配置了一个2路Xeon E5 CPU处理器，系统记忆体部分最大则可支援512GB DDR4的记忆体容量，并也配备有7TB大小的SSD硬碟，至于电力供给部份则是使用一台3U高度3，200瓦的电源供应设备，还支援了NVLink 混合式立方网格（NVLink Hybrid Cube Mesh）技术，可提供更高速GPU互连的能力，网路部分则提供了双10GbE连接埠和一个100Gb的Quad InfiniBand高速网路介面，而使得每台DGX-1机器的总传输频宽，每秒最高可达768GB。

不仅如此，Nvidia在这台DGX-1中加入许多新的深度学习软体功能，像是新增加的Nvidia深度学习GPU训练系统（Deep Learning GPU Training System，DIGITS），可用来协助企业设计一个完整且互动的神经网路，还支援了 CUDA深度神经网路图库（CUDA Deep Neural Network library，cuDNN ）的v5新版本，可用来做为设计神经网路时可供GPU加速的函式图库。DGX-1系统内也提供了一些深度学习优化的框架，例如Caffe、Theano与Torch等，另还搭配一套云端管理存取的工具和一个容器应用储存库（Repository ）。

Nvidia这台深度学习专用的超级电脑DGX-1，主要是使用了伺服器专用GPU加速器Tesla P100来打造完成的AI专用伺服器，因而在这台机器内总共装入8张Tesla P100加速显卡，使得DGX-1在半精度（FP16）的浮点运算次数每秒可高达170TFLOPS，如此高度的运算能力，Nvidia甚至宣称，这几乎等同于用250台x86伺服器而搭建的运算丛集规模，将助企业获得更好的深度学习作用。

GPU将挤身成为AI伺服器界的一线主角

而从Nvidia这次所发布DGX-1的销售策略来看，除了要积极抢攻深度学习与AI市场外，也不难看出Nvidia想要透过推出整套式AI专用的GPU伺服器，好让自己也开始变身成为一家能提供特殊GPU解决方案的伺服器供应商。

而这样的作法所带来的其中一个改变，便是也开始让GPU应用位置有了截然不同以往的转变。相较于过去GPU只在游戏或研究领域受到重视，但在伺服器应用当中，GPU始终沦为配角，CPU才是主角，CPU处理器规格决定了一台伺服器工作效能的高低，但现在，在一些特殊深度学习或AI专用的伺服器当中，GPU受重视的程度有时反而还高过了CPU，GPU反倒窜升成为一线主角。

以前，CPU是伺服器效能高低的关键，但现在，在这些深度学习或AI等特定用途的伺服器当中，GPU则是变成了关键，GPU拥有的核心数量多寡，决定了能不能将深度学习与AI更进一步延伸应用，CPU反而变成了配角，两者位置恰恰好颠倒了过来，不过这种情况，目前只有在一些特殊运算用途的AI设备中才看得到，但也确实反应了GPU应用位置，正在逐渐改变当中。

当然，除了AI与深度学习需要用到GPU外，另一个需要用到GPU的VR/AR应用也成为今年GTC大会的另一大热门焦点。除了现场有Nvidia技术人员展示结合GPU技术的各类VR应用外，展区内也设有VR Village体验区，参加者可以现场试用Oculus与HTC Vive这两款已正式出售的VR头戴式装置，现场体验VR带来的沉浸式视觉效果。

而从这些VR展示体验当中，也说明了VR技术已开始跨入大众化的实用阶段，而且不只运用在游戏娱乐领域，其他专业领域也开始能与VR结合，像是Nvidia在这次大会中就推出了一个Iray VR新应用，能将原本设计好的3D场景或物件模型，经过Iray渲染技术，在虚拟实境中呈现贴近真实情境的影像渲染效果，让VR不只是当作游戏使用而已，未来就连设计后的3D制图也能用VR渲染技术呈现。当然在持续提高VR影像画面细腻度和更快速的即时反应的同时， VR技术的下一步也需要搭配更高阶的GPU，才能达到更深度沉浸式的高临场感体验。

除此之外，在无人汽车应用方面也有新进展。Nvidia将参与协助打造首辆赛车用的无人汽车的计画，将采用Nvidia自动驾驶平台Drive PX2做为汽车电脑系统核心，未来这辆无人赛车完成以后，重量预估将达1吨重，并且将会参加即将在2016至2017年赛季，由Formula E电动方程式首度举办的Roborace无人驾驶赛事。这场无人赛车比赛，预估将会有10支队伍，共20辆的无人汽车参赛，共同在同个赛车场上较劲。每辆无人赛车硬体配备都完全相同，所以最后决胜关键将决定于哪只队伍可以运用机器学习，甚至借助深度学习的类神经演算法，尽可能提高驾驶判断的预测能力，才能做到在以毫秒为竞速单位的赛车场上称王。

Nvidia这次还首度用VR来呈现火星地理环境，让穿戴者可以沉浸在有如真实火星围绕的视觉感受当中，这些环境资料都是从搜集科学专用卫星的精确影像资料，以及火星任务取得数年的探测数据，所建构出贴近火星地形和气候的虚拟实境。Nvidia执行长黄仁勋现场还与苹果共同创办人Steve Wozniak远端视讯连线，并邀请他现场示范如何用VR来玩火星探险游戏，没想到Steve Wozniak却顾不得旁人，自己就在现场玩开了，惹得现场笑声一片，连人称科技顽童的他也难以抵挡VR的魅力，也正说明了VR技术已开始走入实用阶段。