咨询热线

400-008-8636

图片展示
图片展示

客户案例

解决方案

2020年选择[最佳深度学习GPU]

作者:林海天成科技 浏览:276 发表时间:2020-05-14 17:07:30 来源:林海天成科技

  2020年,用于深度学习的最佳GPU风格化图形的标头图像,先进的(SOTA)深度学习模型具有大量内存占用空间。许多GPU没有足够的VRAM来训练它们。在本文中,我们确定了哪些GPU可以训练最新的网络而不会引发内存错误。我们还将基准每个GPU的训练性能。


  TLDR:


  截至2020年2月,以下GPU可以训练所有SOTA语言和图像模型:

  RTX 8000:48 GB VRAM,约5,500美元。

  RTX 6000:24 GB VRAM,约4,000美元。

  Titan RTX:24 GB VRAM,约2500美元。

  以下GPU可以训练大多数(但不是全部)SOTA模型:

  RTX 2080 Ti:11 GB VRAM,约1,150美元。 *

  GTX 1080 Ti:11 GB VRAM,约$ 800翻新。 *

  RTX 2080:8 GB VRAM,约720美元。 *

  RTX 2070:8 GB VRAM,约500美元。 *

  以下GPU不适合用于训练SOTA模型:

  RTX 2060:6 GB VRAM,约359美元。

  *在这些GPU上进行训练需要小批量,因此会降低模型的准确性,因为模型的能量分布会受到影响。


  影像模型


  内存不足之前的最大批处理大小

  型号/ GPU 2060 2070 2080 1080 Ti 2080 Ti Titan RTX RTX 6000 RTX 8000

  NasNet大型4 8 8 8 8 32 32 64

  DeepLabv3 2 2 2 4 4 8 8 16

  Yolo v3 2 4 4 4 4 8 8 16

  Pix2Pix HD 0 * 0 * 0 * 0 * 0 * 1 1 2

  样式GAN 1 1 1 4 4 8 8 16

  掩码RCNN 1 2 2 2 2 8 8 16

  * GPU没有足够的内存来运行模型。

  性能,以每秒处理的图像为单位

  型号/ GPU 2060 2070 2080 1080 Ti 2080 Ti Titan RTX RTX 6000 RTX 8000

  NasNet大型7.3 9.2 10.9 10.1 12.9 16.3 13.9 15.6

  DeepLabv3 4.4 4.82 5.8 5.43 7.6 9.01 8.02 9.12

  Yolo v3 7.8 9.15 11.08 11.03 14.12 14.22 12.8 14.22

  Pix2Pix HD 0.0 * 0.0 * 0.0 * 0.0 * 0.0 * 0.73 0.71 0.71像素

  样式1.92 2.25 2.6 2.97 4.22 4.94 4.25 4.96

  MaskRCNN 2.85 3.33 4.36 4.42 5.22 6.3 5.54 5.84

  * GPU没有足够的内存来运行模型。


  语言模型


  内存不足之前的最大批处理大小

  型号/ GPU单元2060 2070 2080 1080 Ti 2080 Ti Titan RTX RTX 6000 RTX 8000

  变形金刚大代币0 * 2000 2000 4000 4000 8000 8000 16000

  转换Seq2Seq令牌0 * 2000 2000 3584 3584 8000 8000 16000

  unsupMT令牌0 * 5005001000 1000 4000 4000 8000

  BERT基本序列8 16 16 32 32 64 64 128

  BERT微调序列1 6 6 6 6 24 24 48

  MT-DNN序列0 * 1 1 2 2 4 4 8

  * GPU没有足够的内存来运行模型。


  性能


  型号/ GPU单元2060 2070 2080 1080 Ti 2080 Ti Titan RTX RTX 6000 RTX 8000

  变压器大字/秒0 * 4597 6317 6207 7780 8498 7407 7507

  转换Seq2Seq字/秒0 * 7721 9950 5870 15671 21180 20500 22450

  不支持MT字/秒0 * 1010 1212 1824 2025 3850 3725 3735

  BERT Base Ex./秒34 47 58 60 83 102 98 94

  BERT Finetue Ex./秒7 15 18 17 22 30 29 27

  MT-DNN Ex./sec 0 * 3 4 8 9 18 18 28

  * GPU没有足够的内存来运行模型。

  结果由Quadro RTX 8000标准化


  结论


  语言模型比图像模型受益于更大的GPU内存。注意右图比左图陡。这表明语言模型受内存限制更大,而图像模型受计算限制更大。


  具有较高VRAM的GPU具有更好的性能,因为使用较大的批处理大小有助于使CUDA内核饱和。


  具有更高VRAM的GPU可按比例实现更大的批处理大小。进行后计算可以得出合理的结果:具有24 GB VRAM的GPU可以比具有8 GB VRAM的GPU容纳大约3倍的批处理。


  对于长序列,语言模型的内存占用不成比例,因为注意力是序列长度的二次方。


  GPU建议


  RTX 2060(6 GB):如果您想在业余时间探索深度学习。

  RTX 2070或2080(8 GB):如果您认真研究深度学习,但GPU预算为$ 600-800。八GB的VRAM可以适合大多数型号。

  RTX 2080 Ti(11 GB):如果您认真研究深度学习,而您的GPU预算约为1,200美元。 RTX 2080 Ti比RTX 2080快40%。

  Titan RTX和Quadro RTX 6000(24 GB):如果您正在广泛使用SOTA型号,但没有预算用于RTX 8000提供的面向未来的解决方案。

  Quadro RTX 8000(48 GB):您正在投资未来,甚至可能有幸在2020年研究SOTA深度学习。

  Lambda为GPU笔记本电脑和工作站提供GPU配置,范围从单个RTX 2070到4个Quadro RTX 8000。此外,我们提供的服务器最多支持10个Quadro RTX 8000或16个Tesla V100 GPU。


  影像模型


  模型任务数据集图像大小存储库

  NasNet大图像分类ImageNet 331x331 Github

  DeepLabv3图像分割PASCAL VOC 513x513 GitHub

  Yolo v3对象检测MSCOCO 608x608 GitHub

  Pix2Pix高清图像风格化CityScape 2048x1024 GitHub

  StyleGAN图像生成FFHQ 1024x1024 GitHub

  MaskRCNN实例细分MSCOCO 800x1333 GitHub


  语言模型


  模型任务数据集仓库

  变压器大监督机器翻译WMT16_zh_CN GitHub

  转换Seq2Seq受监督机器翻译WMT14_zh_CN GitHub

  unsupMT无监督机器翻译NewsCrawl GitHub

  BERT基本语言建模enwik8 GitHub

  BERT Finetune问答SQUAD 1.1 GitHub

  MT-DNN GLUE GLUE GitHub

  迈克尔·巴拉班(Michael Balaban)


2020年选择[最佳深度学习GPU]
长按图片保存/分享
0

相关推荐

产品中心

戴尔     华为

联想     浪潮

摩莎     超微

华三    光网视

MAXHUB

英伟达 

联系我们

座机:400-008-8636

手机:13911641588

微信:13911641588

技术QQ:535028700

公司地址:北京市海淀区彩和坊路天创科技大厦701A

京ICP备17025596号-1           Copyright ©2017 - 2020 北京林海天成科技有限公司             

可信用网站
安全联盟
阿里云
诚信网站