IT综合服务提供商-林海天成
客户案例
锐捷助力黑龙江中医药大学附属第一...
黑龙江中医药大学附属第一医院暨黑龙江中医药大学第一临床医学院,于1963年建院,现已成为省内规模大、科室设置全、业务水平高、教学实力强的一所集医疗、教学、科研、保健、康复于一体的现代化综合性三级甲等中医医院。
大连理工:一图在手,智慧我有,这...
在Wi-Fi 普及的校园中,如何将大量的实时网络行为数据进行连接、存储、挖掘、分析,把它们与数字校园联动起来,绘制成一张“魔法地图”,这是大连理工正在思考的问题。
浪潮打造稳定可靠的山东省中医数据...
浪潮英信机架式服务器兼顾密度、性能、能效和扩展性,是企业级数据中心的理想选择。具有丰富的机型以及灵活的配置,可满足各种应用对处理能力、存储能力的不同需求。同时,浪潮英信通用服务器拥有从低端到高端的完整产品线,包括传统塔式服务器NP系列、机架式服务器NF系列、刀片服务器NX系列、应用优化服务器SA系列、机柜式服务器SR系列,全方位满足行业用户的个性化需求。
浪潮八路服务器助力广西玉柴企业E...
玉柴当前的主要战略是利用前沿的信息化技术,以市场和产品为中心优化供应链,让企业从以研发为中心,转变成以客户和市场为中心,不断提高毛利率。为此,玉柴构建以ERP系统和PLM系统为平台的互融互通的企业信息化系统,成为总部管控、产品管理、交付能力和智能服务等四项企业核心能力的支撑工具
打破传统,VxRail帮助客户实...
VxRail采用更先进的超融合架构,2U高度集合了计算、网络、存储等资源,无论先期部署维护,还是后期省级管理都非常方便。另一方面,通过与传统方案进行对比分析 (包括总体拥有成本的TCO分析等),同时对方案的品牌性、性能参数与其他品牌的对比,最终该汽车部件制造商认可了VxRail解决方案。
解决方案
2020年,用于深度学习的最佳GPU风格化图形的标头图像,先进的(SOTA)深度学习模型具有大量内存占用空间。许多GPU没有足够的VRAM来训练它们。在本文中,我们确定了哪些GPU可以训练最新的网络而不会引发内存错误。我们还将基准每个GPU的训练性能。
TLDR:
截至2020年2月,以下GPU可以训练所有SOTA语言和图像模型:
RTX 8000:48 GB VRAM,约5,500美元。
RTX 6000:24 GB VRAM,约4,000美元。
Titan RTX:24 GB VRAM,约2500美元。
以下GPU可以训练大多数(但不是全部)SOTA模型:
RTX 2080 Ti:11 GB VRAM,约1,150美元。 *
GTX 1080 Ti:11 GB VRAM,约$ 800翻新。 *
RTX 2080:8 GB VRAM,约720美元。 *
RTX 2070:8 GB VRAM,约500美元。 *
以下GPU不适合用于训练SOTA模型:
RTX 2060:6 GB VRAM,约359美元。
*在这些GPU上进行训练需要小批量,因此会降低模型的准确性,因为模型的能量分布会受到影响。
影像模型
内存不足之前的最大批处理大小
型号/ GPU 2060 2070 2080 1080 Ti 2080 Ti Titan RTX RTX 6000 RTX 8000
NasNet大型4 8 8 8 8 32 32 64
DeepLabv3 2 2 2 4 4 8 8 16
Yolo v3 2 4 4 4 4 8 8 16
Pix2Pix HD 0 * 0 * 0 * 0 * 0 * 1 1 2
样式GAN 1 1 1 4 4 8 8 16
掩码RCNN 1 2 2 2 2 8 8 16
* GPU没有足够的内存来运行模型。
性能,以每秒处理的图像为单位
型号/ GPU 2060 2070 2080 1080 Ti 2080 Ti Titan RTX RTX 6000 RTX 8000
NasNet大型7.3 9.2 10.9 10.1 12.9 16.3 13.9 15.6
DeepLabv3 4.4 4.82 5.8 5.43 7.6 9.01 8.02 9.12
Yolo v3 7.8 9.15 11.08 11.03 14.12 14.22 12.8 14.22
Pix2Pix HD 0.0 * 0.0 * 0.0 * 0.0 * 0.0 * 0.73 0.71 0.71像素
样式1.92 2.25 2.6 2.97 4.22 4.94 4.25 4.96
MaskRCNN 2.85 3.33 4.36 4.42 5.22 6.3 5.54 5.84
* GPU没有足够的内存来运行模型。
语言模型
内存不足之前的最大批处理大小
型号/ GPU单元2060 2070 2080 1080 Ti 2080 Ti Titan RTX RTX 6000 RTX 8000
变形金刚大代币0 * 2000 2000 4000 4000 8000 8000 16000
转换Seq2Seq令牌0 * 2000 2000 3584 3584 8000 8000 16000
unsupMT令牌0 * 5005001000 1000 4000 4000 8000
BERT基本序列8 16 16 32 32 64 64 128
BERT微调序列1 6 6 6 6 24 24 48
MT-DNN序列0 * 1 1 2 2 4 4 8
* GPU没有足够的内存来运行模型。
性能
型号/ GPU单元2060 2070 2080 1080 Ti 2080 Ti Titan RTX RTX 6000 RTX 8000
变压器大字/秒0 * 4597 6317 6207 7780 8498 7407 7507
转换Seq2Seq字/秒0 * 7721 9950 5870 15671 21180 20500 22450
不支持MT字/秒0 * 1010 1212 1824 2025 3850 3725 3735
BERT Base Ex./秒34 47 58 60 83 102 98 94
BERT Finetue Ex./秒7 15 18 17 22 30 29 27
MT-DNN Ex./sec 0 * 3 4 8 9 18 18 28
* GPU没有足够的内存来运行模型。
结果由Quadro RTX 8000标准化
结论
语言模型比图像模型受益于更大的GPU内存。注意右图比左图陡。这表明语言模型受内存限制更大,而图像模型受计算限制更大。
具有较高VRAM的GPU具有更好的性能,因为使用较大的批处理大小有助于使CUDA内核饱和。
具有更高VRAM的GPU可按比例实现更大的批处理大小。进行后计算可以得出合理的结果:具有24 GB VRAM的GPU可以比具有8 GB VRAM的GPU容纳大约3倍的批处理。
对于长序列,语言模型的内存占用不成比例,因为注意力是序列长度的二次方。
GPU建议
RTX 2060(6 GB):如果您想在业余时间探索深度学习。
RTX 2070或2080(8 GB):如果您认真研究深度学习,但GPU预算为$ 600-800。八GB的VRAM可以适合大多数型号。
RTX 2080 Ti(11 GB):如果您认真研究深度学习,而您的GPU预算约为1,200美元。 RTX 2080 Ti比RTX 2080快40%。
Titan RTX和Quadro RTX 6000(24 GB):如果您正在广泛使用SOTA型号,但没有预算用于RTX 8000提供的面向未来的解决方案。
Quadro RTX 8000(48 GB):您正在投资未来,甚至可能有幸在2020年研究SOTA深度学习。
Lambda为GPU笔记本电脑和工作站提供GPU配置,范围从单个RTX 2070到4个Quadro RTX 8000。此外,我们提供的服务器最多支持10个Quadro RTX 8000或16个Tesla V100 GPU。
影像模型
模型任务数据集图像大小存储库
NasNet大图像分类ImageNet 331x331 Github
DeepLabv3图像分割PASCAL VOC 513x513 GitHub
Yolo v3对象检测MSCOCO 608x608 GitHub
Pix2Pix高清图像风格化CityScape 2048x1024 GitHub
StyleGAN图像生成FFHQ 1024x1024 GitHub
MaskRCNN实例细分MSCOCO 800x1333 GitHub
语言模型
模型任务数据集仓库
变压器大监督机器翻译WMT16_zh_CN GitHub
转换Seq2Seq受监督机器翻译WMT14_zh_CN GitHub
unsupMT无监督机器翻译NewsCrawl GitHub
BERT基本语言建模enwik8 GitHub
BERT Finetune问答SQUAD 1.1 GitHub
MT-DNN GLUE GLUE GitHub
迈克尔·巴拉班(Michael Balaban)
相关推荐