华为推出全球最快AI训练集群Atlas 900

2019-09-18 16:08:29  阅读:2571+ 作者:责任编辑。陈微竹0371

9月18日,华为全联接2019(HUAWEI CONNECT)大会上,华为副董事长胡厚崑发布了Atlas 900 AI练习集群,以超强算力带给企业人工智能事务的极致体会。国际正从数字化向智能化转型,人工智能工业作为要害驱动力,面对本身的晋级进化的应战。华为在超强人工智能算力和大规划分布式AI练习集群两个方面加快智能化国际的转型。

图1 华为Atlas 900 AI练习集群

Atlas 900 AI 练习集群介绍

在大型数据集上进行练习的神经网络架构包括从图画识别、自然语言处理、视频实时剖析和智能引荐体系等各个方面,练习这些神经网络模型需求很多浮点核算才能。近年来单个AI处理器算力和练习方法上均取得了严重前进,但是在单一机器上,AI练习所需求的时刻依然长得不切实际,因而需求凭借大规划分布式AI集群环境来提高神经网络练习体系的浮点核算才能。

此次发布的Atlas 900 AI练习集群由数千颗昇腾910 AI处理器互联构成,是当时全球最快的AI练习集群,代表了当今全球的算力巅峰。其总算力到达256P~1024P FLOPS @FP16,相当于50万台PC的核算才能。

Atlas 900 AI练习集群抢先技能优势

AI算力业界抢先

Atlas 900 AI练习集群选用业界单芯片算力最强的昇腾910 AI处理器,每颗昇腾910 AI处理器内置32个达芬奇AI Core,单芯片供给比业界高一倍的算力(256TFLOPS@FP16)。Atlas 900 AI练习集群将数千颗昇腾910 AI处理器互联,打造业界榜首的算力集群。

昇腾910 AI处理器选用SoC规划,集成AI算力、通用算力、高速大带宽I/O,大幅度卸载Host CPU的数据预处理使命,充沛提高练习功率。

最佳集群网络

Atlas 900 AI练习集群选用HCCS、 PCIe 4.0、100G以太三类高速互联方法,百TB全互联无堵塞专属参数同步网络,下降网络时延,梯度同步时延缩短10~70%。

在AI服务器内部,昇腾910 AI处理器之间经过HCCS高速总线互联;昇腾910 AI处理器和CPU之间以最新的PCIe 4.0(速率16Gb/s)技能互联,其速率是业界干流选用的PCIe 3.0(8.0Gb/s)技能的两倍,使得数据传输愈加快速和高效。在集群层面,选用面向数据中心的CloudEngine 8800系列交流机,供给单端口100Gbps的交流速率,将集群内的一切AI服务器接入高速交流网络。

首创iLossless 智能无损交流算法,对集群内的网络流量进行实时的学习练习,完结网络0丢包与E2E μs级时延。

体系级调优

Atlas 900 AI练习集群经过华为调集通讯库和作业调度渠道,整合HCCS、 PCIe 4.0 和100G RoCE三种高速接口,充沛开释昇腾910 AI处理器的强壮功能。

华为调集通讯库供给练习网络所需的分布式并行库,通讯库+网络拓扑+练习算法进行体系级调优,完结集群线性度>80%,极大提高了作业调度功率。

极致散热体系

传统数据中心多以风冷技能对设备进行散热,但在人工智能年代传统数据中心却面对非常大的应战。高功耗器材比方CPU和AI芯片带来更大的热岛效应要求更高效的冷却方法。液冷技能能够满意数据中心高功率、高密布置、低PUE的超高需求。

Atlas 900 AI练习集群选用全液冷计划,立异性规划业界最强柜级密闭绝热技能,支撑>95%液冷占比。单机柜支撑高达50kW超高散热功耗,完结PUE<1.1的极致数据中心动力功率。

别的,在空间节约方面,与8kW风冷机柜比较,节约机房空间79%。极致的液冷散热技能满意了高功率、高密设备布置、低PUE的需求,极大地下降了客户的TCO。

Atlas 900AI练习集群抢先的Benchmark目标

华为已在华为云上布置了一个Atlas 900 AI练习集群,集群规划为1024颗昇腾910 AI处理器。根据当时最典型的ResNet-50 v1.5模型和 ImageNet-1k数据集,Atlas 900AI练习集群只需59.8秒就可完结练习,排名全球榜首。

ImageNet-1k数据集包括128万张图片,精度为75.9%,在平等精度下,其他两家业界干流厂家测验成果分别是70.2s和76.8s,Atlas 900 AI练习集群比第2名快15%。

图2 根据ResNet-50 v1.5模型和 ImageNet-1k数据集的测验数据

Atlas 900 AI 集群适用场景

Atlas 900 AI集群主要为大型数据集神经网络练习供给超强算力,可广泛应用于科学研究与商业立异,让研究人员更快地进行图画、视频和语音等AI模型练习,让人类更高效地探究世界奥妙、猜测气候、勘探石油和加快自动驾驶的商用进程。

Atlas 900 AI集群也能够供给云服务,以云的方法供给富余的、经济的算力资源,简略易用、高功率、全流程的AI渠道,为客户带来极致体会的易获取、用得起、便利用的普惠AI算力。