2016年4月,NVIDIA在硅谷发布了深度学习超级计算机DGX-1。这台超级计算机在86cm x 44cm x 13cm的空间内装入了8块Tesla P100 GPU,其性能相当于250台传统服务器。同时DGX-1的售价也高达12.9万美金(约合88万)。
国内最快落地应用的DGX-1,我们采访了“首吃螃蟹”的网易
从4月发布到9月开始交付,根据NVIDIA 公布的数据,到2016年秋季DGX-1一共收到了接近100家公司的订单。在美国,第一批的DGX-1被交付给包括OpenAI、斯坦福AI实验室、伯克利AI研究室等一批顶级研究机构。而在国内,第一批超级计算机也已于去年10月开始交付。
3个月后,雷锋网采访了负责网易在人工智能等前沿领域研究的网易感知与智能中心总经理李晓燕。据说在过去3个月里,这里也是国内最快开展DGX-1应用的机构。李晓燕告诉我们,这台DGX-1在2016年10月中下旬交货,只用半天时间就部署完毕了。在之后的时间里,这台机器主要被用在深度学习的模型训练,在业务上则是支持网易的图像识别、语音识别、机器翻译等应用。
同在感知与智能中心的技术专家刘东则告诉雷锋网,中心大量使用GPU来进行深度学习训练,DGX-1带来主要的好处是加速模型训练,此前在单节点上进行中等规模的数据集训练可能需要1个月时间,现在使用DGX-1大约7 - 10天就会有结果,也就是说能试验更多的算法,产品更新也会更快。
网易的人工智能部门是什么样子?
2011年,当时刚研完博士后的李晓燕在网易成立了网易多媒体技术组,这个部门后来发展成了今天覆盖算法、开发和业务孵化的感知与智能中心。一直为网易的各个业务提供人工智能相关的技术支撑,并且在逐步对外开放技术。
李晓燕说,网易的人工智能开发更多的是从业务出发,为网易业务提供“特别算法”,优化体验 。该中心自主研发的人脸分析、图像处理、音乐识别、语音识别、智能问答、机器翻译、机器视觉、计算机图形学、增强现实引擎等AI相关技术,在邮箱、游戏、云音乐、网易云、电商、有道、新闻等网易集团全产品线中都得到了应用和推广,实现了网易全产业链AI落地。
今天网易的感知与智能中心,拥有自建分布式深度学习平台,包括底层深度学习GPU集群、深度学习模型、开放能力接口,以及深度学习、语音音频、计算机视觉、模式识别、人机交互、异构计算等技术,在业务上支撑网易的邮箱、游戏、云音乐、网易云、电商、有道等等,也为企业客户和消费者提供AR、BOT、AI开放平台等产品和服务,目前已经与很多行业龙头企业展开了合作。
深度学习的硬件发展
刘东回忆,在应用深度学习进行开发的早期,他们很快发现用CPU做模型训练效率很低。2012年他们就把大部分模型训练和推理迁移到了GPU上。
而与深度学习的其他硬件加速方案相比,GPU有明显的开发效率上的优势。刘东告诉我们,在深度模型推理部分,如果利用FPGA做加速,完成编码、仿真、调试验证等整个流程一般需要数周甚至数月时间。相比之下,基于GPU方案可能一周就能完成。这显然更符合互联网产品更新的节奏。
而从NVIDIA 几代GPU,从K系列 - M系列 - P系列的使用来看,每一代在性能上都有很显著的提升,并且在软件服务端更新地很快。比如NVIDIA 在去年专门推出了针对LSTM网络计算加速的SDK升级,这在机器翻译等自然语言处理项目中被广泛使用到。
NVIDIA 内部跟深度学习圈子有大量的互动,包括与DGX-1的客户也保持着密切的沟通,在深入了解企业使用情况与行业需求的基础上,进一步提升相关技术和用户体验。同时,NVIDIA本身也是DGX-1的深度用户,通过在众多领域应用DGX-1向工程团队提出反馈和建议。
一名NVIDIA 的工作人员告诉雷锋网(公众号:雷锋网),在GTC前夕,NVIDIA 通常会举办一个小型的深度学习峰会,一般会邀请深度学习领域的大牛以及创业公司,一起探讨下一代硬件和软件如何更好地支持各种研究和应用。黄仁勋在内部对此相当重视。此外,今年即将于5月在硅谷举办的GTC,也将会有涉及DGX-1用户、医疗、公共服务等的专场论坛来做相关探讨。
前Orbeus首席科学家Wei Xia在知乎上的回答也印证了这个说法:“我还记得我们当时提了关于训练的时候如何visualize的问题,并给他们展示了我们当时自己开发的简陋版monitoring system,过了几个月他们在发布Digit-Box的时候就有一个还不错的visualization system了。”
从NVIDIA 的角度看,过去一年它在深度学习的软硬件提供上继续完善,DGX-1补充了强劲的训练平台,而Tesla P40、P4则是强调能效的推理产品线。
NVIDIA 方面告诉我们,目前在国内,除了网易,海康威视等多家机构都在部署DGX-1。眼下在12.9万美金的高价之下,大公司和资金充裕的研究机构会是DGX-1的第一批尝鲜者。但在1 - 2个季度之后,这一情况也有可能会发生变化。一个原因是与NVIDIA 合作的OEM厂商们将会推出各自品牌、不同规格的深度学习超级计算机。
更重要的一方面在于中小型机构的应用。NVIDIA 在医疗领域的合作伙伴承蓝科技CEO姜意告诉雷锋网,DGX-1的推出可能会帮助科研院校还有医院一类机构对深度学习进行快速部署,对于IT能力较弱的机构来说,接近“即插即用”的深度学习超级计算机是具有诱惑力的,尤其当这些应用本身有很高附加值的时候。