近年来,深度神经网络(DNN)在计算机视觉、自然语言处理等AI领域取得了巨大成功。然而,更深更大的深度神经网络需要巨大的计算和内存资源,在资源受限的场景中,很难部署较大的神经网络模型。新加坡国立大学计算机系校长青年教授尤洋将带来“快速准确的深度神经网络训练”学术分享会,探讨深度学习系统的优化方法。

1.分享嘉宾:尤洋

新加坡国立大学计算机系校长青年教授 (Presidential Young Professor)。他从加州大学伯克利分校计算机系获得了博士学位,研究兴趣包括高性能计算、并行算法、以及机器学习。他当前的研究重点是大规模深度学习训练算法的分布式优化,曾创造ImageNet以及BERT训练速度的世界纪录,并被ScienceDaily、The Next Web、i-programmer等几十家媒体广泛报道。他设计的算法被广泛应用于谷歌、微软、英特尔、英伟达等科技巨头。尤洋近三年以第一作者身份在NIPS、ICLR、Supercomputing、IPDPS、ICS等国际重要会议或期刊上发表论文十余篇。他曾以第一作者身份获得了国际并行与分布式处理大会(IPDPS)的最佳论文(0.8%获奖率)和国际并行处理大会(ICPP)的最佳论文(0.3%获奖率)。他在2021年被选入福布斯30岁以下精英榜 (亚洲)。

2.分享主题:快速准确的深度神经网络训练

摘要:过去三年,超级计算机在领先的人工智能公司中越来越受欢迎;亚马逊构建了高性能计算云(HPC);Google发布了其第一台100 petaFlop超级计算机 (TPU Pod);Facebook提交了Top500 超级计算机列表。他们为什么喜欢超级计算机?因为深度学习的计算非常昂贵。例如,即使有 16 个TPU,BERT训练也需要 3 天以上的时间。另一方面,超级计算机每秒可以处理 10^17 个浮点运算。那么我们为什么不直接使用超级计算机,在短时间内完成深度神经网络的训练呢?因为深度学习没有足够的并行性,无法在现代超级计算机中充分利用数千甚至数百万个处理器。深度学习的并行化有两个方向:模型并行和数据并行。模型并行性非常有限。对于数据并行性,当前的优化器无法扩展到数千个处理器,因为大批量训练是一个sharp minimum问题。在本次演讲中,将介绍 LARS(Layer-wise Adaptive Rate Scaling)和 LAM(Layer-wise Adaptive Moments for Batch training)优化器,它们可以为深度学习找到更多的并行性。它们不仅可以使深度学习系统很好地扩展,而且还可以帮助应用程序实现更高的准确性。

自2017年以来,所有Imagenet训练速度的世界纪录都是使用LARS实现的。LARS被添加到MLperf,这是快速深度学习的行业基准。Google使用LAMB将BERT训练时间从 3 天减少到76分钟,并在GLUE、RACE和 SQuAD基准测试中取得了最新成果。本次演讲中介绍的方法已被谷歌、英特尔、英伟达、索尼、腾讯等最先进的分布式系统使用。

3.会议详情

会议时间:2021年6月17日 10:00-11:00

线下会议地点:

苏州工业园区林泉街377号公共学院2号楼106室

报名方式:

本次会议将采用线下+线上同步的方式进行

报名链接:

分类: 活动