近日,被誉为“体系结构四大会”之一的IEEE国际高性能体系结构大会(HPCA)在加拿大蒙特利尔举行,也是该会议疫情后首次恢复线下模式召开。在本届HPCA上,新葡的京集团3512vip官网/集成电路高精尖创新中心有两篇高水平论文入选,内容涉及深度学习编译器和近存计算体系结构相关的前沿研究。新葡的京集团3512vip官网集成电路的学子赴加参加此次盛会,向国际体系结构的同行展示了新葡的京集团3512vip官网最新的研究成果并进行了深入的交流,详细介绍如下:
针对计算密集型算子融合的高效分析优化框架
随着硬件加速器的广泛使用,越来越多的深度学习模型被部署在CPU, GPU, NPU上。然而,内存墙问题限制着模型部署的性能,越来越多的计算被限制在内存带宽上。目前的优化方法是将计算密集型算子和访存密集型算子进行融合减少内存访问,但是这种方法的提升效果有限,特别在当前主流的Transformer模型架构中,计算密集型算子占主导,此类融合收益较小。梁云团队提出了将计算密集型算子进行融合的优化方法,通过将前置计算密集型算子的计算结果缓存在高速片上内存的方式避免内存访问,并直接在片上开始后续计算密集型算子的计算。计算密集型算子有大量的累加操作,多个计算密集型算子融合后会产生循环空间耦合,造成重复访存问题。为了解决这一问题,梁云团队提出通过使用编译分析方法对数据搬移进行建模,并通过数学优化方法给出优化的融合方案减少数据搬移量,提高数据使用效率,降低内存访问次数,提高整体性能。在CPU, GPU, NPU上实验表明,该方法能有效提高深度学习模型执行性能,超过先前手工优化的高性能算子库和编译器性能。该工作以《Chimera: An Analytical Optimizing Framework forEffective Compute-intensive Operators Fusion》为题发表(博士研究生郑思泽为第一作者)
图 1郑思泽同学视频报告
面向近存计算系统的高效内存间通信架构
基于双列直插内存模块(DIMM)的近存计算(NMP)架构近年来受到学界和工业界的广泛关注。虽然DIMM-NMP可以提供较大的容量和内部带宽来加速访存密集型应用,但是DIMM 间较低的通信带宽往往成为很多应用的性能瓶颈。为了缓解这个问题,孙广宇团队针对性地设计了一种新型的互联架构DIMM-Link。DIMM-Link 采用了高速的外部互联来直接连接DIMM 模块,从而支持更高的通信灵活性和通信带宽。作者充分考虑了DIMM-Link真实系统中进行部署会面临的各种物理限制,并且特殊设计了其硬件架构、互联协议以及系统组织和路由策略等。除了硬件架构的创新,作者们还提出了两个软件优化策略,包括Polling Proxy(轮询代理)和 Distance-aware thread mapping (距离感知的线程映射)来进一步提升性能。相对于基线方法,采用DIMM-Link可以获得1.77到2.42倍的性能提升。该工作以《DIMM-Link: Enabling Efficient Inter-DIMM Communication for Near-Memory Processing》为题发表,并获得本届HPCA最佳论文奖。(博士研究生周哲与李聪为共同第一作者)
图 2周哲同学现场报告
背景介绍:
IEEE 高性能计算机体系结构大会(International Symposium on High Performance Computer Architecture, 即HPCA)是计算机体系结构领域最重要的会议之一,与ISCA、MICRO和ASPLOS并称“体系结构四大会”。HPCA创办于1995年,由IEEE组织,具有重要的学术界和产业界影响力,论文的平均录取率在20%左右。HPCA会议关注的领域不仅包括CPU、GPU、FPGA等主流经典体系架构,也覆盖加速器、存算/近存、类脑计算、量子计算等新兴体系架构。近年来,国内学术团队不断加大在体系架构研究领域的投入,从早期每年1-2篇论文入选到如今每年有10余篇论文入选HPCA会议,国内团队在该会议的影响力不断扩大。