7月9日下午13时,由新葡的京集团3512vip官网、集成电路高精尖创新中心、新葡的京集团3512vip官网国家集成电路产教融合创新平台、集成电路科学与未来技术北京实验室、后摩尔时代微纳电子学科创新引智基地联合主办的《集成电路设计技术与产业应用发展》暑期课程继续如期举办。本期课程邀请到算能高级副总裁高鹏为大家带来主题为“智算处理器设计思考与实践”的报告。新葡的京集团3512vip官网博雅特聘教授叶乐主持讲座。
高总的报告内容深入浅出,主要围绕智能计算的四个维度:计算、控制、内存、互连进行了详细的解读。他首先介绍了大语言模型(LLM)的两个阶段:prefill(生成第一个token)、decode(生成接下来的token)。对比了Groq与H100的性能,分析了片上存储与访存带宽的权衡,以及他指出,一个节省计算的关键技术是KV Cache。高总接着对比了CNN和Transformer,指出前者数据重用率高,后者对带宽的压力大。他进一步分析了单看CNN,每一层的计算量和访存需求不尽相同;单看Transformer,prefill阶段对计算需求高,decode阶段由于KV Cache的作用,对于访存的需求更高,如果增加batch,那么对于计算的需求则会相应地提高。
高总将深度学习应用划分为四种维度,分别是计算、控制、访存和互联,并分别讨论这些维度在深度学习应用中的影响和作用。
在讨论计算这个维度时,高总强调了DSA的成本效率和能量效率,指出相比于通用处理器,更多的计算单元、更少的控制逻辑、更多确定性的数据流是DSA的主要特征。他还以Nvidia的TensorCore与Google的TPU为例,对比了Tensor Core和Systolic Array这两种典型的矩阵计算单元,指出TensorCore适合计算小规模大批次的矩阵乘法,而SystolicArray更适合大规模少批次的矩阵乘法。对于控制维度,高总提出深度学习不仅有矩阵乘法,还需要很多的控制逻辑,例如向量计算、标量计算、向量排序等。专门在DSA中实现控制逻辑会很花费成本,而使用RISC-V是性价比更高的选择。RISC-V作为开源的指令集架构,目前有许多开源或者商用的核能够满足不同性能的需求,同时,开源的特性使得定制化变得更加容易,能够更好地与智能加速单元耦合。他还提到了Google、Tesla、算能都使用RISC-V处理器控制,但同时也指出在处理器中进行向量计算,处理器和DSA之间的数据搬运可能成为瓶颈。在讨论内存维度时,高总分析了近存计算的成熟技术,如SRAM、HBM(High Bandwidth Memory)以及WoW(Wafer on Wafer)。HBM层与层之间通过Micro Bump相连接,存在Bump之间间距过大的问题,导致带宽不大。WoW的优势在于层与层之间没有填充物,容易散热;使用hybrid bonding技术,间距小,带宽大。最后,高总讨论了互连维度,包括NoC、D2D、C2C等技术,并以Tesla Dojo等为例,讲解了当前商用的互联技术以及带宽。
为了更好地理解深度学习应用的四个维度,高总以SG2380处理器为例,详细解析了其内存、控制和编程模型等方面的设计。他指出,SG2380的单batch LLM瓶颈在于带宽和内存容量,因此选择了256bit LPDDR。同时,SG2380采用了SiFive的VCIX接口与DSA交互,数据输入1024bit,数据输出512bit。在编程模型方面,SG2380将数据视为四维张量,这样可以更好地适应计算的需求。
在提问环节,高总就计算功耗、控制逻辑设计、内存优化和互连技术等方面与大家进行了深入的讨论和交流。例如,对于RISC-V如何控制DSA,高总表示,处理器会识别指令,将未知的指令通过扩展接口传输给DSA进一步解码,达到扩展指令的目的;DSA采用SIMD的指令数据流,多个lane接受相同的指令,在逻辑上处于并行计算。
【个人介绍】
高鹏先生本硕均就读于北京邮电大学。此前供职于威盛电子,主导多款大规模ARM SOC处理器的设计和量产,主要负责技术研发、市场战略方向。
高总深耕IC设计19年,是深度学习和中大规模SOC处理器设计领域专家,持有10余项发明专利,是国内深度学习和RISC-V领域最早期的探索者和践行者。
自加入算能以来,成功主导了算能智算处理器BM1684、BM1684X的研发与商用;带领产品团队定义和交付了首颗RISC-V服务器级处理器SG2042;目前负责SG2380产品定义和研发。
【企业介绍】
算能成立于2020年,致力于成为全球领先的定制算力提供商,专注于RISC-V、TPU处理器等算力产品的研发和推广应用。公司遵循全面开源开放的生态理念,携手行业伙伴推动RISC-V高性能通用计算产业落地;打造覆盖“云、边、端”的全场景产品矩阵,为数据中心、AIGC、城市运营、智能制造、智能终端等多元场景提供算力产品及整体解决方案。算能在北京、上海、深圳、青岛、厦门等国内10多个城市及美国、新加坡等国家设有研发中心。自2016年以来,旗下品牌算丰SOPHON系列产品已完成多次迭代,每代产品相较于前代产品均实现了能耗比倍数级提升。