EDA (Electronic Design Automation,电子设计自动化软件)是芯片设计和制造的核心工具,是支撑万亿产业规模的共性基础技术。有了EDA软件的协助,工程师可以从概念、算法、协议等出发,完成包括电路设计、版图设计、性能分析与优化等环节在内的芯片设计流程。然而,当前国内市场被美国三大EDA公司垄断,因而EDA是“卡硬件脖子”的软件,也是中国制造的短板之一。
近期人工智能算法的突破,使得人工智能辅助芯片设计(AI for EDA)的技术路线获得了广泛的关注。学术界和工业界应用机器学习技术在芯片设计流程中的拥塞建模预测、布局优化、设计空间探索等方面取得了重要进展。例如,2021年谷歌在Nature发表了题为“A graph placement methodology for fast chip design”的论文,提出了利用强化学习来优化芯片设计中的宏模块布局(Macro placement)。如下图所示,其主要思路是将芯片版图看作围棋棋盘,将宏模块看作棋子,通过在1万个内部数据样本上预训练,并对每个新设计进行约6小时的finetune,最终在谷歌的TPU芯片设计上超越了传统EDA工具的布局方案,实现了更好的性能、更低的功耗和面积。
由此可见,AI for EDA是未来的发展趋势,国内外都处于研究起步阶段。由于训练机器学习模型需要大量数据,而在EDA领域中缺乏针对AI for EDA任务的开源数据集,导致大多数研究都只能制作小规模内部数据集来完成对方法的验证,难以充分验证机器学习模型的泛化能力,也无法充分利用不同数据集之间的知识迁移能力。
针对上述问题,新葡的京集团3512vip官网黄如院士团队的林亦波研究员、王润声教授等创建了首个致力于芯片设计AI for EDA应用的开源数据集——CircuitNet,包含1万以上的数据样本,涵盖从实际制造工艺PDK下数字设计流程不同阶段中提取到的各类特征。
CircuitNet主要包含以下特性:
大规模:包含1万以上的数据样本,每一份样本都来自于实际工艺PDK(目前是28nm工艺,未来将增加14nm工艺)一次完整的商业EDA工具设计流程(RTL-GDS)。
多样性:在设计流程中引入了多组不同的参数设置,以覆盖实际设计中的不同情况与需
多任务:数据集目前已支持3个预测任务,即绕线拥塞预测、设计规则违例预测和电压降预测,并通过复现近期的论文进行了验证。求。
标准化:数据经过预处理和脱敏,保存为Numpy数组,可通过Python脚本直接加载。
以上数据主要来源于6个开源RISC-V芯片设计。整体流程和特征提取环节如下图所示:
数据集在绕线拥塞预测、设计规则违反预测和电压降预测这三个预测任务上进行了验证,任务的输入输出如下图所示。最新发表的方法在CircuitNet数据集上的表现与原论文的结果基本一致,表明了数据集的有效性。详细实验设置和结果参见CircuitNet主页(网址见参考文献)的tutorial页面。未来将增加先进工艺节点和大规模电路设计的数据样本,以拓展数据集的规模、多样性和先进性。
参考文献:chai zhuomin, Zhao Yuxiang, Lin Yibo, Liu Wei, Wang Runsheng, Huang Ru, CircuitNet: An Open-Source Dataset for Machine Learning Applications in Electronic Design Automation (EDA) , In Journal of SCIENCE CHINA Information Sciences , 2022.
https://doi.org/10.1007/s11432-022-3571-8.