通过主动加速恢复延长芯片寿命：机遇与挑战

2023-10-17 01:14郭鑫斐

电子与信息学报 2023年9期

郭鑫斐

(上海交通大学密西根学院上海 200240)

1 引言

芯片的可靠性定义为在给定的寿命和使用环境下能够正确且稳定完成其对应使用场景下的功能的程度或性质。可靠性与时间直接相关，关乎芯片在整个使用周期中性能的变化趋势，也决定着一款芯片的最长使用寿命。如图1所示，随着芯片应用场景的多样化，多个关键应用场景都提出了比传统的消费电子更高的芯片寿命要求(例如15年以上)，尤其体现在工业场景(如电网级别大规模储能系统)、物联网、军用和航空应用中[1,2]。另外芯片使用率大幅提高以及所处理的数据量显著增多，比如一些是从雷达、接收器、激光雷达等传输而来，要求处理数据的准确度更高、速度更快，随着时间的推移，芯片想要达到目标的功能将会变得越难以实现。造成芯片不可靠以及缩短芯片使用寿命的关键原因则是老化效应，也即半导体器件在工作过程中部分特征参数随着时间退化的机制[3]。可以简单地概括为晶体管老化导致阈值电压升高，最终导致晶体管失效以及金属线老化导致电阻升高最终断裂。老化虽为器件层的物理效应，但其影响会蔓延至整个系统[4]。芯片老化效应成为先进工艺节点以及广泛应用中亟待解决的热点问题[5]。工艺的不断缩小意味着更薄的电介质、更细的线以及更大的功率密度，而且，衬底也会越来越薄，所导致的老化现象也会更严重，在不进行大幅度改变晶体管和互连线材料和结构的情况下改善老化现象将会极为困难，即便最新的全环栅晶体管 (Gate-All-Around Field-Effect Transistor, GAA FET)技术依然面临着严峻的老化挑战[6,7]。因此包括国内外学术界和工业界等都认识到解决当前面临的严重芯片老化问题不仅需要器件制造过程中进行可靠性改善，更需要在集成电路设计过程中进行创新，研究更优的老化防护设计方法是高可靠性芯片领域的重要发展方向和新趋势。

图1 芯片使用场景的多样化和使用率的增加对于寿命的要求

从芯片老化的物理机制来看可以分为以下几类，前道工艺晶体管的老化现象主要有热载流子注入(Hot Carrier Injection, HCI)和偏置温度不稳定性(Bias Temperature Instability, BTI)，而栅介质膜中的老化主要有经时击穿特性 (Time-Dependent Dielectric Breakdown, TDDB)。HCI是由于载流子在沟道中受到漏极强大的沟道电场的作用，导致其越过硅-二氧化硅势垒注入到氧化物介质中形成陷阱，造成阈值电压的退化[8]；BTI则主要由于在晶体管正常工作时硅-二氧化硅界面陷阱的能级升高后会俘获载流子，造成沟道中载流子的减少，造成了阈值电压的升高[1,4]，其中发生在P型晶体管的BTI现象称为负偏置温度不稳定性(Negative Bias Temperature Instability, NBTI)，发生在N型晶体管的BTI现象称为正偏置温度不稳定性(Positive Bias Temperature Instability, PBTI)；TDDB是指晶体管在正栅压下的钠离子发射，由电场的驱动飘逸至硅-二氧化硅界面，聚居于界面缺陷内，导致局部钠离子浓度升高，局部电场增强，引起局部的隧道击穿，最终导致介质击穿[9]。BTI存在两个阶段：压力阶段与恢复阶段。晶体管打开时，界面陷阱持续俘获载流子，导致阈值电压的持续退化，为压力阶段；而当晶体管关断，部分已俘获载流子向界面反向扩散，表现为阈值电压恢复，为恢复阶段。与BTI不同的是，HCI和TDDB都没有恢复阶段，因此HCI和TDDB造成的老化是不可逆的。相比前道工艺，造成后道工艺的老化因素则主要是电迁移 (Electro-Migration,EM)和应力迁移(Stress-Migration, SM)现象，EM现象是由于片上金属线在通电过程中电子与金属原子发生物理碰撞，导致金属原子的移动，进而形成金属上的空洞，导致电阻增加，最后导致金属线的断裂。SM是由于金属材料与绝缘介质的热膨胀系数存在较大差异导致接触面产生较强机械应力，该应力会致使金属原子发生迁移从而在连线上产生裂纹或空洞，结果引起器件或电路性能退化甚至失效，SM 是一种与环境温度变化相关的退化行为，而并非电流或者电压加速退化所致。相比SM现象，EM具有一定的可逆性，例如在金属线中反向电流的作用下，电子反向迁移，从而避免潜在的碰撞[3,10]。当前针对老化的多项工作表明，在先进工艺下造成晶体管老化的主要机制为HCI和BTI[4,11,12]，而电迁移则是造成金属线老化的主要因素[3,10,13,14]。本文将主要针对BTI和EM这两种极为重要且都具有一定可逆性的老化现象进行讨论。如图2所示，以反相器电路为例，虽然BTI和EM发生在电路的不同位置，但是均会造成相关参数的变化最终导致电路性能的退化。从其如图3所示的机理来看， BTI和EM都表现为某种应力对于器件造成一定的影响，BTI由于电荷在沟道积聚时会对晶体管造成压力，如果持续足够长的时间会导致永久性损坏，表现为升高晶体管的阈值电压，从而增加电路的延时，最终可能导致晶体管完全失效[15,16]。类似的现象也会发生在金属互连线中，当大电流和热量聚集在一起时，EM主导的老化效应会增大电阻，如果持续足够长的时间会导致永久性损坏[17]。由于两种老化的相似性，从防护的角度也可以采用相似的指导思路。

图2 集成电路老化现象以及其影响示意图(以反相器电路为例)

图3 BTI和EM老化机理示意图

图4总结了当前针对两种老化效应已有的防护方法，按照设计思路可以分为“完全接受”、“适应”和“改善”3个方面。“完全接受”也即在设计初期估算在给定寿命下老化的极端情况，在电路老化之前通过故意降低时钟主频或者增大晶体管或者金属线尺寸预留充足的设计裕量(也即时序余量或电压余量，也称为margin或guardband)使电路在老化之后仍能保证足够的性能要求，但是此方法有诸多弊端，比如过多的面积及功耗开销问题并不适用于当今大规模数字集成电路，另外此裕量在10年寿命的情况下会达到时钟周期的20%[2,16]，造成严重的悲观设计，对于设计兼具高性能和高可靠性的芯片很难再适用。针对此弊端，国内外研究团队提出了一系列设计方法来进一步减小裕量开销，例如文献[18]提出了门替换技术通过引入考虑门的时延关键性的权值识别关键门并进行门替换从而改善时延。文献[19]通过将老化信息引入标准单元库，在逻辑综合过程进行优化。文献[20]提出了将老化与近似计算逻辑综合结合的可靠性增强电路设计流程。文献[21]也是通过将老化引入设计流程中，提出针对电迁移感知的布线算法。仅依靠设计初期容忍老化的方式会造成时钟浪费和悲观设计，因此以“适应”为思路的动态补偿方式应运而生，动态补偿包括感知与补偿两个部分。在感知和预测方面，文献[22,23]提出了不同类型的感知电路。而在补偿部分，文献[24,25]提出了通过改变时钟频率、电压、彻底偏置电压等动态补偿方法。在文献[26,27]中，基于机器学习的预测老化的方法被提出，基于该模型可以进行实时的补偿。文献[28]则提出了资源分配算法来进一步缓解老化现象。

图4 当前常见老化防护方法总结

以上设计思路都对改善设计裕量造成的额外开销起到了一定的作用，但是随着寿命要求的增加，设计裕量开销也会扩大，仅仅依靠“完全接受”或“适应”的方式依然无法满足当前多样的应用场景和新型工艺带来的可靠性挑战，所以利用被动恢复“改善”老化本身成为设计的一个新思路。文献[29]研究通过输入向量控制和电压分配方式来缓解老化。基于电迁移的被动恢复特性提出了针对3维堆叠电路的新型电源网络[30]。由此可见，利用恢复的特性进行老化防护正成为一种重要的设计思路。近些年来，针对以上两种老化物理机制的最新研究结果表明，在移除电压或者电流的条件下，偏置温度不稳定性和电迁移都具有可拟性[3,16]，但是恢复速度和效率虽然较低，但更进一步的研究发现在一定的外加条件下(如改变电压和温度)，恢复过程可以被进一步激活和加速，从而实现高达90%以上的恢复率[31]。此特性可以从本质上缓解老化效应对电路性能的影响，因此如果合理将这一思路运用到电路设计过程中，将会极大降低设计裕量，从而改善容忍式设计思路带来的过度设计问题，主动加速恢复的设计思路油然而生。而要在电路设计阶段最大化利用恢复的特性，需要从电路模型、实现方法、设计空间探索等多个维度进行创新，本文就主动加速恢复所带来的巨大收益和潜在的挑战进行详细阐述和分析，从主动加速恢复的场景出发，展示目前该领域已有进展和结果，并就当前实现主动恢复遇到的瓶颈问题进行详细讨论。

本文章节安排如下：第2节介绍主动加速恢复的定义和意义；第3节着重讨论主动加速恢复面临的实现瓶颈问题和潜在解决方案；第4节总结全文。

2 针对集成电路老化的主动加速恢复

2.1 主动加速恢复的定义

集成电路老化的物理机理的研究可以追溯到20世纪60年代初左右，对于两种老化的可恢复机制的理解也在不断进化。针对偏置温度不稳定性，文献[32]提出用“俘获释放机理”来解释晶体管的老化和恢复过程，并模拟了温度和电压影响阈值电压退化的过程。文献[33]在此基础上，针对先进工艺在模型中引入了占空比、掺杂浓度等因子，综合分析和比较了近年来已有机理的优劣，一致认为晶体管在栅源两端电压为零的情况下会进入被动恢复状态[33]。文献[34]进一步发现被动恢复速度较慢，甚至出现了长时间“不可恢复”的情形。针对电迁移老化，文献[35]用实验的方式证明了在互连线上通过变换电流的方向可以观察到恢复现象。文献[36]用实验证明电迁移老化可以通过调节不同的占空比使其恢复更彻底。文献[10]基于此特性建立了电迁移恢复模型，用来表征电流和温度对恢复的影响过程。如图5所示，如果将两种老化综合考虑，在电路正常工作状态下，晶体管的老化是由栅压偏置引起，而互连线老化由电流应力引起，而被动恢复的发生是由于晶体管或互连线转移到了非运行状态，此过程中老化效应得到缓解和适当的恢复，沿着此思路如果将人类休眠与芯片老化的恢复过程类比，用“周期节律”的思路来理解集成电路芯片老化问题，就不难想到如果芯片和人类一样，及时的“休眠”可以使其从老化中恢复以至于接下来可以继续“高效工作”，如果在休眠中能够提高恢复的效率，那么会对系统的下一个使用周期的效率有进一步的提升。近年来，多项工作已证明两种老化现象除了可以被动恢复以外，在外界的环境影响下恢复效率会进一步提升，此过程被称之为主动加速恢复。

图5 针对BTI老化和EM老化的主动加速恢复的定义以及与其他状态的对比

针对BTI老化的主动加速恢复的概念最早在文献[31]中得到了证明，研究人员通过在45 nm工艺的FPGA芯片上用实验的方式完整验证了高温和反向电压对于偏置温度不稳定性效应恢复过程的加速特性，超过70%的BTI老化得到了缓解，但是依然存在不可恢复的部分，而文献[37]进一步通过实验发现了如果合理调节信号的占空比，通过运用“周期节律”的方式进行主动恢复，此前不可逆的BTI老化部分可被进一步恢复。而类似的思路也在电迁移老化EM上进行了验证，文献[36,38]分别通过实验和建模的方式验证了互连线在逆向电流以及高温的情况下，恢复效率高达80%以上。然而EM老化与BTI老化不同的地方在于，电迁移的发生突变性更强，如图6所示为实验测得的互连线电阻随时间的变化情况[39]，在老化过程中，互连线中通有电流，并通过高温加速老化过程，电阻的阻值在590～600 min中发生突变，变化后来又趋于平缓，这是由于EM所引起的电阻增加本质上是由于应力的累计，当应力累计到一定程度电阻开始突然增加，表示电迁移已经开始严重影响互连线的正常运行，这个过程类似于偏置温度不稳定性的受压阶段，因此电迁移老化的恢复时机更为重要，前期工作[16,39]证明，如果在早期(例如图6的400 min时)就开始主动加速恢复，其恢复率可达到将近95%以上。

图6 实验测得的电迁移(EM)老化过程以及其在高温环境中的主动加速恢复过程

基于上述讨论，不难发现，主动加速恢复可以理解为逆向的老化过程，由于该过程相对老化过程较慢，因此外界的影响对于恢复程度尤其重要，主要因素有电压(BTI老化)、电流(EM老化)、温度以及恢复的开始时间。此特性的发现对于老化防护有较好的启示，在下一节中本文将进一步讨论主动加速恢复的潜在意义。

2.2 主动加速恢复的意义

主动加速恢复特性通过对已发生的老化效应进行深度恢复，如果可以引入到电路设计过程中，并通过电路实现的方法辅助主动恢复，最终实现高效和普适的自适应主动恢复老化防护技术，将极大降低因老化防护产生的性能开销并提高芯片使用寿命。图7展示了不同设计思路对于时序余量开销的直观影响，在芯片设计的前期规划过程中，设计余量的制定需要考虑极端情况，通过动态补偿、被动恢复等方式会从一定程度降低初期的设计余量，然而该余量随着使用寿命限制增加而增大，主动恢复由于考虑了在运行过程中的潜在恢复，可以极大减少起始时序余量，更为重要的是该余量不会随着使用寿命的增加而增大，其原因如下：主动恢复过程将会通过“刷新”的方式将电路的时序特性不断恢复至起始状态，虽然该过程中会有不可恢复部分的不断累积，但是此前的工作[16,40]中已证明不可恢复的部分可以通过提前进入设置的恢复周期，最终可以实现最大可减少设计裕量理论值超过60倍以上。

图7 不同老化防护设计思路对于全寿命周期时序余量开销的直观影响

除了减少设计初期的时序余量，周期性地主动加速恢复可以进一步提高系统运行的平均性能。如图8所示，在芯片运行过程中可以通过预设周期的方式合理安排运行与恢复周期，该图展示的为1:1的周期，但是在实际实现过程中也可以结合应用场景考虑其他比例，例如消费电子领域，通常的运行周期与恢复周期可以与用户的使用习惯所绑定，一旦运行任务完成即可进入主动加速恢复状态。相比现有的被动恢复方式，周期性主动恢复可以降低老化累积效应所带来的性能下降，从而使得系统始终频率始终保持在较高水平，平均性能得到提升。

图8 周期性主动加速恢复与被动恢复的对比概念图

3 主动加速恢复电路实现的挑战和潜在解决方法

虽然主动加速恢复这一特性对于缓解集成电路老化这一可靠性问题具有诸多潜在的优势，但是目前的研究仍然多数停留在器件级，在具体电路实现方面依然面临诸多挑战，本文将挑战总结如下：

挑战1实现主动恢复电路的第1个挑战在于理解恢复本身如何定量影响电路的可靠性。当前电路设计中老化防护设计裕量的获取多数通过大量的电路仿真，需要较长的周期，缺乏设计初期各参数对寿命影响的直观影响模型，因此会限制设计者的选择空间。另外，两种老化的恢复过程除了和运行电压、温度有关之外，还和占空比、恢复起始时间等有关，目前已有的包含恢复过程的老化物理模型对于加速恢复部分的考虑较少。因此需要通过具体的理论分析建立老化和恢复相关参数对于与电路设计可靠性指标的定量影响模型，例如加速恢复对于静态设计裕量的影响关系，从而拓展到对于寿命的影响等。另外需要结合老化和恢复的物理机制和实验结论，在器件级模型中引入主动恢复相关变量，例如负偏置电压、恢复起始时间等，进而结合电路设计理论搭建物理现象与芯片设计之间关系的桥梁，最终为以主动恢复作为指导思想的设计方法提供重要的理论基础，指导设计初期各参数的选择将主动恢复过程中的可控变量融合到目前已有的器件模型中，通过结合器件物理、电路分析、数学等理论学科建立主动恢复机制与电路设计中重要指标(如性能、寿命等) 之间的定量模型从而形成设计空间探索模型，并与基于实际工艺的电路仿真结果进行对比和验证。

挑战2在有了理论模型的基础之上，如何设计低开销的主动恢复电路是另一个将主动恢复从器件级现象应用到实际设计中需要克服的重要挑战，如图9所示，电路设计的本质在于权衡不同的指标之间的关系，基于应用场景的要求而选取最优的参数等，例如分析电路速度和面积，并以最小的面积取得最快的逻辑过程被称为设计空间探索，其本质为研究各关键指标之间的牵制关系。对于受老化影响的可靠性来讲，通常用寿命来权衡，传统的老化防护方法通常需要通过用较大的功耗、性能、面积和开销换取更长的寿命，而主动加速恢复的机制将会影响寿命以及各类开销，因此将对已有电路设计空间产生影响。综合不同的应用场景需要研究普适的主动恢复辅助电路最大限度利用恢复可加速特性。

图9 传统老化防护方法与主动加速恢复设计方法设计空间的区别

挑战3由于芯片的老化和时间直接相关，所以在使用过程中老化的方式也在动态改变。另外针对不同应用场景的芯片对于寿命的要求也不尽相同，开销小的自适应补偿技术将是解决该问题的关键方式，目前已有的自适应补偿机制主要以适应的方式为主，通过不断放松时序或者设计准则要求去适应逐渐退化的电路性能，还未考虑恢复特性。因此面临多样的应用场景和寿命要求，如何从本质上将恢复的性质与自适应机制融合形成全新的自适应恢复机理，如何实施主动恢复以及以低成本的方式集成到目前已有芯片中，如何触发主动恢复都成为亟需解决的一个挑战。

本文在以下章节中将针对以上3个挑战可采用的潜在方案进行详细阐述。

3.1 主动加速恢复情形下的电路仿真模型

利用主动加速恢复设计电路的重要根基之一即是器件模型，恢复过程是老化的可逆过程，以P型晶体管为例，其老化发生在栅源电压Vgs处于负偏置状态时(Vgs=-Vdd，也即晶体管正常工作时)，这个阶段也称为受压阶段，此时沟道中存在大量的空穴载流子，当经历高温和一定时间的受压状态后这些空穴不用越过很高的势垒而隧穿进入栅氧化层内部，陷阱俘获这些空穴后将带正电，会导致晶体管阈值电压升高，N型晶体管的机制与此类似。根据经典俘获模型[32]，阈值电压的升高程度Vth(tstress)与受压时间tstress呈对数关系

其中，A和C为工艺相关的参数，φ1为与界面陷阱数量成正比的一个系数，可以表示为

其中，K1和B为常数，E0为活化能， k为玻尔兹曼常数，T为开氏温度，tox为氧化层厚度，Vdd为工作电压，因此结合式(1)和式(2)看出在固定工艺的情况下，阈值电压在受压阶段的变化和受电压以及温度影响极大。

恢复过程开始于在晶体管关闭的时候(Vgs=0)，此时被俘获的空穴会被一定程度地释放，阈值电压会逐渐下降。根据释放模型[32]，如果晶体管在经历了受压时间tstress后进入恢复阶段，恢复阶段阈值电压的变化程度可以表征为

从式(3)和式(4)不难看出恢复阶段阈值电压的变化也与温度和电压有关(影响φ2)，并且呈现指数关系。主动加速恢复的过程将在传统意义的被动恢复(Vgs=0 )的基础上继续降低增加Vgs，使得Vgs为正，并且在恢复过程中引入高温。另外从式(3)可以看出，恢复程度和历史受压状况Vth(tstress)也有直接关系，因此在不同时机实施恢复对于最后能恢复的程度有直接影响。同理，对于N型晶体管，当栅源电压Vgs为负值时，其进入主动恢复状态。根据以上分析，在以上模型的基础上可以全面考虑所有主动恢复控制变量包括恢复电压、恢复温度、恢复起始时间、受压恢复比等，结合物理机制，完善主动恢复过程与阈值电压变化过程的模型，最终与已有实验结果进行交叉验证。

阈值电压的变化会直接减小晶体管的饱和电流，因此会造成时延增加，时延是电路设计中的重要指标之一。晶体管时延与阈值电压呈现式(5)的关系

其中，CL是负载电容，与工艺和具体的设计有关，Vth为阈值电压，基于式(5)可以得到如式(6)的关系

其中，时延变化为td，td0为初始时延，因此将阈值电压随主动恢复各参数的变化模型代入式(6)，可以计算在恢复阶段的时延的变化。根据以上讨论内容，结合具体的工艺信息和具体电路特征，可以建立主动加速恢复变量对时延变化的影响模型。

对于电迁移而言，其发生的位置相比偏置温度不稳定性更为集中，在芯片上所有的金属互连线网中，供电网络(Power Delivery Network, PDN)上的电迁移问题最为严峻。这是因为信号线网、时钟线网等互连线网中的电流方向和电流强度在芯片工作时会交替变化(AC变换)，因此使金属线具有一定的恢复能力。而在供电网络中金属导线上的电流方向和电流强度基本保持不变。因此，通常电迁移问题的主要研究对象为集成电路芯片中供电网络。一般来讲解决电迁移老化的办法也是增加设计裕量，最常见的方法是加宽易受影响的部分金属线以提高载流能力。由于底层金属如M2,M3等相对较窄，因此受电迁移老化影响极大，通常需要加宽数倍(大于3倍)来防护，而信号线网、时钟线网又需要大量底层金属，加宽了供电网络金属意味着留给其他信号的绕线资源的大量减少。而主动加速恢复方法则是通过电路设计的方法使得供电网络产生逆向电流而加速恢复，从而达到寿命增加的目的，但是目前还没有具体的理论模型辅助分析该电流对于供电网络的定量影响，这也将是该特性被真正应用的重要挑战之一。

衡量供电网络可靠性的重要指标为以电迁移造成的供电网络电压降(IR 压降)，通常在设计过程中需要确保该压降不超过1个阈值电压，如果IR压降超过阈值，则需要以上提到的增加设计裕量的方法，而主动恢复的引入将直观上减少该裕量，从而只需要构建绕线资源较少的电源网络即可满足压降阈值。定量分析和模拟这一影响需要了解电迁移老化和恢复的机制以及更准确以及针对性更强的电源网络分析模型。和偏置温度不稳定性的成因类似，电迁移是金属线在电流和温度作用下产生的金属迁移现象，运动中的电子和主体金属晶格之间相互交换动量，金属原子沿电子流方向迁移时，就会在原有位置上形成空洞，同时，在金属原子迁移堆积形成丘状突起。前者将引线开路或断裂，而后者会造成光刻困难和多层布线之间的短路。其平均失效时间通常用经典的布莱克方程表征

其中， A为线宽常数，和金属的电阻率、散射截面等有关，J为电流密度，E0为活化能， k为玻尔兹曼常数，T为开氏温度。由此可见，在工艺固定的情况下，影响电迁移的因素主要为温度和电流密度。电迁移也是一个渐变的过程，表现为应力的逐渐增加，当应力积累到一定程度，电阻开始突然增加，表示电迁移已经开始严重影响互连线的正常运行，这个过程类似于偏置温度不稳定性的受压阶段。同理，电迁移效应在一定的场景下也是可逆的，当电流为逆向时，电子会反向迁移，从而部分应力可以得到的恢复。根据文献[41]，在恢复阶段可以表示为

其中，P为时钟周期，j+为正向电流密度，j-为逆向电流强度，γ为恢复常数，通常为0.6。基于式(7)和式(8)，可以看出如果增加j-(t)会降低平均电流密度，因此增加平均失效时间，也即寿命。

图10展示了典型的供电网络(以Vdd为例，VSS供电网络情况类似)的电迁移分析流程，由于电流密度带来的原子迁移会跨越不同的金属导线段边界，而不仅仅局限在一段导线上。电迁移会在由同层互连金属导线构成的互连树上发生，因此必须考虑互连树上不同金属导线上电迁移的互相影响。根据Korhonen模型，供电网络上电迁移是一个电流与应力相互作用的过程：电子的流动造成金属线上应力的累积，当张应力达到临界值时，金属线上形成空洞，而空洞导致了供电导线电阻的增加，从而改变了供电网络上的电流密度，又进一步影响应力分布。因此可以从电流应力的Korhonen物理模型出发，读入电路的网表信息，获取待分析的金属互连线网，并构建同层金属互连线构成的互连树，进一步将供电网络建模为时变的电阻网络，通过仿真时间的推进计算电流应力与电流密度的相互作用，在此过程中引入主动恢复相关参数，如恢复周期、逆向电流强度、恢复温度等变量，最后同样以供电节点上电压降超过一定阈值作为失效评判标准，结合式(7)和式(8)计算供电网络的平均电迁移失效时间，也即供电网络的最终寿命。

图10 供电网络电迁移分析流程(以Vdd为例，此处忽略VSS)

3.2 主动加速恢复电路实现

对于偏置温度不稳定性效应，加速其恢复过程的最有效机制为降低Vsg为负，另一方面为提高恢复温度。而对于电迁移老化，加速其恢复过程为在供电网络中实现逆向电流。通常芯片上的偏置负电压发生器电路应用于低电压放大器，使放大器输出接近零电压(如图11(a)所示)。本文展示了一个适用于主动恢复电压范围内的专用负电压发生器，原理如图11(c)所示。该电路基于经典的电荷泵(charge pump)原理，包括一个非重叠时钟发生器(图11(b))，以及开关电容。输出负电压(Vout)的值可以在设计时通过调节电容值(C1与C2的比例)以及时钟的周期来调节，因此该电压发生器可以用来传输偏置负电压。

图11 可用作主动加速恢复的负偏置电压发生器电路原理图(基于文献[16]进行了修改)

针对电迁移，受电路设计的功率门控技术(Power gating)启发，文献[39]提出全新的可以支持供电网络逆向电流的电路结构，其原理如图1 2(a)所示。主要设计思路为通过添加门控在Vdd和VSS供电网络的两端来逆转电流方向，而负载(如图中的处理器)两端的电流方向始终保持不变。因此该电路结构可以支持在电迁移老化和恢复过程中实际负载皆可正常工作。利用本电路结构需要解决的挑战之一为如何确保压降以及不同模式切换时间在可接受范围。图12(b)展示了文献[16]中通过基于28 nm工艺的仿真结果，负载只选取较小的环形振荡器，但是通过此结果可以发现该电路的优势之一是模式切换时间随负载大小的变化相对缓慢，这也意味着可以进一步通过实际的负载大小选取晶体管N1-4,P1-4的尺寸来确保负载的延时以及模式切换时间在一个可接受的范围。

图12 支持供电网络逆向电流的门控电路及其性能评估(基于文献[39]进行了修改)

以上两个电路仅为当前在主动加速恢复方面已有的尝试，由于实际芯片开销和应用场景的不同，该类电路模块的插入需要一系列的设计空间探索，如图13所示，设计者需要根据实际芯片和应用场景制定主动恢复的方案，进而估算预期收益；同时也可以基于实际的预期指标提升需求(比如寿命提升)获得所需要的主动恢复条件，从而在设计初期部署相关设计方法。

图13 主动加速恢复情形下的电路设计空间探索模型示意图

3.3 主动加速恢复自适应系统

目前主流芯片中已被广泛应用的自适应机制为自适应电压缩放(Adaptive Voltage Scaling, AVS)技术，在电压缩放电源和芯片上的性能监视器之间实现了闭环反馈系统。主动加速恢复机制的实现可以参考类似的机制，并本着尽可能多利用片上现有资源的原则来减少主动恢复带来的额外开销。图14展示了潜在的以主动加速恢复为核心的自适应系统。感知电路负责实时采集老化或恢复状态信息，当超过阈值时，将自行启动主动恢复过程，主动恢复电路模块将实施加速恢复，直到感知电路系统恢复停止报警。与此同时，在主动恢复过程中，将启动状态保存机制，该机制将采用与传统的功率门控技术类似的方式(在电源关断过程中，系统的状态被保存在状态保持寄存器里)。根据反馈系统中负载电路粒度(也即芯片的不同分区)对芯片可靠性的影响，可以将芯片的功能模块集成不同的主动恢复模式，以此来节约开销。例如中央处理器(CPU)的ALU模块更容易老化，因此可以支持多模式主动恢复，而缓存Cache部分可以只支持其中一种模式。

图14 感知-主动加速恢复自适应系统集成方案

4 结论

集成电路老化效应随着工艺迭代愈加显著，以偏置温度不稳定性和电迁移为主导的老化机制分别制约晶体管和互连线的性能，两种老化机制都具有一定的可恢复性，但是恢复较慢，且依然存在不可恢复的部分，因此当前主要的老化防护方法依然以预留足够的裕量为主要思路。本文讨论了一种全新的维度来缓解老化带来的影响，主动加速恢复通过利用近些年发现的老化恢复的可加速性这一特性，结合新型的电路方法和思路，从而可以大幅度减少设计初期预留的时序余量，提高系统平均性能。然而，在电路设计过程中最大化地利用该特性而不产生巨大的面积功耗开销需要全新的设计空间探索，依然需要解决包括电路模型的建立、辅助电路的设计、系统层次的集成等瓶颈问题，本文针对以上挑战介绍了一系列的潜在解决方案，提出了结合自适应的机制设计感知-主动加速恢复系统的概念，最大程度利用恢复特性进行抗老化设计，具体的系统设计细节以及验证部分将在未来的工作中陆续介绍。