給晶片當「健康顧問」

給晶片當「健康顧問」

3S綜合驗證平台

CPU晶片是現代信息技術的引擎,是數據處理的核心。我們生活中用到的電腦、智慧型手機、電視機、電冰箱、汽車……其中都有晶片的身影,它的質量直接關係到千家萬戶的日常生活。

如今,晶片使用量正在呈指數級增長,對其質量的要求也越來越高。驗證、測試和容錯技術則是晶片質量保障的三道技術關卡。

中國科學院計算技術研究所,計算機體系結構國家重點實驗室常務副主任李曉維研究員帶領團隊自2000年起,在科技部、國家自然科學基金委和北京市科委相關項目的資助下,緊密結合國產高性能CPU晶片的研制,做到了測試驗證和片上容錯設計關鍵技術的突破。系列研究成果曾獲國家技術發明獎和國家科學技術進步獎,最新研究成果已在多款高性能CPU的設計驗證、測試與容錯設計中轉化應用,並獲得了2017年度北京市科學技術獎二等獎。

晶片也有「生病煩惱」

晶片雖然沒有生命,但也和其它生命體一樣面臨可靠性問題,通俗可以理解為晶片的「健康」問題。

修復軟體的故障(通常稱之為Bug)可以通過修改源代碼來做到,但是晶片的故障就不那麼容易修復了。

例如在晶片設計的過程中可能會由於考慮不周,導致製造出的晶片發生功能故障。製造的過程中也會遭受晶片缺陷,導致邏輯正確的晶片仍然不能成為合格的產品,即便在服役期也會由於一些物理機理的作用產生老化等問題。

就像我們通過體檢可以查驗出身體可能會出現的健康問題一樣,對於晶片來說,「體檢」也是十分有必要的。

「簡單地說,設計過程中的問題需要通過驗證的方法來解決,製造過程中遭受的一些隨機雜質等因素造成的缺陷可以通過晶片測試來篩除,而服役期的可靠性則必須通過設置一定的容錯機制來保障了。」李曉維說。

這在很多特殊的應用領域具有非常重要的意義,也對晶片設計正確性的驗證和製造缺陷的檢測提出了迫切的需求。例如飛行在深空的太空裝備中的晶片如果出了問題很難更換,所以對可靠性的要求尤其嚴苛。

給晶片做「產檢」

要想讓CPU晶片一出生就「健康茁壯」,在晶片的IC設計階段,就要通過設計驗證來檢驗設計方案是否符合規範,發現不同設計階段引入的設計Bug。

「晶片作為人類工業史上最複雜的產業之一,設計驗證是其設計流程中的瓶頸,複雜晶片設計驗證所投入的人員和時間都已超過設計本身。」李曉維說。

測試和驗證是非常重要的環節。如果測試和驗證的環節有問題,將會導致有問題的處理器晶片組裝到系統裡,將可能造成巨大的經濟損失。

例如,1994年Intel奔騰晶片的浮點除法錯誤,使Intel公司損失近5億美元,就是因為晶片在投產前未能保證設計的正確性,事後又未能測試出該問題。

據介紹,測試驗證使用的最主要的方法是模擬。該方法主要的難點在於輸入的數量巨大,想要完全地測試驗證處理器,需要的時間非常長。為了加速測試驗證的過程,需要把輸入進行分類,僅挑選每一類中的代表對處理器進行測試驗證。

但處理器的設計非常複雜,輸入的組合和分類情況同樣是極其複雜的。於是,項目研發團隊對測試驗證的方法進行探索,提出了一系列形式化和半形式化的方法解決了這一難題。

「研究成果應用以來,已檢出了多款晶片的設計錯誤,有效避免了潛在重大損失。」李曉維說。

為晶片裝上「急救包」

為了應對服役期晶片的健康問題,項目團隊發明了片上容錯技術,將晶片內置了多種保障晶片可靠工作的功能單元。這就好比人自備「急救包」,遇到一些容易處理的傷病自己就可以解決,不必為了處理一些小問題而專程去醫院。

「這種片上‘急救包’就是片上容錯的核心單元。」李曉維說,這些「急救包」部署在晶片內部一些容易出現問題的位置,例如關鍵的運算單元、重要的數據鏈路等。

經過團隊十餘年的科研攻關,攻克了「自測試、自診斷、自修復」容錯技術的難題,可以準確地檢測到故障是否存在,並精確判定服役期的晶片出現故障的具體位置,從而通過預先設定的機制進行故障修復。

通過實時故障檢測和修復來屏蔽局部失效核對晶片和系統整體性能的影響,能夠滿足相關裝備高可靠性、長壽命的需求。

助力CPU晶片產業發展

據了解,該項目成果已經應用於包括安全認證晶片、星載微處理器晶片、多媒體處理核心晶片、高端通用處理器晶片等十餘款高性能 CPU 的設計驗證、可測試性設計與片上容錯設計中,顯著提升了大陸微處理器的可靠設計能力,促進了大陸高性能處理器驗證測試技術的發展。

使用該成果的國產星載微處理器晶片已成功應用於十餘個高端裝備的控制計算機,運行穩定、安全可靠,取得了顯著社會效益。

應用該成果的Godson-T 晶片入選了 2011 年《Microprocessor Report》雜誌遴選的全球十大服務器處理器;BR 系列安全認證晶片在指紋考勤門禁領域的市場占有率超過50%。

據李曉維介紹,通過採用這項技術,他們把某款存儲器晶片的成品率從30%提升到80%。

從最初的產品質量測試,到全生命周期的可靠性構建,項目團隊不斷致力於用技術創新促進產業鏈的完善。

2018年8月14日,大陸集成電路測試專業委員會正式成立。李曉維擔任專委會主任委員。

「委員會的成立預示著大陸晶片測試與容錯領域,在制定技術標準、促進產學研用融合和貫通等方面開始邁出重要一步。」李曉維告訴記者。

「為了產業的健康發展,必須要排除人為因素,通過自動化、人工智能等技術手段,進行全生命周期的安全排查。為此,建立國家行業標準,時不我待。」李曉維說。