設計一個大規(guī)模芯片/系統(tǒng)集成的最佳路徑是什么?這是一個大家都關心的好問題。
Cerebras 通過其wafer scale engine 2 ( WSE-2 )為行業(yè)設定了一個高標準:它擁有 2.6 萬億個晶體管,包括 850,000 個內核,這個成就是他們采用臺積電的 7 納米工藝在大約 8 英寸 x 8 英寸的硅片上成就的。
達成這寫目標的另一種不同的方法是使用chiplet技術,然后使用無源硅互連技術將各種“設備”安裝到單個硅片上。加州大學洛杉磯分校和伊利諾伊大學厄巴納-香檳分校的研究人員最近發(fā)表的一篇新論文稱,這種方法更靈活,可以擴展,并提供顯著的成本優(yōu)勢。
根據(jù)最近的一篇論文,該團隊的研究人員團隊已經(jīng)在設計并正在制作擁有2048個chiplet和14336個核心的晶圓級處理器原型,在這篇論文中,他們還很好地展示了chiplet的 方法的優(yōu)勢和挑戰(zhàn)。
“據(jù)我們所知,這是有史以來最大的基于小芯片組裝的系統(tǒng)。就活動區(qū)域而言,我們的原型系統(tǒng)比 Nvidia/AMD 等公司的基于小芯片的系統(tǒng)大 10 倍左右,比 Nvidia 的 64 小芯片 Simba(研究)系統(tǒng)大 100 倍左右,”研究人員在論文中寫道。
基本前提是熟悉的。他們表示,“圖形處理、數(shù)據(jù)分析和機器學習等高度并行工作負載的激增正在推動對具有大量處理核心、廣泛內存容量和高內存帶寬的大規(guī)模并行高性能系統(tǒng)的需求?!?/p>
到目前為止,使用傳統(tǒng)的封裝外通信鏈路連接的離散封裝處理器的異構架構已成為處理新工作負載的主要解決方案。此外,還有大量針對這些工作負載的新芯片和系統(tǒng),Cerebras 的 WSE-2 就是一個例子。
研究人員認為,單片晶圓級“芯片無法集成來自異構技術(如 DRAM 或其他密集存儲技術)的組件。此外,為了獲得良好的產(chǎn)量,需要在晶圓級芯片上保留冗余內核和網(wǎng)絡鏈接。
因此他們指出,小芯片策略應該能夠克服其中的一些限制:
”構建晶圓級系統(tǒng)的一種競爭方法是在晶圓級互連基板上集成預先測試過的已知良好的小芯片(在這項工作中,我們將未封裝的裸芯片/小芯片稱為小芯片)。硅互連結構 (Silicon interconnect Fabric :Si-IF) 是一種候選技術,它使我們能夠在高密度互連晶片上緊密集成許多小芯片。Si-IF 技術提供基于細間距銅柱(10μm 間距)的 I/O,其密度至少是基于中介層的系統(tǒng)中使用的傳統(tǒng) μ-bumps的 16 倍,以及~100μm 的小芯片間距。因此,它為小芯片間互連提供了全局的片上布線特性。此外,在基于小芯片的晶圓級系統(tǒng)中,小芯片可以采用異構技術制造,并有可能提供更好的性價比權衡?!?/p>
下圖很好地概述了設計。
正如您所期望的那樣,芯片組方法帶來了自己的一組設計挑戰(zhàn),團隊列舉了這些挑戰(zhàn):
”我們應該如何為整個晶圓上的所有倒裝芯片鍵合小芯片供電?
“我們如何在如此大的區(qū)域內可靠地分配時鐘?
”當每個小芯片需要支持大量基于細間距銅柱的 I/O 時,我們如何設計面積高效的 I/O,我們如何實現(xiàn)非常高的整體小芯片組裝和鍵合良率?
“芯片間網(wǎng)絡架構應該怎么搭建,如果幾個小芯片出現(xiàn)故障,我們如何實現(xiàn)彈性?
”當 I/O pads尺寸較小時,測試策略是什么?我們如何確保測試方案的可擴展性?
“在制造過程的不確定性和限制條件下,我們如何設計小芯片和基板?”
在那篇論文中,研究團隊詳細介紹了針對整體架構、計算小芯片、內存小芯片和所選晶圓級基板的解決方案方法和具體考慮因素。還詳細檢查了網(wǎng)絡、配電和測試基礎設施。
該團隊還通過在 FPGA 平臺上模擬縮小尺寸的多塊系統(tǒng)來驗證系統(tǒng)設計和架構?!拔覀兡軌虺晒Φ卦谶@個系統(tǒng)上運行各種工作負載,包括圖應用程序,例如廣度優(yōu)先搜索 ( breadth-first search :BFS)、單源最短路徑 ( single-source shortest path :SSSP) 等,”該論文稱。
查看一下這些原型的行為會很有趣。
該論文的作者之一、加州大學洛杉磯分校的博士Saptadeep Pal告訴HPCwire,“一個較小的硅原型現(xiàn)在已經(jīng)啟動并運行程序。目前正在建造晶圓級原型。我們正在一步一步地進行。流片和系統(tǒng)在許多方面都是”第一次“,而且在大學里,重新制作的時間和金錢成本非常高。完整的晶圓級系統(tǒng)可能還需要幾個月的時間?!?/p>