芯片制造商正在利用演進和革命性技術(shù)，從制造驅(qū)動設(shè)計到半導(dǎo)體架構(gòu)師驅(qū)動設(shè)計的根本轉(zhuǎn)變

合明科技發(fā)布時間：2023-09-07 ?? 2434 Tags：多芯片架構(gòu)小芯片集成先進封裝

過去，大多數(shù)芯片都包含一到兩項前沿技術(shù)，主要是為了跟上每隔幾年每個新工藝節(jié)點的光刻技術(shù)的預(yù)期改進。這些改進是基于行業(yè)路線圖，該路線圖要求隨著時間的推移取得可預(yù)測但不顯著的收益。現(xiàn)在，隨著大型語言模型和更多傳感器推動的數(shù)據(jù)爆炸式增長，以及設(shè)計自己芯片的系統(tǒng)公司之間的競爭加劇，以及涉及人工智能的國際競爭日益激烈，芯片設(shè)計前沿的規(guī)則正在發(fā)生相當(dāng)大的變化。

現(xiàn)在，漸進式改進與處理性能的巨大飛躍相結(jié)合，雖然這些改進使計算能力和分析達到了一個全新的水平，但它們也需要一套全新的權(quán)衡。

這些轉(zhuǎn)變的核心是高度定制的芯片架構(gòu)，其中一些涉及在最先進的工藝節(jié)點開發(fā)的小芯片。并行處理幾乎是必然的，針對特定數(shù)據(jù)類型和操作的加速器也是如此。在某些情況下，這些微型系統(tǒng)不會進行商業(yè)銷售，因為它們?yōu)閿?shù)據(jù)中心提供了競爭優(yōu)勢。但它們也可能包括其他商用技術(shù)，例如處理核心或加速器或用于減少延遲的內(nèi)存內(nèi)或近內(nèi)存計算技術(shù)，以及不同的緩存方案、共同封裝的光學(xué)器件和更快的互連。其中許多進展多年來一直處于研究或擱置狀態(tài)，現(xiàn)在正在全面部署。

谷歌研究院工程研究員兼機器學(xué)習(xí)系統(tǒng)副總裁 Amin Vahdat 在最近的 Hot Chips 2023 會議上的演講中指出，今天的芯片可以解決十年前無法想象的問題，而機器學(xué)習(xí)將承擔(dān)計算周期“越來越多的任務(wù)”。

“我們需要改變對系統(tǒng)設(shè)計的看法，”Vahdat說。“過去五、六、七年中計算需求的增長令人震驚......雖然在[算法]稀疏性方面出現(xiàn)了許多創(chuàng)新，但當(dāng)您查看[下面的圖 1]時，它顯示了 10 倍每個模型的參數(shù)數(shù)量持續(xù)一年。我們還知道，計算成本隨著參數(shù)數(shù)量的增加而超線性增長。因此，我們?yōu)閼?yīng)對這一挑戰(zhàn)而必須構(gòu)建的計算基礎(chǔ)設(shè)施類型必須改變。值得注意的是，如果我們試圖在通用計算上做到這一點，我們就不會達到今天的水平。“

”我們在過去 50 或 60 年間開發(fā)的傳統(tǒng)計算智慧已被拋棄。”

芯片制造商正在利用演進和革命性技術(shù)，以相同或更低的功耗實現(xiàn)性能的數(shù)量級提高，這標志著從制造驅(qū)動設(shè)計到半導(dǎo)體架構(gòu)師驅(qū)動設(shè)計的根本轉(zhuǎn)變。

然而，這并不意味著老問題消失了。功耗和散熱一直是設(shè)計團隊頭疼的問題，并且隨著處理速度和數(shù)量的增加，它們變得更加難以解決。在大約 3GHz 之后，由于熱密度更高且芯片無法散發(fā)熱量，僅僅調(diào)高時鐘頻率就不再是一個簡單的選擇。雖然稀疏數(shù)據(jù)模型和軟硬件協(xié)同設(shè)計解決了在各種處理元件上運行的軟件的效率，以及每個計算周期處理更多數(shù)據(jù)的能力，但不再需要轉(zhuǎn)動一個旋鈕來提高每瓦性能。

一、內(nèi)存創(chuàng)新

然而，有許多小型和中型旋鈕，其中一些從未在生產(chǎn)系統(tǒng)中使用過，因為沒有經(jīng)濟原因這樣做。隨著數(shù)據(jù)的增加和架構(gòu)創(chuàng)新的轉(zhuǎn)變，這些經(jīng)濟學(xué)發(fā)生了巨大的變化，這一點在今年的 Hot Chips 會議上顯而易見。

其中的選項包括內(nèi)存中/近內(nèi)存處理，以及更接近數(shù)據(jù)源的處理。這里的問題是，移動大量數(shù)據(jù)需要大量的系統(tǒng)資源——帶寬、電力和時間——這對計算有直接的經(jīng)濟影響。一般來說，收集和處理的大部分數(shù)據(jù)都是無用的。例如，汽車或安全系統(tǒng)中的視頻輸入中的相關(guān)數(shù)據(jù)可能僅持續(xù)一兩秒，而可能需要數(shù)小時的數(shù)據(jù)進行整理。對靠近源頭的數(shù)據(jù)進行預(yù)處理，并使用人工智能來識別感興趣的數(shù)據(jù)，意味著只需發(fā)送一小部分數(shù)據(jù)進行進一步處理和存儲。

三星首席工程師 Jin Hyun Kim 表示：“大部分能源消耗來自移動數(shù)據(jù)。” 他指出了三種提高效率和提升績效的解決方案：

使用 HBM 進行內(nèi)存處理，實現(xiàn)極高的帶寬和功耗；
使用 LPDDR 對需要高容量的低功耗設(shè)備進行內(nèi)存處理
使用 CXL 進行近內(nèi)存處理，以適中的成本實現(xiàn)極高的容量。

內(nèi)存處理已經(jīng)在繪圖板上醞釀了很多年，直到最近才出現(xiàn)太大進展。大型語言模型已經(jīng)極大地改變了經(jīng)濟學(xué)，現(xiàn)在它變得更加有趣，大型內(nèi)存供應(yīng)商也沒有忽視這一點。

這一概念的新改進是內(nèi)存加速，這對于 AI/ML 的乘法累加 (MAC) 函數(shù)特別有用，因為需要快速處理的數(shù)據(jù)量呈爆炸式增長。使用生成式預(yù)訓(xùn)練 Transformer 3 (GPT-3) 和 GPT4，僅加載數(shù)據(jù)就需要大量帶寬。與此相關(guān)的挑戰(zhàn)有很多，包括如何有效地做到這一點，同時最大限度地提高性能和吞吐量，如何擴展它以處理大型語言模型中參數(shù)數(shù)量的快速增加，以及如何建立靈活性以適應(yīng)未來的變化。

SK hynix America 高級技術(shù)傳感經(jīng)理 Yonkwee Kwon 在 Hot Chips 2023 上的演講中表示：“我們一開始的想法是將內(nèi)存作為加速器。”“第一個目標是實現(xiàn)高效擴展。但擁有高性能也很重要。最后，我們設(shè)計的系統(tǒng)架構(gòu)易于編程，同時最大限度地減少系統(tǒng)結(jié)構(gòu)開銷，但仍然允許軟件堆棧實現(xiàn)靈活性。

二、CPU 改進

雖然內(nèi)存的變化有助于減少需要移動的數(shù)據(jù)量，但這只是難題的一小部分。下一個挑戰(zhàn)是加快主要處理元素的速度。做到這一點的一種方法是分支預(yù)測，它基本上預(yù)測下一個操作將是什么——幾乎就像互聯(lián)網(wǎng)搜索引擎的方式一樣。然而，與任何并行架構(gòu)一樣，關(guān)鍵是保持各種處理元素充分運行，沒有空閑時間，以最大限度地提高性能和效率。

Arm 通過其 Neoverse V2 設(shè)計對這一概念進行了新的改造，將分支與獲取分離（decoupling branch from fetch）。其結(jié)果是通過最大限度地減少停頓來提高效率，并從錯誤預(yù)測中更快地恢復(fù)。Arm 首席 CPU 架構(gòu)師 Magnus Bruce 表示：“動態(tài)饋送機制允許內(nèi)核調(diào)節(jié)攻擊性，并主動防止系統(tǒng)擁塞。”“這些基本概念使我們能夠推動機器的寬度和深度，同時保持較短的管道以快速恢復(fù)錯誤預(yù)測。”

這里的不同之處在于，整個系統(tǒng)的改進來自于架構(gòu)在多個點的調(diào)整，而不是大規(guī)模的改變。例如，拆分分支預(yù)測器和獲取可以將分支目標緩沖區(qū)拆分為兩個級別，使其能夠處理多 50% 的條目。它還將預(yù)測器中存儲的歷史記錄增加了三倍，并將獲取隊列中的條目數(shù)量增加了一倍，從而顯著提高了實際性能。為了使其有效，該架構(gòu)還將 L2 緩存加倍，從而將使用過的數(shù)據(jù)塊預(yù)測和使用過的多次數(shù)據(jù)塊預(yù)測分開。綜合各種改進，Neoverse V2 的性能是 V1 的兩倍，具體取決于它在系統(tǒng)中扮演的角色。

與此同時，AMD 的下一代 Zen 4 核心由于微架構(gòu)的改進，每周期指令數(shù)增加了約 14%，由于工藝擴展，在相同電壓下 5nm 下的頻率提高了 16%，由于微架構(gòu)和技術(shù)的改進，功耗降低了約 60%。物理設(shè)計改進。

與 Arm 一樣，AMD 也致力于改進分支預(yù)測和獲取。AMD 研究員兼 Zen 4 首席架構(gòu)師 Kai Troester 表示，由于更多的分支、每個周期更多的分支預(yù)測以及允許更多條目和每個條目更多操作的更大操作緩存，分支預(yù)測準確性得到了提高。它還添加了 3D V 高速緩存，將每個內(nèi)核的 L3 高速緩存提升至高達 96 MB，并在 256 位數(shù)據(jù)路徑上使用兩個連續(xù)周期提供對 512 位操作的支持。簡而言之，該設(shè)計增加了數(shù)據(jù)管道的大小，并盡可能縮短數(shù)據(jù)必須傳輸?shù)木嚯x。

三、平臺架構(gòu)系統(tǒng)

另一個主要趨勢是不斷增加的領(lǐng)域?qū)Ｓ眯裕@對開發(fā)適用于所有應(yīng)用程序的通用處理器的舊模式造成了嚴重破壞。現(xiàn)在的挑戰(zhàn)是如何提供本質(zhì)上的大規(guī)模定制，有兩種主要方法：通過硬件或可編程邏輯添加可編程性，以及開發(fā)可互換部件的平臺。

英特爾推出了一個將小芯片集成到先進封裝中的框架，該封裝利用其嵌入式多芯片互連橋來連接高速 I/O、處理器內(nèi)核和內(nèi)存。英特爾的目標是提供足夠的定制和性能來滿足客戶的需求，但交付這些系統(tǒng)的速度比完全定制的架構(gòu)要快得多，并且結(jié)果可預(yù)測。

“這將是一個多芯片架構(gòu)，”英特爾院士兼首席至強架構(gòu)師 Chris Gianos 說道。“我們可以使用這些小芯片構(gòu)建結(jié)構(gòu)，具有很大的靈活性。它們都只是互操作，它為我們提供了專門優(yōu)化產(chǎn)品核心的維度之一。我們將創(chuàng)建 E 核（超高效）的小芯片和 P 核（高性能）的小芯片。”

英特爾還創(chuàng)建了一個模塊化網(wǎng)狀結(jié)構(gòu)來將各種組件連接在一起，以及一個支持 DDR 或 MCR 內(nèi)存以及通過 CXL 連接的內(nèi)存的通用控制器。

四、神經(jīng)處理器、光學(xué)互連

即使對于 Hot Chips 會議來說，新方法和新技術(shù)的清單也是前所未有的。它表明業(yè)界正在多么廣泛地尋找增加功率和降低功率的新方法，同時仍然關(guān)注面積和成本。PPAC 仍然是焦點，但不同應(yīng)用程序和用例的權(quán)衡可能非常不同。

IBM 研究員 Dharmendra Modha 表示：“人工智能的運營支出和資本支出正在變得不可持續(xù)。”他補充道，“架構(gòu)勝過摩爾定律。”

對于 AI/ML 應(yīng)用來說，精度也至關(guān)重要。IBM 的設(shè)計包括一個支持混合精度的向量矩陣乘法器，以及具有 FP16 精度的向量計算單元和激活函數(shù)單元。此外，處理是在距離內(nèi)存幾微米的范圍內(nèi)完成的。“不存在依賴于數(shù)據(jù)的條件分支，”他說。“沒有緩存未命中、沒有停頓、沒有推測執(zhí)行。”

復(fù)雜芯片的一個關(guān)鍵挑戰(zhàn)不僅是在內(nèi)存和處理器之間移動數(shù)據(jù)，而且還在于芯片周圍的數(shù)據(jù)移動。片上網(wǎng)絡(luò)和其他互連結(jié)構(gòu)簡化了這一過程。硅光子學(xué)已經(jīng)使用了一段時間，特別是對于高速網(wǎng)絡(luò)芯片，并且光子學(xué)在機架中的服務(wù)器之間發(fā)揮著作用。但是否或何時轉(zhuǎn)移到芯片層面仍不確定。盡管如此，這一領(lǐng)域的工作仍在繼續(xù)，根據(jù)芯片行業(yè)的大量采訪，光子學(xué)受到了許多公司的關(guān)注。

Lightelligence 工程副總裁 Maurice Steinman 表示，他的公司已經(jīng)開發(fā)出專門構(gòu)建的基于光子學(xué)的加速器，其速度比 GPU 快 100 倍，而且功耗顯著降低。該公司還開發(fā)了片上光學(xué)網(wǎng)絡(luò)，更多的是使用硅中介層作為使用光子而不是電子連接小芯片的介質(zhì)。

“純電氣解決方案面臨的挑戰(zhàn)是，隨著距離的衰減，僅在最近的鄰居之間進行通信確實變得切實可行，”Steinman說。“如果[芯片]左上角有一個結(jié)果需要與右下角通信，那么它需要遍歷很多跳。這給負責(zé)分配資源的軟件組件帶來了問題，因為它需要考慮接下來的幾個棋步以避免擁塞。”

五、可持續(xù)性、可靠性和未來

隨著所有這些變化，另外兩個問題也出現(xiàn)了。一是可持續(xù)性。隨著更多的數(shù)據(jù)由更多的芯片處理，挑戰(zhàn)甚至將集中在能源消耗上，更不用說減少碳足跡了。更多更高效的設(shè)備并不一定會消耗更少的電力，而且制造所有這些設(shè)備都需要能源。

一段時間以來，數(shù)據(jù)中心一直是人們關(guān)注的目標。十年前，普遍認同的統(tǒng)計數(shù)據(jù)是數(shù)據(jù)中心消耗了地球上所有發(fā)電量的 2% 到 3%。美國能源效率和可再生能源辦公室表示，數(shù)據(jù)中心約占美國總用電量的 2%。這些數(shù)字并不總是準確的，因為綠色能源有多種，制造和回收太陽能電池板和風(fēng)車葉片也需要能源。但很明顯，消耗的能源量將隨著數(shù)據(jù)的增長而繼續(xù)增長，即使它沒有以相同的速度跟蹤。

Hot Chips 以及其他會議上的許多演講都將可持續(xù)發(fā)展作為目標。盡管基礎(chǔ)數(shù)據(jù)可能有所不同，但事實上，這是許多芯片制造商的企業(yè)強制要求，這一點意義重大。

第二個尚未解決的問題是可靠性。許多新芯片設(shè)計也比前幾代芯片復(fù)雜幾個數(shù)量級。過去，主要問題是基板上可以塞滿多少晶體管以及如何避免芯片熔化。如今，數(shù)據(jù)路徑和分區(qū)如此之多，散熱只是眾多因素之一。隨著越來越多的數(shù)據(jù)被分區(qū)、處理、重新聚合和分析，結(jié)果的準確性和一致性可能更難以確定和保證，特別是當(dāng)設(shè)備老化程度不同并以意想不到的方式交互時。

此外，谷歌研究院高級研究員兼高級副總裁 Jeff Dean 表示，模型正在從單一模態(tài)轉(zhuǎn)變?yōu)槎喾N模態(tài)（圖像、文本、聲音和視頻），從密集模型轉(zhuǎn)向稀疏模型。“動力、可持續(xù)性和可靠性確實很重要，”他說，并指出許多有關(guān)人工智能訓(xùn)練和 CO 2排放的數(shù)據(jù)都具有誤導(dǎo)性。“如果你使用正確的數(shù)據(jù)，事情并沒有那么可怕。”

六、芯片封裝清洗：

合明科技研發(fā)的水基清洗劑配合合適的清洗工藝能為芯片封裝前提供潔凈的界面條件。

水基清洗的工藝和設(shè)備配置選擇對清洗精密器件尤其重要，一旦選定，就會作為一個長期的使用和運行方式。水基清洗劑必須滿足清洗、漂洗、干燥的全工藝流程。

污染物有多種，可歸納為離子型和非離子型兩大類。離子型污染物接觸到環(huán)境中的濕氣，通電后發(fā)生電化學(xué)遷移，形成樹枝狀結(jié)構(gòu)體，造成低電阻通路，破壞了電路板功能。非離子型污染物可穿透PC B 的絕緣層，在PCB板表層下生長枝晶。除了離子型和非離子型污染物，還有粒狀污染物，例如焊料球、焊料槽內(nèi)的浮點、灰塵、塵埃等，這些污染物會導(dǎo)致焊點質(zhì)量降低、焊接時焊點拉尖、產(chǎn)生氣孔、短路等等多種不良現(xiàn)象。

這么多污染物，到底哪些才是最備受關(guān)注的呢？助焊劑或錫膏普遍應(yīng)用于回流焊和波峰焊工藝中，它們主要由溶劑、潤濕劑、樹脂、緩蝕劑和活化劑等多種成分，焊后必然存在熱改性生成物，這些物質(zhì)在所有污染物中的占據(jù)主導(dǎo)，從產(chǎn)品失效情況來而言，焊后殘余物是影響產(chǎn)品質(zhì)量最主要的影響因素，離子型殘留物易引起電遷移使絕緣電阻下降，松香樹脂殘留物易吸附灰塵或雜質(zhì)引發(fā)接觸電阻增大，嚴重者導(dǎo)致開路失效，因此焊后必須進行嚴格的清洗，才能保障電路板的質(zhì)量。

合明科技運用自身原創(chuàng)的產(chǎn)品技術(shù)，滿足芯片封裝工藝制程清洗的高難度技術(shù)要求，打破國外廠商在行業(yè)中的壟斷地位，為芯片封裝材料全面國產(chǎn)自主提供強有力的支持。

推薦使用合明科技水基清洗劑產(chǎn)品。

上一篇：華為Mate60 Pro的發(fā)售是否意味著華為芯片···

下一篇：助焊劑的工作原理

西瓜在线看免费观看视频,欧美午夜精品一区二区蜜桃,少妇扒开腿让我爽了一夜,供人泄欲玩弄的妓女H

芯片制造商正在利用演進和革命性技術(shù)，從制造驅(qū)動設(shè)計到半導(dǎo)體架構(gòu)師驅(qū)動設(shè)計的根本轉(zhuǎn)變