液冷技術(shù):迎接AIGC時(shí)代數(shù)據(jù)中心的散熱挑戰(zhàn)隨著人工智能生成內(nèi)容(AIGC)的跨越式發(fā)展,算力需求呈爆炸式增長(zhǎng),帶動(dòng)了數(shù)據(jù)中心的功耗和熱管理需求的飛速上升。AI模型訓(xùn)練和推理過程中的高計(jì)算資源需求,導(dǎo)致服務(wù)器發(fā)熱量大幅增加,對(duì)散熱技術(shù)提出了更高的要求。根據(jù)Colocation America發(fā)布的數(shù)據(jù),2020年全球數(shù)據(jù)中心單機(jī)柜平均功率已經(jīng)達(dá)到16.5kW,比2008年增加了175%。液冷技術(shù)因此成為數(shù)據(jù)中心散熱技術(shù)的新熱點(diǎn)。 在今年的GTC大會(huì)上,英偉達(dá)不僅展示了B200和GB200芯片,還重點(diǎn)介紹了與其配套的液冷技術(shù)。同時(shí),在2024年SIEPR經(jīng)濟(jì)峰會(huì)上,英偉達(dá)CEO黃仁勛透露,下一代DGX GPU服務(wù)器將全面采用液冷散熱。英偉達(dá)的選擇也成為行業(yè)內(nèi)的一個(gè)風(fēng)向標(biāo),為液冷技術(shù)的發(fā)展注入了新的動(dòng)力。 隨著AI技術(shù)的不斷進(jìn)步,液冷技術(shù)的重要性也愈加凸顯。液冷技術(shù)不僅能夠有效降低數(shù)據(jù)中心的能耗,還能夠提高服務(wù)器的運(yùn)行效率,延長(zhǎng)設(shè)備的使用壽命。因此,液冷技術(shù)正逐步成為數(shù)據(jù)中心散熱解決方案的首選。 數(shù)據(jù)中心冷卻方式的比較 目前數(shù)據(jù)中心基礎(chǔ)設(shè)施的制冷方式主要有風(fēng)冷和液冷兩種方式。液冷技術(shù)是指利用液體取代空氣作為冷卻介質(zhì),與服務(wù)器發(fā)熱元器件進(jìn)行熱交換,將服務(wù)器元器件產(chǎn)生的熱量帶走,以保證服務(wù)器工作在安全溫度范圍內(nèi)的一種冷卻方法。風(fēng)冷技術(shù)依賴于風(fēng)扇和空調(diào)系統(tǒng),通過空氣流動(dòng)帶走熱量。液冷技術(shù)通過液體直接冷卻發(fā)熱器件,液體的導(dǎo)熱能力是空氣的25倍,液體的體積比熱容是空氣的1000~3500倍,液體的對(duì)流換熱系數(shù)是空氣的10~40倍,同等情況下,液冷的冷卻能力遠(yuǎn)高于空氣。 相比風(fēng)冷技術(shù),液冷技術(shù)具有更高的冷卻效率和更低的能耗。在高密度計(jì)算環(huán)境中,風(fēng)冷系統(tǒng)往往無法滿足散熱需求,而液冷技術(shù)則能夠有效解決這一問題。此外,液冷技術(shù)還具有噪音低、占地面積小等優(yōu)點(diǎn),非常適合現(xiàn)代數(shù)據(jù)中心的高密度布局和綠色節(jié)能需求。 AI時(shí)代下,液冷發(fā)展有哪些推動(dòng)力? ①算力芯片熱功率不斷攀升,風(fēng)冷單點(diǎn)散熱已達(dá)極限 隨著AI技術(shù)的快速發(fā)展,算力需求不斷攀升,芯片發(fā)熱量和熱流密度也在不斷增加。當(dāng)芯片長(zhǎng)時(shí)間處于高溫運(yùn)行狀態(tài),會(huì)影響其性能及使用壽命,增加故障率。研究表明,當(dāng)芯片的工作溫度接近70-80℃時(shí),溫度每升高10℃,芯片性能會(huì)降低約50%。當(dāng)前,Intel多款CPU的TDP已達(dá)350W,英偉達(dá)的H100達(dá)到700W,未來B100或?qū)⑦_(dá)到1000W,這已逼近風(fēng)冷單點(diǎn)散熱極限800W。未來計(jì)算芯片功耗或?qū)⒊掷m(xù)增長(zhǎng),而CPU和GPU的整體功耗在AI服務(wù)器總功耗中占比達(dá)到80%左右,繼續(xù)采用風(fēng)冷散熱,將導(dǎo)致行間空調(diào)需求數(shù)量陡增,高密度散熱場(chǎng)景下液冷方案成本和性能優(yōu)勢(shì)顯著。 除了芯片側(cè),在機(jī)柜側(cè),數(shù)據(jù)中心單機(jī)柜功率密度也在持續(xù)上升。傳統(tǒng)風(fēng)冷技術(shù)通?梢越鉀Q12KW~15KW以內(nèi)的機(jī)柜制冷極限需求,根據(jù) UptimeInstitute 發(fā)布的《2022 年全球數(shù)據(jù)中心調(diào)查報(bào)告》,英偉達(dá)DGX A100服務(wù)器的單體最大功率為6.5KW,一個(gè)標(biāo)準(zhǔn)的 42U 高度的機(jī)柜大約可以放置 5個(gè) 5U 高度的 AI 服務(wù)器,單機(jī)柜總功率超過 20KW。傳統(tǒng)的風(fēng)冷遠(yuǎn)遠(yuǎn)無法滿足AI服務(wù)器機(jī)柜的散熱需求。 ②數(shù)據(jù)中心節(jié)能需求驅(qū)動(dòng),PUE更高要求 PUE(Power Usage Effectiveness)是評(píng)價(jià)數(shù)據(jù)中心能源效率的核心指標(biāo),計(jì)算公式為 PUE = 數(shù)據(jù)中心總能耗/IT設(shè)備能耗,數(shù)值越接近1,數(shù)據(jù)中心能效越高,PUE的值越高,數(shù)據(jù)中心的整體效率越低。 數(shù)據(jù)中心的電能消耗主要由IT設(shè)備(45%)、制冷設(shè)備(43%)、供配電系統(tǒng)(10%)、照明等(2%)構(gòu)成?照{(diào)系統(tǒng)在數(shù)據(jù)中心能耗占比僅次于IT設(shè)備,在無法升級(jí)IT系統(tǒng)時(shí),降低空調(diào)系統(tǒng)能耗是重要環(huán)節(jié)。國(guó)內(nèi)在“雙碳” “東數(shù)西算” 政策的導(dǎo)向下,可以從近期國(guó)家有關(guān)部門發(fā)布的《綠色數(shù)據(jù)中心政府采購(gòu)需求標(biāo)準(zhǔn)(試行)》的通知要求看出對(duì)于PUE的要求越來越高,其通知要求采購(gòu)人采購(gòu)數(shù)據(jù)中心相關(guān)設(shè)備、運(yùn)維服務(wù)時(shí),從2023年6月起數(shù)據(jù)中心PUE不高于1.4,2025年起數(shù)據(jù)中心PUE不高于1.3。 根據(jù)CDCC與浪潮信息,風(fēng)冷方案數(shù)據(jù)中心PUE一般在1.4-1.5左右,而液冷數(shù)據(jù)中心PUE可降低至1.2以下,采用更加節(jié)能、效率較高的液冷散熱技術(shù)是大勢(shì)所趨。 數(shù)據(jù)中心的能源消耗一直是行業(yè)關(guān)注的焦點(diǎn),尤其是在全球能源資源緊張和環(huán)保意識(shí)增強(qiáng)的背景下,提升數(shù)據(jù)中心的能效顯得尤為重要。液冷技術(shù)通過更高效的散熱方式,減少了空調(diào)系統(tǒng)的能耗,從而顯著降低了數(shù)據(jù)中心的PUE值。這不僅有助于降低運(yùn)營(yíng)成本,還能夠減少碳排放,符合可持續(xù)發(fā)展的要求。 液冷技術(shù)的分類 液冷系統(tǒng)根據(jù)液體與硬件直接的接觸方式分為直接液冷和間接液冷,直接液冷就是液體與需要冷卻的硬件組件直接接觸達(dá)到冷卻的目的,又可分為浸沒式和噴淋式;間接液冷是指液體不與硬件直接接觸,通過一個(gè)中介組件(散熱器或冷卻板)將熱量帶走達(dá)到冷卻,一般常見的為冷板式液冷,根據(jù)冷卻介質(zhì)是否發(fā)生相變又可分為單相冷板式和兩相冷板式。 ①?gòu)睦浒宓浇䴖]式 冷板式液冷是通過冷板把發(fā)熱器件的熱量傳遞到冷卻液體,通過冷卻液體本身的制冷特性將產(chǎn)生的熱量帶走。工作液體不與電子器件直接接觸,該技術(shù)對(duì)計(jì)算機(jī)系統(tǒng)改動(dòng)不大,僅需將原風(fēng)冷散熱片替換為液冷散熱套件并將冷媒管路引出機(jī)箱即可。適用于中高熱流密度散熱。 冷板式液冷系統(tǒng)主要由冷卻塔、冷量分配單元(CDU)、一次側(cè)&二次側(cè)液冷管路、冷卻介質(zhì)、液冷機(jī)柜組成。一次側(cè)是指將二次側(cè)的熱量排至室外環(huán)境或其他熱回收單元的環(huán)路;二次側(cè)是指從服務(wù)器帶走熱量并在一次側(cè)進(jìn)行散熱的環(huán)路,兩個(gè)部分中間通過CDU即冷量分配單元來進(jìn)行換熱。 冷板式液冷系統(tǒng)的工作原理相對(duì)簡(jiǎn)單,但在實(shí)際應(yīng)用中,需要考慮冷板的設(shè)計(jì)、冷卻液的選擇以及系統(tǒng)的維護(hù)等問題。此外,冷板式液冷系統(tǒng)在高熱流密度環(huán)境中表現(xiàn)出色,非常適合現(xiàn)代數(shù)據(jù)中心的高密度布局需求。 浸沒式液冷系統(tǒng)通過直接將發(fā)熱器件浸入不導(dǎo)電的冷卻液中實(shí)現(xiàn)高效散熱。按照冷卻液在循環(huán)散熱過程中是否發(fā)生相變,可以分為單相浸沒式液冷和雙相浸沒式液冷。 單相浸沒式液冷技術(shù)在交換過程中冷卻液溫度發(fā)生變化而不存在相態(tài)轉(zhuǎn)變,過程中完全依靠物質(zhì)的顯熱變化傳遞熱量,即利用液體受熱后體積膨脹密度減小,較熱的冷卻液會(huì)自然上浮,通過外部冷卻回路的熱交換器冷卻,冷卻后的液體在重力作用下自然下沉,以此來完成循環(huán)散熱。這是其中一個(gè)方式,冷卻液在循環(huán)散熱過程中始終保持液態(tài)。 雙相浸沒式液冷的散熱過程中冷卻液會(huì)發(fā)生從液態(tài)到氣態(tài)再?gòu)臍鈶B(tài)到液態(tài)的相變過程。 浸沒式液冷系統(tǒng)包括室內(nèi)側(cè)與室外側(cè),室外側(cè)包含冷卻塔、一次側(cè)管網(wǎng)、一次側(cè)冷卻液;室內(nèi)側(cè)包含冷量分配單元(CDU)、浸沒腔體(Tank機(jī)柜)、IT設(shè)備、二次側(cè)管網(wǎng)和二次側(cè)冷卻液。使用過程中IT設(shè)備完全浸沒在冷卻液中,因此冷卻的選擇需要考慮不導(dǎo)電液體,例如硅油、氟化液等。 此外,還有噴淋式液冷,現(xiàn)階段落地應(yīng)用較少,不適合高密度服務(wù)器和大規(guī)模數(shù)據(jù)中心。短期內(nèi),冷板式液冷因技術(shù)成熟、與現(xiàn)有系統(tǒng)兼容性好、維護(hù)方便和改造成本較低,非常適合AI時(shí)代對(duì)散熱的需求和數(shù)據(jù)中心從風(fēng)冷向液冷的過渡階段。長(zhǎng)期看,浸沒式液冷憑借其良好的導(dǎo)熱性能、高效的余熱回收能力和支持更高機(jī)柜功率的優(yōu)勢(shì),會(huì)更適合未來數(shù)據(jù)中心冷卻需求的演變,尤其是在機(jī)柜單元功率不斷增加的情況下,浸沒式液冷可以提供更高效的冷卻解決方案,并且助力降低數(shù)據(jù)中心的總體能源使用效率(PUE)。 ②智算中心首選 – 液冷 隨著功率密度的提升,采用液冷方案成為更多新建 GPU 算力中心的選擇。根據(jù) IDC 發(fā)布的《中國(guó)半年度液冷服務(wù)器市場(chǎng)(2023 上半年)跟蹤》報(bào)告數(shù)據(jù)顯示, 2023 中國(guó)液冷服務(wù)器市場(chǎng)規(guī)模達(dá)到 15.1 億美元。 IDC 預(yù)計(jì),2022-2027 年,中國(guó)液冷服務(wù)器市場(chǎng)年復(fù)合增長(zhǎng)率將達(dá)到 54.7%,2027 年市場(chǎng) 規(guī)模將達(dá)到 89 億美元。 液冷技術(shù)在智算中心的應(yīng)用,不僅提升了計(jì)算性能,還顯著降低了能耗和運(yùn)營(yíng)成本。液冷技術(shù)的推廣,將推動(dòng)數(shù)據(jù)中心向更加高效、綠色和智能的方向發(fā)展,為AI時(shí)代的數(shù)據(jù)處理需求提供堅(jiān)實(shí)的基礎(chǔ)。 液冷產(chǎn)業(yè)鏈 液冷產(chǎn)業(yè)鏈包括上游的產(chǎn)品零部件提供商、中游的液冷服務(wù)器提供商、下游的算力使用者。目前下游的用戶,國(guó)內(nèi)用戶阿里巴巴以單相浸沒式液冷為主要發(fā)展方向,其他如百度、騰訊、京東等互聯(lián)網(wǎng)企業(yè)更多的以冷板式液冷應(yīng)用居多。海外用戶浸沒式發(fā)展優(yōu)于冷板式,以美國(guó)公司為首,如英特爾、Google、Meta等互聯(lián)網(wǎng)大公司在AI加持下更多的推動(dòng)浸沒式液冷的快速發(fā)展。 浸沒式液冷技術(shù)可能面臨的問題 冷卻液選擇 冷卻液是液冷技術(shù)的關(guān)鍵原材料之一,具備較高技術(shù)壁壘。在浸沒式液冷技術(shù)中,冷卻液需要與電子產(chǎn)品直接接觸,因此對(duì)冷卻液的性能具有較高的要求,需要具備優(yōu)異的導(dǎo)熱性、良好的絕緣性、材料相容性等,此外對(duì)于氣味、毒性、降解難易等環(huán)境方面特性也是有一定要求,應(yīng)盡可能的易于操作及環(huán)境又好型。目前應(yīng)用最為廣泛的浸沒式冷卻液主要有碳?xì)浼坝袡C(jī)硅類(俗稱“油類”,如礦物油等)和碳氟化合物類(如氟化液等)。氟化液綜合性能較好,是比較理想的液冷材料。但氟化液目前的痛點(diǎn)在于成本較高。隨著愈發(fā)嚴(yán)格的環(huán)境保護(hù)要求,硅油擁有更高的導(dǎo)熱系數(shù)與更低的密度,同時(shí)對(duì)于環(huán)境更友好。冷卻介質(zhì)選擇的差異主要由于冷卻過程的不同。 光路密封性問題 冷卻液如氟化液或硅油等具有良好的絕緣性,能夠有效防止電路短路。在低頻信號(hào)條件下,冷卻液對(duì)信號(hào)的影響幾乎可以忽略不計(jì)。然而,在高頻信號(hào)的情況下,冷卻液對(duì)信號(hào)傳輸?shù)挠绊憚t需要謹(jǐn)慎評(píng)估和控制。但整體而言,對(duì)電路的影響是可控的。 而對(duì)于光路來說,數(shù)據(jù)中心的光模塊多數(shù)采用“非氣密”封裝設(shè)計(jì),這意味著如果不進(jìn)行相應(yīng)的改進(jìn),冷卻液可能會(huì)進(jìn)入光學(xué)腔體,影響光學(xué)性能。即便是采用氣密封裝的光模塊,仍有部分無源光路處于氣密腔之外,例如透鏡等光學(xué)元件。 光路的設(shè)計(jì)通;诳諝獾恼凵渎剩s為1.0),當(dāng)光學(xué)元件浸沒在冷卻液中時(shí),冷卻液的折射率不同于空氣,會(huì)導(dǎo)致光的焦點(diǎn)和耦合效率發(fā)生變化。例如,氟油的折射率通常在1.3左右,這種折射率的變化會(huì)引起光路設(shè)計(jì)參數(shù)的調(diào)整。 為應(yīng)對(duì)浸沒式液冷對(duì)光路和電路的潛在影響,業(yè)界正在采取多種措施。例如,開發(fā)適應(yīng)冷卻液環(huán)境的新型光模塊封裝技術(shù),優(yōu)化高頻信號(hào)的電路設(shè)計(jì),以及研究更適合浸沒冷卻的光學(xué)材料和結(jié)構(gòu)。 一體化交付還是解耦式交付 目前冷板式液冷服務(wù)器有三種交付模式,①IT設(shè)備側(cè)僅交付液冷服務(wù)器;②IT側(cè)交付“液冷服務(wù)器+液冷機(jī)柜”;③IT側(cè)交付“液冷服務(wù)器+液冷機(jī)柜+CDU+二次側(cè)管路”。當(dāng)下應(yīng)用較為廣泛的為第三種交付模式,即一體化交付,整體機(jī)柜由同一廠商一體化交付,由廠商自定義標(biāo)準(zhǔn)進(jìn)行集成化設(shè)計(jì)開發(fā)。解耦交付是液冷機(jī)柜與液冷服務(wù)器之間遵循用戶統(tǒng)一制定的接口設(shè)計(jì)規(guī)范,機(jī)柜與服務(wù)器解耦,由不同廠家交付,基礎(chǔ)設(shè)施和服務(wù)器廠家需協(xié)調(diào)合作。解耦式交付易于規(guī)模化推廣與靈活部署。 目前國(guó)內(nèi)液冷技術(shù)規(guī)劃化程度較低,各家服務(wù)器設(shè)備、冷卻液、制冷管路、供配電等產(chǎn)品形態(tài)各異,尚無統(tǒng)一接口標(biāo)準(zhǔn),面臨著難以標(biāo)準(zhǔn)化、規(guī);茝V應(yīng)用的問題。國(guó)內(nèi)三大運(yùn)營(yíng)商發(fā)表液冷技術(shù)白皮書中提出液冷三年愿景,逐步開展液冷技術(shù)的驗(yàn)證、實(shí)驗(yàn),將于2025年開展液冷技術(shù)的大規(guī)模應(yīng)用,預(yù)計(jì)應(yīng)用于50%以上數(shù)據(jù)項(xiàng)目,推動(dòng)形成標(biāo)準(zhǔn)統(tǒng)一化、規(guī);埔豪浣怦钍浇桓。 HYC可提供定制化液冷光互聯(lián)方案 基于二十多年的光互聯(lián)關(guān)鍵技術(shù)積累,HYC具有高精度機(jī)械設(shè)計(jì)、模具、注塑設(shè)計(jì)與精密制造能力,以及光學(xué)設(shè)計(jì)、模擬仿真等技術(shù)平臺(tái),能夠配合客戶做一系列的應(yīng)用于液冷數(shù)據(jù)中心的布線系統(tǒng)ODM/JDM服務(wù)。 |