當(dāng)我們過度將注意力聚焦于GPU芯片時,我們可能會忽視一個事實:在人工智能、機(jī)器學(xué)習(xí)的推動下,全球數(shù)據(jù)流量正成倍增長,但決定AI效率的不僅僅只有AI芯片,網(wǎng)絡(luò)傳輸同樣需要跟上“AI速度”。并且,誰能率先突破傳輸效率與延遲的限制,誰就有機(jī)會在下一波AI競賽中奪得先機(jī)。也正是因為這個原因,圍繞著網(wǎng)絡(luò)傳輸速度,一場又一場技術(shù)競爭正在不斷發(fā)力。
Meta 和 Oracle的共同選擇
Meta 和 Oracle近日做出了同樣的選擇,就是將升級為基于NVIDIA Spectrum-X 以太網(wǎng)交換機(jī)的AI數(shù)據(jù)中心網(wǎng)絡(luò)。Meta和Oracle將Spectrum-X以太網(wǎng)交換機(jī)標(biāo)準(zhǔn)化為一種開放的加速網(wǎng)絡(luò)架構(gòu),是為了加快大規(guī)模部署,顯著提升AI訓(xùn)練效率,并縮短獲取洞察的時間。
Meta和甲骨文采用該技術(shù)都是為了構(gòu)建AI工廠,通過百萬級GPU集群實現(xiàn)高效訓(xùn)練,從而支持萬億參數(shù)模型訓(xùn)練。
其中,Oracle 將構(gòu)建由NVIDIA Vera Rubin架構(gòu)提供加速并通過 Spectrum-X以太網(wǎng)進(jìn)行互連的十億瓦級(Giga-Scale)AI工廠。Meta則將Spectrum以太網(wǎng)交換機(jī)集成到Facebook開放交換系統(tǒng)(Facebook Open Switching System“FBOSS”)的網(wǎng)絡(luò)基礎(chǔ)設(shè)施中,這是一款專為管理和控制大規(guī)模網(wǎng)絡(luò)交換機(jī)而開發(fā)的軟件平臺。二者的集成將加快大規(guī)模部署,提升AI訓(xùn)練效率,并縮短獲取洞察的時間。
Spectrum-X被選擇的理由
AI應(yīng)用的熱潮讓超大規(guī)模AI工廠成為了一種必須品,但在其中,傳統(tǒng)網(wǎng)絡(luò)卻可能帶來帶寬、延遲與功耗瓶頸,這讓AI工廠難以跨區(qū)域連接數(shù)百萬GPU,同時也會造成高能耗和較高的運(yùn)營成本。正是因為這些原因,業(yè)界急于尋找到突破傳統(tǒng)網(wǎng)絡(luò)弱點(diǎn)的技術(shù)。而NVIDIA在提出AI工廠設(shè)想時,就已經(jīng)考慮過類似的問題,只不過是因為GPU的光芒太過耀眼,讓業(yè)界忽略了NVIDIA Spectrum-X 以太網(wǎng)網(wǎng)絡(luò)平臺的存在。
NVIDIA Spectrum-X 是NVIDIA 推出的企業(yè)級以太網(wǎng)解決方案,專為超大規(guī)模人工智能(AI)數(shù)據(jù)中心設(shè)計,通過軟硬件協(xié)同優(yōu)化提升網(wǎng)絡(luò)性能。而說到網(wǎng)絡(luò)性能的提升,與傳統(tǒng)以太網(wǎng)相比,Spectrum-X 將AI性能提升約1.6倍,支持端到端的低延遲和高帶寬傳輸,適用于大規(guī)模分布式訓(xùn)練和推理場景。
走入NVIDIA Spectrum-X 以太網(wǎng)網(wǎng)絡(luò)平臺內(nèi)部,會發(fā)現(xiàn)它是由一系列軟硬件構(gòu)成。其中硬件包含Spectrum 交換機(jī)、BlueField-3 SuperNIC 和 LinkX 互連設(shè)備,軟件則集成 SONiC/Cumulus Linux 操作系統(tǒng)、NCCL 集合通信庫等。通過軟硬件的優(yōu)化,NVIDIA Spectrum-X 以太網(wǎng)網(wǎng)絡(luò)平臺最終實現(xiàn)了全棧優(yōu)化,從而可以用于AI云服務(wù)、分布式存儲和大規(guī)模計算等場景。
至此,我們也就不難理解NVIDIA Spectrum-X為什么會成為了Meta和Oracle的共同選擇:除了通過光電一體化硅光交換機(jī),支持跨地域的百萬GPU級擴(kuò)展,實現(xiàn)了良好的可擴(kuò)展性,以及采用RoCE動態(tài)路由和性能隔離技術(shù),確保多租戶環(huán)境下的穩(wěn)定性能之外,NVIDIA Spectrum-X本身就是一種開放架構(gòu),它可以基于標(biāo)準(zhǔn)以太網(wǎng)構(gòu)建,兼容多種網(wǎng)絡(luò)操作系統(tǒng)。
NVIDIA Spectrum-X確實沖破了傳統(tǒng)網(wǎng)絡(luò)的局限,Spectrum-X以太網(wǎng)網(wǎng)絡(luò)展現(xiàn)出創(chuàng)紀(jì)錄的效率,以其先進(jìn)的擁塞控制技術(shù),助力全球最大的AI超級計算機(jī)實現(xiàn)了95%的數(shù)據(jù)吞吐量。相比之下,通用以太網(wǎng)在規(guī)模部署中,會發(fā)生不計其數(shù)的流量沖突,導(dǎo)致吞吐量降低至大約60%的水平。
這一效率的飛躍標(biāo)志著面向AI的大規(guī)模網(wǎng)絡(luò)在經(jīng)濟(jì)效益和性能方面實現(xiàn)了突破性進(jìn)展。NVIDIA Spectrum-XGS 以太網(wǎng)技術(shù)是Spectrum-X以太網(wǎng)網(wǎng)絡(luò)平臺的一部分,可實現(xiàn)跨區(qū)域擴(kuò)展,可將跨城市、國家乃至跨大陸的數(shù)據(jù)中心連接成超大規(guī)模的十億瓦級(Giga-Scale)AI超級工廠。
Spectrum-X的未來
Spectrum-X為NVIDIA的全棧平臺(包括GPU、CPU、NVIDIA NVLink及軟件)而構(gòu)建,可提供從計算到網(wǎng)絡(luò)的無縫性能銜接。其先進(jìn)的擁塞控制、動態(tài)路由以及 AI 驅(qū)動的遙測功能,可確保大規(guī)模AI訓(xùn)練和推理集群的效率和可預(yù)測性。在被Meta和Oracle采用之后,考慮到Meta和Oracle在整個ICT江湖中的地位,我們可以說Spectrum-X已經(jīng)被行業(yè)認(rèn)可,甚至在未來的時間內(nèi)可能會成為某個領(lǐng)域的行業(yè)標(biāo)準(zhǔn)。
這么說并非沒有道理,因為Spectrum-X變成一種開放的加速網(wǎng)絡(luò)架構(gòu),對于各方只有利而并沒有害處。
在NVIDIA這一方,NVIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛表示:“萬億參數(shù)模型正在將數(shù)據(jù)中心轉(zhuǎn)變?yōu)槭畠|瓦級(Giga-Scale)AI工廠,Meta和Oracle等行業(yè)領(lǐng)導(dǎo)者正在將Spectrum-X以太網(wǎng)定義為推動這場產(chǎn)業(yè)變革的標(biāo)準(zhǔn)。Spectrum-X不僅是更快的以太網(wǎng),更是AI工廠的神經(jīng)系統(tǒng),幫助超大規(guī)模企業(yè)將數(shù)百萬個GPU連接到一起構(gòu)建成一臺巨型計算機(jī),從而訓(xùn)練有史以來規(guī)模最大的模型。”
Oracle云基礎(chǔ)設(shè)施執(zhí)行副總裁Mahesh Thiagarajan指出:“Oracle云基礎(chǔ)設(shè)施專為AI工作負(fù)載而設(shè)計,我們與NVIDIA的合作進(jìn)一步鞏固了我們在 AI 領(lǐng)域的領(lǐng)先地位。通過采用Spectrum-X以太網(wǎng)網(wǎng)絡(luò),我們能夠以突破性的效率實現(xiàn)數(shù)百萬個GPU的互連,幫助客戶更快速地訓(xùn)練和部署新一代生成式和推理 AI,并從中受益。”
Meta網(wǎng)絡(luò)工程副總裁Gaya Nagarajan則表示:“Meta的新一代AI基礎(chǔ)設(shè)施需要業(yè)界前所未有的大規(guī)模、開放且高效的網(wǎng)絡(luò),通過將NVIDIA Spectrum 以太網(wǎng)集成到Minipack3N交換機(jī)和FBOSS中,我們既可以擴(kuò)展我們的開放網(wǎng)絡(luò)平臺,又可以提升訓(xùn)練更大規(guī)模的模型的效率和可預(yù)測性,為數(shù)十億用戶提供生成式AI服務(wù)。”
從三方的言論中,不難得出一個結(jié)論,就是Spectrum-X被轉(zhuǎn)變成一種開放的加速網(wǎng)絡(luò)架構(gòu),受益最大的還是用戶。歷史上,決定某種IT技術(shù)成敗的,正是用戶的選擇權(quán)。當(dāng)不可一世的公有云以為自己會一統(tǒng)江湖之時,用戶的選擇權(quán)最終讓混合云成為了主流;用戶在途工作、娛樂的需求,也曾造成了移動互聯(lián)網(wǎng)的替代革命。這一次,Spectrum-X以一種開放的姿態(tài),站在用戶面前接受選擇。它的未來之路,可能在這次轉(zhuǎn)折發(fā)生之后,才剛剛走入了一個新的發(fā)展周期。換句說,Spectrum-X未來可期。
第四十一屆CIO班招生
國際CIO認(rèn)證培訓(xùn)
首席數(shù)據(jù)官(CDO)認(rèn)證培訓(xùn)
責(zé)編:lijj
免責(zé)聲明:本網(wǎng)站(http://www.hongdawj.com.cn/)內(nèi)容主要來自原創(chuàng)、合作媒體供稿和第三方投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
本網(wǎng)站刊載的所有內(nèi)容(包括但不僅限文字、圖片、LOGO、音頻、視頻、軟件、程序等)版權(quán)歸原作者所有。任何單位或個人認(rèn)為本網(wǎng)站中的內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,請及時通知本站,予以刪除。