“東數(shù)西算”是我國為促進數(shù)字經濟發(fā)展、建設數(shù)字中國而推動實施的一項國家戰(zhàn)略工程。算力和網(wǎng)絡的發(fā)展日益呈現(xiàn)一體共生趨勢,網(wǎng)絡從連接算力演進為動態(tài)感知算力、可定制承載算力,實現(xiàn)在網(wǎng)計算隨需隨算,算力無處不在。
數(shù)字經濟發(fā)展對算力網(wǎng)絡提出重大挑戰(zhàn)
ChatGPT的出現(xiàn)讓“算力網(wǎng)絡”這一概念受到越來越多的關注,但美國通過限制相關技術和高端芯片的出口不斷對我國進行擠壓,企圖通過5納米、7納米等高端GPU(圖形器處理)芯片對中國禁運,讓中國的算力尤其在智能算力方面永遠落后于美國。面對這種情況,我們不僅要盡快突破算力網(wǎng)絡關鍵核心技術,更要找到適合自身國情的算力網(wǎng)絡發(fā)展路徑。
以ChatGPT-3為例,它有1750億個參數(shù),其訓練使用了微軟的人工智能計算系統(tǒng),該系統(tǒng)由1萬個V100GPU和28.5萬個CPU組成,每個GPU服務器擁有400Gb/s的網(wǎng)絡性能,這樣才能滿足訓練所需約3640PF-days(即假如每秒計算一千萬億次,需要計算3640天)的算力。由于美國高端人工智能芯片禁售,我國若要滿足如此龐大的算力需求,除阿里、騰訊等大算力中心有這樣的能力外,對于普遍需要大模型訓練的單位而言,比較現(xiàn)實的路徑就是把多個分散的數(shù)據(jù)中心通過網(wǎng)絡連接起來,形成算力集群,開展協(xié)同計算、并行計算等來彌補單個數(shù)據(jù)中心算力不足的劣勢。
然而,數(shù)據(jù)中心之間的連接和海量數(shù)據(jù)的傳輸又對網(wǎng)絡提出更高的要求,即要能實現(xiàn)超長距離無損數(shù)據(jù)傳輸。國際上做過相關試驗,在算力網(wǎng)絡條件下,如果丟包率大于1%,傳輸效率將下降50%;如果丟包率大于2%,傳輸效率則將接近于0。這對我們實現(xiàn)數(shù)據(jù)遠距離無損傳輸提出很大挑戰(zhàn),因此,我們建議利用確定性網(wǎng)絡,并結合RDMA(遠程直接數(shù)據(jù)存?。┑葻o損傳輸技術來提升國家整體算力和網(wǎng)絡資源效能。
確定性網(wǎng)絡技術成為推動算力網(wǎng)絡發(fā)展的關鍵
確定性網(wǎng)絡技術得到國際同行的認可,相關研究也有很多。例如,IETF(國際互聯(lián)網(wǎng)工程任務組)在2015年10月成立DetNet(確定性網(wǎng)絡)工作小組,側重研究為網(wǎng)絡層數(shù)據(jù)傳輸提供確定性延遲、丟包、抖動以及高可靠性的標準和能力;3GPP(第三代合作伙伴計劃)于R16、R17、R18標準先后支持IEEE(電氣與電子工程師協(xié)會)TSN (時間敏感網(wǎng)絡)協(xié)議的5G網(wǎng)絡系統(tǒng),確立5G系統(tǒng)的確定性機制并進行標準化;美國能源部、國際電工委員會(IEC)等組織也都制定了相關標準。國內方面,中國信息通信研究院聯(lián)合國內多家網(wǎng)絡相關單位共同組建的網(wǎng)絡5.0產業(yè)和技術創(chuàng)新聯(lián)盟,開展DIP(確定性IP)研究;工業(yè)互聯(lián)網(wǎng)產業(yè)聯(lián)盟啟動“時間敏感網(wǎng)絡(TSN)產業(yè)鏈名錄計劃”。
確定性網(wǎng)絡正成為未來網(wǎng)絡產業(yè)發(fā)展的核心,也是我國在網(wǎng)絡領域實現(xiàn)“換道超車”的重要歷史機遇。那么,如何實現(xiàn)網(wǎng)絡的確定性服務能力呢?這就需要一個新的網(wǎng)絡體系架構?;舅悸肪褪前丫W(wǎng)絡軟硬件設備進行解耦,將網(wǎng)絡資源盡量開放,功能細化,變成可重構、可調度的模塊,實現(xiàn)網(wǎng)絡資源的靈活調度控制和按需配置?;诖耍覀冊谌蚵氏忍岢?ldquo;服務定制網(wǎng)絡(SCN)新型網(wǎng)絡體系架構”,在網(wǎng)絡承載、網(wǎng)絡控制、網(wǎng)絡服務三個平面實現(xiàn)多項核心技術突破,改變傳統(tǒng)互聯(lián)網(wǎng)TCP/IP協(xié)議僵化和不可控問題,實現(xiàn)互聯(lián)網(wǎng)核心技術的自主可控和發(fā)展主動權。
而這個架構的實現(xiàn)需要有一個大網(wǎng)的操作系統(tǒng),它就像網(wǎng)絡的“超級大腦”一樣,能對整個網(wǎng)絡資源進行實時數(shù)據(jù)采集和分析,對網(wǎng)絡進行融合控制,從而確保網(wǎng)絡服務能力確定性可控。我國具有自主知識產權的大網(wǎng)操作系統(tǒng)目前已在400多個城市、1100多個節(jié)點的骨干網(wǎng)上穩(wěn)定運行了5年。
在大算力場景下,確定性網(wǎng)絡在滿足數(shù)據(jù)高速、遠距離、無損傳輸需求方面具有明顯的優(yōu)越性。從未來網(wǎng)絡試驗設施(CENI)現(xiàn)網(wǎng)測試數(shù)據(jù)可以看出,基于確定性網(wǎng)絡技術的傳輸效率遠遠優(yōu)于傳統(tǒng)網(wǎng)絡技術,如相較于FTP(文件傳輸協(xié)議)效率可提升36倍,相較于QUIC(快速UDP網(wǎng)絡連接)效率可提升15倍,且對于線路延時、丟包的魯棒性更好。因此,確定性網(wǎng)絡將成為支撐大算力應用高速傳輸?shù)膱詫嵉鬃?/p>
確定性網(wǎng)絡正在助力數(shù)字經濟高質量發(fā)展
實際上,目前相關團隊正在規(guī)劃將確定性網(wǎng)絡應用在“東數(shù)西算”工程項目中,依托未來網(wǎng)絡試驗設施建設連接“東數(shù)西算”八大樞紐節(jié)點數(shù)據(jù)中心的“確定性新總線”,項目完成后將極大地提升我國算力資源使用效率,為電力、氣象、能源等重大應急安全領域提供安全、可靠、高效的網(wǎng)絡支持能力,助力我國數(shù)字經濟高質量發(fā)展和碳達峰、碳中和目標的實現(xiàn)。
ChatGPT的出現(xiàn)加速了人工智能大模型時代的到來,未來每個行業(yè),甚至每個企業(yè)都可以擁有自己的大模型,這要求網(wǎng)絡能夠提供全域確定性服務能力。目前,我國已基于未來網(wǎng)絡試驗設施構建了覆蓋全國35個城市的廣域確定性網(wǎng)絡,可實現(xiàn)跨一萬公里數(shù)據(jù)傳輸,端到端的時延抖動小于50微秒,做到零丟包、不亂序,可為將來不同行業(yè)、不同場景下的大模型訓練提供確定性網(wǎng)絡支撐能力,大大提升了大模型的生成效率。
此外,確定性網(wǎng)絡還可為工業(yè)互聯(lián)網(wǎng)、能源互聯(lián)網(wǎng)、元宇宙、科學研究等典型場景提供高效的網(wǎng)絡支撐能力。以“中國天眼”——500米口徑球面射電望遠鏡(FAST)為例,當前,F(xiàn)AST每小時產生超過7TB的巡天數(shù)據(jù),這對網(wǎng)絡傳輸、數(shù)據(jù)存儲、計算處理能力都帶來嚴峻挑戰(zhàn)。項目團隊依托未來網(wǎng)絡試驗設施,建立算網(wǎng)融合的FAST巡天科研環(huán)境,協(xié)助FAST團隊突破海量科學原始數(shù)據(jù)的快速傳輸、高通量計算難題,極大地提升了技術創(chuàng)新效率。
面對互聯(lián)網(wǎng)下半場發(fā)展,即從消費領域進入實體經濟的歷史機遇期,確定性網(wǎng)絡有望解決傳統(tǒng)互聯(lián)網(wǎng)擁塞無序的問題,推動互聯(lián)網(wǎng)從“盡力而為”到“確保所需”的技術體系變革。希望我們能抓住這一重大機遇,不斷突破確定性網(wǎng)絡核心技術,不斷發(fā)展完善確定性網(wǎng)絡相關產業(yè)生態(tài),實現(xiàn)核心標準、芯片、設備的自主可控,引領算力網(wǎng)絡技術和應用的發(fā)展。