華為AI存儲(chǔ)助力中國移動(dòng)構(gòu)建超大規(guī)模智算集群_中國品牌

大模型領(lǐng)域普遍存在規(guī)模化定律，即大模型的性能深受模型參數(shù)量、數(shù)據(jù)集大小以及訓(xùn)練算力規(guī)模三要素的影響。生成式AI的運(yùn)行主要基于深度學(xué)習(xí)原理，其發(fā)展離不開海量數(shù)據(jù)信息的投入。面對(duì)智算集群目前存在的可用度、推理體驗(yàn)等問題，華為推出業(yè)界首款A(yù)I存儲(chǔ)——OceanStor A800，致力于成為支撐智算集群發(fā)展的關(guān)鍵基座。

智算集群為千行萬業(yè)發(fā)展新質(zhì)生產(chǎn)力夯基筑石

近年來，智能計(jì)算已經(jīng)成為推動(dòng)社會(huì)發(fā)展進(jìn)步的重要力量。從計(jì)算機(jī)視覺到自然語言處理、多模態(tài)等基礎(chǔ)大模型研究，再到面向自動(dòng)駕駛、生命科學(xué)等重點(diǎn)行業(yè)的專用大模型研發(fā)，各行各業(yè)都展示出對(duì)智能算力的巨大需求。

中國移動(dòng)搶抓數(shù)字經(jīng)濟(jì)發(fā)展新機(jī)遇，立足自身資源稟賦和能力優(yōu)勢(shì)，以算為中心、以網(wǎng)為根基、以存為引擎，打造多種信息技術(shù)深度融合、可提供一體化服務(wù)的算力網(wǎng)絡(luò)，對(duì)內(nèi)滿足“九天”人工智能大模型訓(xùn)練，對(duì)外面向千行萬業(yè)提供一站式智能計(jì)算服務(wù)，加快發(fā)展新質(zhì)生產(chǎn)力。

借助智算集群提供的服務(wù)，運(yùn)營商行業(yè)加速數(shù)智化轉(zhuǎn)型，可匯聚數(shù)百萬個(gè)基站、數(shù)億用戶以及數(shù)百PB級(jí)歷史數(shù)據(jù)，實(shí)現(xiàn)L4級(jí)網(wǎng)絡(luò)自動(dòng)駕駛；金融行業(yè)可對(duì)信貸申請(qǐng)進(jìn)行快速處理，時(shí)間從原來的數(shù)天縮短到一分鐘，甚至最快一秒鐘即可完成審批。

華為AI數(shù)據(jù)湖方案助力中國移動(dòng)智算中心構(gòu)建堅(jiān)實(shí)底座

中國移動(dòng)智算中心（哈爾濱）節(jié)點(diǎn)充分利用中國移動(dòng)（哈爾濱）數(shù)據(jù)中心軟硬件優(yōu)勢(shì)、自然冷源地域優(yōu)勢(shì)，提前4個(gè)月攻堅(jiān)完成3千多平方米機(jī)房的供電、制冷、建筑結(jié)構(gòu)等重大調(diào)整改造，涉及5000多臺(tái)設(shè)備、7萬多根線纜、20多萬個(gè)端口、千萬級(jí)精密器件的大規(guī)模集群復(fù)雜施工。在30多個(gè)單位、千余人的協(xié)同支持下，歷經(jīng)7個(gè)月時(shí)間，超萬卡規(guī)模智算集群建成，存力規(guī)模達(dá)150PB。

在智能融合分級(jí)存儲(chǔ)集群的設(shè)計(jì)初期，中國移動(dòng)面臨幾大挑戰(zhàn)：在吞吐性能方面，萬億級(jí)參數(shù)大模型需要至少10TB/秒的吞吐量，而傳統(tǒng)存儲(chǔ)系統(tǒng)難以滿足這一要求；在多協(xié)議處理方面，數(shù)據(jù)從歸集到處理再到訓(xùn)練，涉及對(duì)象存儲(chǔ)和文件存儲(chǔ)的頻繁轉(zhuǎn)換，這對(duì)傳統(tǒng)存儲(chǔ)架構(gòu)是一個(gè)巨大挑戰(zhàn)；在數(shù)據(jù)管理效率方面，隨著數(shù)據(jù)的動(dòng)態(tài)變化，熱數(shù)據(jù)與冷數(shù)據(jù)需要按需流動(dòng)，傳統(tǒng)系統(tǒng)主要依賴人工干預(yù)，效率較低。

為應(yīng)對(duì)上述挑戰(zhàn)，華為為中國移動(dòng)提供AI數(shù)據(jù)湖解決方案，構(gòu)建智算中心數(shù)據(jù)底座，實(shí)現(xiàn)聚合帶寬8TB/秒，IOPS（每秒讀寫次數(shù)）達(dá)2.3億。受益于AI數(shù)據(jù)湖高可靠、高性能等特點(diǎn)，大幅降低集群故障概率，縮短了斷點(diǎn)續(xù)訓(xùn)時(shí)間，使得90天單訓(xùn)練周期內(nèi)GPU的等待時(shí)間從7天減少到2天。

在訓(xùn)練方面使智算集群實(shí)現(xiàn)從“堆算力”到“提效率”的轉(zhuǎn)化

華為推出AI數(shù)據(jù)湖解決方案，基于OceanStor AI存儲(chǔ)和OceanStor Pacific分布式存儲(chǔ)的諸多技術(shù)創(chuàng)新，可支撐千億/萬億級(jí)參數(shù)大模型高效訓(xùn)練與推理。

大模型訓(xùn)練系統(tǒng)對(duì)算力需求很大，計(jì)算密度空前，對(duì)數(shù)據(jù)吞吐量的要求也與時(shí)俱增，要求達(dá)到傳統(tǒng)應(yīng)用的數(shù)十倍甚至百倍。對(duì)于存儲(chǔ)來說，首先就是要快速將數(shù)據(jù)源源不斷地投入大模型。

為最大程度發(fā)揮每塊算力卡的“潛力”，華為OceanStor A800首創(chuàng)數(shù)控分離架構(gòu)，讓數(shù)據(jù)從接口卡直接傳輸?shù)酱鎯?chǔ)介質(zhì)，避免CPU和內(nèi)存等潛在的瓶頸，大幅提升存儲(chǔ)帶寬和IOPS能力。在2024年MLPerf TM存儲(chǔ)基準(zhǔn)性能測(cè)試比拼中，OceanStor A800榮登榜首，其2節(jié)點(diǎn)性能高達(dá)679 GB/秒。

面對(duì)訓(xùn)練過程中的海量數(shù)據(jù)匯聚與高效存儲(chǔ)問題，華為AI數(shù)據(jù)湖解決方案構(gòu)建了全局文件系統(tǒng)、無損多協(xié)議互通、EB級(jí)擴(kuò)展以及熱溫冷數(shù)據(jù)智能分級(jí)存儲(chǔ)等能力，用一套存儲(chǔ)實(shí)現(xiàn)AI各階段數(shù)據(jù)的免拷貝和格式免轉(zhuǎn)換，加速數(shù)據(jù)價(jià)值釋放，并實(shí)現(xiàn)整體擁有成本（TCO）最優(yōu)。

在推理方面使大模型實(shí)現(xiàn)從“快思考”到“慢思考”的轉(zhuǎn)化

大模型產(chǎn)品具有即時(shí)問答的“快思考”能力，讓AI變得更“聰明”，就要使其具備邏輯梳理、應(yīng)對(duì)變化的“慢思考”能力。

使AI具備“慢思考”的能力，關(guān)鍵在于記錄下AI推理過程中的每一次“思考”結(jié)果，使其再遇到相同的復(fù)雜問題時(shí)不需要重新計(jì)算。專門記錄大模型思考結(jié)果的存儲(chǔ)被稱為“長記憶內(nèi)存型存儲(chǔ)”，作為內(nèi)存的擴(kuò)展，以分級(jí)的方式實(shí)現(xiàn)月級(jí)/年級(jí)的記憶能力，甚至是“終生”記憶能力。

華為OceanStor A800是業(yè)界首款提供“長記憶”能力的存儲(chǔ)，通過“多級(jí)鍵—值緩存（KV—Cache）機(jī)制”將所有的思考結(jié)果持久化保存并高效使用，讓大模型推理具備“慢思考”能力，以減少大模型在預(yù)填充階段的重復(fù)計(jì)算。如此，客戶進(jìn)行AI推理的時(shí)延可降低近八成，單個(gè)計(jì)算卡的吞吐量提升約2/3，可在實(shí)現(xiàn)推理體驗(yàn)提升的同時(shí)降低成本。

如今，智算中心正從千卡集群向萬卡甚至超萬卡集群演進(jìn)。華為將與中國移動(dòng)等企業(yè)持續(xù)深入合作，一起應(yīng)對(duì)超萬卡集群建設(shè)和運(yùn)營帶來的前所未有的挑戰(zhàn)，抓住人工智能發(fā)展的歷史機(jī)遇，打造自主創(chuàng)新的智算中心可靠數(shù)據(jù)底座。

數(shù)據(jù)來源：中國移動(dòng)通信集團(tuán)黑龍江有限公司　華為技術(shù)有限公司

人妻少妇中文在线视频,丁香五月婷婷激情网,日本韩国黄色成人网站,亚洲综合99伊人四虎

華為AI存儲(chǔ)助力中國移動(dòng)構(gòu)建超大規(guī)模智算集群