美譽(yù)度品牌管理
作者 | jojo
編輯 | jonyle
AI大模型正在倒逼國內(nèi)數(shù)字基礎(chǔ)設(shè)施產(chǎn)業(yè)加速躍遷。
隨著“百模大戰(zhàn)”打響,近日,ICT龍頭華為繼推出了盤古大模型3.0、昇騰AI云服務(wù)等產(chǎn)品后,又進(jìn)一步推出了面向大模型的全新AI存儲(chǔ)產(chǎn)品。
存儲(chǔ)的重要性不言而喻,它與算力、網(wǎng)絡(luò)并列為“數(shù)據(jù)中心三大件”,為大模型生產(chǎn)提供數(shù)據(jù)底座,支持大模型中的信息快速、無延遲地讀寫。
如果將大模型比作孩子,那么數(shù)據(jù)就是菜肴。孩子只有吃得好,才能長得高,數(shù)據(jù)存儲(chǔ)正是烹飪這些菜肴的大廚,是大模型成長的“第一道關(guān)口”。
華為此次面向基礎(chǔ)、行業(yè)大模型及細(xì)分場景模型,推出了OceanStor A310深度學(xué)習(xí)數(shù)據(jù)湖存儲(chǔ)和FusionCube A3000訓(xùn)/推超融合一體機(jī)兩款新品。據(jù)稱,其在密度、容量等性能指標(biāo)上高于業(yè)界60%,能大大提高大模型生產(chǎn)中的數(shù)據(jù)處理效率,以便高效快速地將“菜肴”喂給正在茁壯成長的大模型。
數(shù)據(jù)“存得下、用得好”在小模型時(shí)期已經(jīng)是企業(yè)標(biāo)配需求。那么相比于小模型時(shí)代,大模型場景下的存儲(chǔ)需求發(fā)生了什么重要改變?華為推出的AI存儲(chǔ)新品是基于什么考慮?數(shù)據(jù)存儲(chǔ)又將如何影響我國大模型產(chǎn)業(yè)的發(fā)展進(jìn)程?
通過對話華為數(shù)據(jù)存儲(chǔ)產(chǎn)品線總裁周躍峰、華為分布式存儲(chǔ)領(lǐng)域副總裁韓振興等專家,本文對此進(jìn)行了深入探討。
一、數(shù)據(jù)資產(chǎn)升值,存好數(shù)據(jù)成“煉?!钡谝魂P(guān)
眾所周知,算法、算力和數(shù)據(jù)是AI的核心三要素。
今天看中國乃至全球AI發(fā)展,大模型軟件算法已有眾多部署,比如清華大學(xué)與智譜AI聯(lián)合推出的ChatGLM、中科院自動(dòng)化所推出的紫東.太初、科大訊飛推出的星火認(rèn)知大模型等;在算力方面,我們也看到英偉達(dá)之外,華為昇騰、寒武紀(jì)等新秀飛速發(fā)展;而當(dāng)我們把視線投向數(shù)據(jù),則發(fā)現(xiàn)了一大“凹陷”地帶。
多位大模型公司專業(yè)人士稱,國內(nèi)大模型與GPT-4仍有一定距離,背后的一大原因是英文類大模型在訓(xùn)練時(shí),所調(diào)用的記錄資料遠(yuǎn)多于中文。國內(nèi)大模型缺乏海量和高價(jià)值的數(shù)據(jù),已成為限制大模型產(chǎn)業(yè)發(fā)展的一大桎梏。
根據(jù)投資機(jī)構(gòu)ARK Invest預(yù)算,到2030年,產(chǎn)業(yè)有望訓(xùn)練出比GPT-3多57倍參數(shù)、多720倍Token的AI模型,成本將從今天的170億美元降至60萬美元。隨著計(jì)算價(jià)格降低,數(shù)據(jù)將成為大模型生產(chǎn)的主要限制因素。
面對數(shù)據(jù)桎梏問題,不少企業(yè)已經(jīng)開始進(jìn)行前瞻性布局。華為分布式存儲(chǔ)領(lǐng)域副總裁韓振興告訴美譽(yù)度等媒體,國內(nèi)已有十幾家大模型客戶、廠商與華為展開合作,比如前文提到的科大訊飛、中科院等,還有一些海外客戶,都紛紛關(guān)注到了大模型場景下數(shù)據(jù)存儲(chǔ)的升級需求。
華為數(shù)據(jù)存儲(chǔ)產(chǎn)品線總裁周躍峰說,“大模型時(shí)代,數(shù)據(jù)決定AI智能的高度。作為數(shù)據(jù)的載體,數(shù)據(jù)存儲(chǔ)成為AI大模型的關(guān)鍵基礎(chǔ)設(shè)施?!彼劦溃^去幾年,國內(nèi)大力建設(shè)了很多算力中心,而隨著大模型推進(jìn),各地的存力中心也開始加緊建設(shè)。與此同時(shí),大模型的訓(xùn)練需要快速的數(shù)據(jù)采集和加載,因此也呼喚產(chǎn)業(yè)打造出更高性能的存儲(chǔ)產(chǎn)品。
中金公司研究部計(jì)算機(jī)行業(yè)首席分析師、副總經(jīng)理于鐘海在近期的一次演講中也談道,數(shù)據(jù)應(yīng)該成為企業(yè)AI戰(zhàn)略的核心。隨著頭部大模型企業(yè)投入,大模型算法本身的接入成本將不斷變低,行業(yè)大模型成為行業(yè)發(fā)展的趨勢。企業(yè)私有數(shù)據(jù),蘊(yùn)含不可湮滅的價(jià)值;數(shù)據(jù)壁壘,也成為競爭對手無法完整復(fù)制的策略。
可以看到在大模型時(shí)代,數(shù)據(jù)資產(chǎn)正在升值。數(shù)據(jù)存儲(chǔ)作為大模型生產(chǎn)中的“第一關(guān)”,重要性將隨著時(shí)間推移更加凸顯。
二、邁過四道坎,攻克大模型的“饑餓狀態(tài)”
相比于小模型訓(xùn)練,大模型的顯著特征是“大”。
這決定了小模型的數(shù)據(jù)處理與大模型存在區(qū)別。從產(chǎn)業(yè)實(shí)際來看,在小模型興起時(shí),很多企業(yè)會(huì)用一些服務(wù)器的本地磁盤來存儲(chǔ)數(shù)據(jù),用以加載到顯存里做訓(xùn)練。但隨著大模型興起,服務(wù)器本地磁盤難以帶動(dòng)海量數(shù)據(jù),如果繼續(xù)擴(kuò)充此類存儲(chǔ)設(shè)施,則有可能出現(xiàn)問題。
這就要提到模型生產(chǎn)面臨的第一重挑戰(zhàn):在大模型的數(shù)據(jù)準(zhǔn)備環(huán)節(jié),數(shù)據(jù)準(zhǔn)備和預(yù)處理過程復(fù)雜,耗時(shí)長。
由于數(shù)據(jù)來源分散、歸集慢,且預(yù)處理百TB數(shù)據(jù)大概需要10天左右,從而影響了整個(gè)系統(tǒng)的高效運(yùn)轉(zhuǎn)。這就需要在數(shù)據(jù)存儲(chǔ)環(huán)節(jié)快速進(jìn)行數(shù)據(jù)歸集和預(yù)處理,以此緩解算力“饑餓”問題。
同時(shí),企業(yè)不僅需要把數(shù)據(jù)喂給大模型,還需要讓數(shù)據(jù)存儲(chǔ)和訓(xùn)練計(jì)算打配合。
這里就指向了大模型訓(xùn)練中的第二重挑戰(zhàn):在大模型的訓(xùn)練環(huán)節(jié),數(shù)據(jù)集的加載效率往往難以滿足需求。當(dāng)下大模型已達(dá)到百億到萬億參數(shù),多模態(tài)大模型以海量文本、圖片為訓(xùn)練集,需要我們將大量小文件傳送到訓(xùn)練器。而小文件的讀取速度是一個(gè)業(yè)界難題,就像傳輸一個(gè)G的電影遠(yuǎn)比傳輸多個(gè)1k的小文件快一樣,當(dāng)前海量小文件的加載速度不足100MB/s,這就限制了整個(gè)系統(tǒng)的效率。
還有第三重挑戰(zhàn),那就是在AI大模型訓(xùn)練中,訓(xùn)練中斷后的斷點(diǎn)恢復(fù)面臨難處。由于大模型參數(shù)需要頻繁調(diào)優(yōu),訓(xùn)練出現(xiàn)中斷是高頻事件,需要高效地恢復(fù)訓(xùn)練過程。尤其在訓(xùn)練復(fù)雜的模型結(jié)構(gòu)時(shí),如果數(shù)據(jù)加載不順暢、易出錯(cuò)則會(huì)增加巨大的工作開銷。
此外,還有第四重挑戰(zhàn),那就是在大模型實(shí)施部署環(huán)節(jié),大模型落地門檻往往較高。對于絕大多數(shù)企業(yè)而言,使用大模型需要專業(yè)的知識(shí)儲(chǔ)備、人才儲(chǔ)備和專業(yè)系統(tǒng)實(shí)施能力,且企業(yè)傳統(tǒng)的IT系統(tǒng)會(huì)為每個(gè)應(yīng)用預(yù)留一定的GPU資源,單個(gè)應(yīng)用獨(dú)占GPU,資源利用率通常不到40%,這些問題對企業(yè)來說也比較棘手。
總的來說,在大模型生產(chǎn)中的數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、模型訓(xùn)練、模型推理任一環(huán)節(jié),如果數(shù)據(jù)存儲(chǔ)跟不上計(jì)算的節(jié)奏,都可能造成大模型的“饑餓”。只有解決上述關(guān)鍵難題,才能解決大模型的“饑餓”狀態(tài)。
縱觀當(dāng)下全國數(shù)據(jù)中心布局,算力相對充足,但缺乏相應(yīng)的存力。如果算力過多、存力過少,就會(huì)導(dǎo)致數(shù)據(jù)在歸集、預(yù)處理、訓(xùn)練、推理的流程中耗時(shí)過多,算力就會(huì)被閑置等待,從而造成資源浪費(fèi),更影響大模型生產(chǎn)的質(zhì)量。“存算比”成為更加需要科學(xué)考量的關(guān)鍵指標(biāo)。
三、面向多種大模型場景,華為打造數(shù)據(jù)“加速包”和“保護(hù)艙”
解決瓶頸問題,需要產(chǎn)業(yè)頭部玩家牽頭。
作為全球領(lǐng)先的高端存儲(chǔ)設(shè)備公司,華為在兩三年前預(yù)判到AI大趨勢,提前籌備兩款A(yù)I存儲(chǔ)產(chǎn)品。據(jù)稱,這兩款產(chǎn)品在密度、容量等性能指標(biāo)上高于業(yè)界60%,并通過靈活的擴(kuò)展性,幫助大模型客戶更好地預(yù)置和部署大模型。
首先來看看第一款產(chǎn)品,OceanStor A310深度學(xué)習(xí)數(shù)據(jù)湖存儲(chǔ)。
正如前文提到,面對大模型時(shí)代的數(shù)據(jù)采集、處理等各環(huán)節(jié)的問題,過去將數(shù)據(jù)歸集、預(yù)處理、訓(xùn)練、推理分別建在不同的數(shù)據(jù)中心的方式可能不再高效。大模型會(huì)加速存儲(chǔ)在各個(gè)環(huán)節(jié)的融合,形成類似數(shù)據(jù)湖的存儲(chǔ)。
OceanStor A310是面向基礎(chǔ)、行業(yè)大模型場景,涵蓋從數(shù)據(jù)歸集、預(yù)處理到模型訓(xùn)練、推理應(yīng)用的AI全流程深度學(xué)習(xí)數(shù)據(jù)湖存儲(chǔ)。據(jù)悉,OceanStor A310是當(dāng)前全球性能密度最高的一款存儲(chǔ),支持96閃存盤,帶寬可達(dá)400GB/s,IOPS達(dá)到1200萬,可線性擴(kuò)展至4096節(jié)點(diǎn),實(shí)現(xiàn)多協(xié)議無損互通。其內(nèi)置的全局文件系統(tǒng)GFS可實(shí)現(xiàn)跨地域智能數(shù)據(jù)編織,簡化數(shù)據(jù)歸集流程,并支持近存計(jì)算,以實(shí)現(xiàn)近數(shù)據(jù)預(yù)處理,減少數(shù)據(jù)搬移,預(yù)處理效率提升30%。
此外,OceanStor A310不僅可用于AI大模型,它的同源數(shù)據(jù)的處理能力在客戶做超算和大數(shù)據(jù)應(yīng)用時(shí)同樣適用。當(dāng)未來客戶系統(tǒng)需要升級融合成AI大模型的時(shí)候,數(shù)據(jù)也無需再遷移,該產(chǎn)品有很好的未來演進(jìn)能力。
再來看看第二款產(chǎn)品,F(xiàn)usionCube A3000訓(xùn)/推超融合一體機(jī)。
正如前文提到,很多企業(yè)在搭建AI時(shí),如何降低這一系統(tǒng)化工程的落地門檻?答案是超融合。
FusionCube A3000訓(xùn)/推超融合一體機(jī)集成了高性能存儲(chǔ)節(jié)點(diǎn)、訓(xùn)推節(jié)點(diǎn)、網(wǎng)絡(luò)交換設(shè)備、AI平臺(tái)軟件。據(jù)悉,這一新品面向百億級模型應(yīng)用,客戶可以一站式部署,開箱即用,能大幅降低AI大模型的前期使用、部署門檻與投入。
FusionCube A3000 還支持兩種商業(yè)模式,為客戶提供更多樣的配置選擇。第一種昇騰一站式方案是華為集成了自研的OceanStor A300高性能存儲(chǔ)節(jié)點(diǎn)、網(wǎng)絡(luò)、昇騰計(jì)算與管理運(yùn)維軟件,為客戶提供全國產(chǎn)化的昇騰一站式方案。第二種是第三方GPU一站式方案,其底座是華為OceanStor A300高性能存儲(chǔ)節(jié)點(diǎn),其余GPU服務(wù)器、交換機(jī)、AI平臺(tái)軟件向伙伴開放,為大模型伙伴提供拎包入住的部署體驗(yàn),實(shí)現(xiàn)一站式交付。
FusionCube A3000已與多家戰(zhàn)略伙伴進(jìn)行合作試用與聯(lián)合創(chuàng)新,今后將持續(xù)賦能更多中小企業(yè)、研究所和高校的AI大模型訓(xùn)練推理。
除了讓大模型“吃得飽”,我們不得不提數(shù)據(jù)安全的問題,這也是幾乎所有大模型廠商極其關(guān)注的問題。
就像我們關(guān)注錢的安全,首先就是希望錢包和家里的保險(xiǎn)箱安全,數(shù)據(jù)存儲(chǔ)的安全與之類似。
華為蘇黎士研究所數(shù)據(jù)存儲(chǔ)首席科學(xué)家張霽談道:“數(shù)據(jù)存儲(chǔ)是我們數(shù)據(jù)安全的第一道防線?!痹贏I大模型的第一個(gè)階段,將數(shù)據(jù)安全地歸集是十分具有挑戰(zhàn)性的。為此華為正在研究一種數(shù)據(jù)方艙技術(shù),將數(shù)據(jù)在流轉(zhuǎn)的過程中把相關(guān)憑證、隱私、權(quán)限等信息跟數(shù)據(jù)放在一起進(jìn)行流轉(zhuǎn)。這些數(shù)據(jù)到達(dá)數(shù)據(jù)歸集地后,都在數(shù)據(jù)方艙中安全的執(zhí)行和保護(hù),從而做到數(shù)據(jù)安全。
只有數(shù)據(jù)能夠安全流轉(zhuǎn),AI大模型未來才可以得到長久、持續(xù)的發(fā)展。
總的來說,面向多種大模型場景,華為正在打造數(shù)據(jù)的“加速包”和“保護(hù)艙”,并帶領(lǐng)數(shù)據(jù)存儲(chǔ)行業(yè)建立大模型時(shí)代下的新標(biāo)準(zhǔn)。
結(jié)語:大模型推動(dòng)數(shù)據(jù)資產(chǎn)升值,存好數(shù)據(jù)成“煉?!北貍?/p>
隨著大模型推進(jìn),存好數(shù)據(jù)成“煉?!北貍洌瑪?shù)據(jù)存儲(chǔ)出現(xiàn)了新的趨勢。大模型的訓(xùn)練需要快速地采集和加載數(shù)據(jù),因此也需要更高性能的存儲(chǔ)產(chǎn)品。與此同時(shí),大模型會(huì)加速存儲(chǔ)在各個(gè)環(huán)節(jié)的融合,提升整個(gè)系統(tǒng)的效率。
過往幾年,國內(nèi)建設(shè)了很多的算力中心。而隨著大模型的加速狂飆,我們有望看到更多省份開始建設(shè)大量存力中心,存力產(chǎn)業(yè)將與算力產(chǎn)業(yè)一同實(shí)現(xiàn)新的迭代升級。