您好,歡迎進入美譽度品牌管理官網(wǎng)!

江蘇危機公關(guān)公司

一站式提供商

提供設(shè)計,生產(chǎn),安裝,售后服務(wù)一條龍服務(wù)

400-021-0821
公司資訊
您的位置: 主頁 > 新聞中心 > 公司資訊
國內(nèi)首創(chuàng)!高交會上,國產(chǎn)14nm Chiplet大模型推理芯片問世
發(fā)布時間:2023-12-22 11:46瀏覽次數(shù):

國產(chǎn)大模型芯片,又有了好消息。

作為“中國科技第一展”,深圳高交會正在如火如荼的舉辦,4295家企業(yè)展出了琳瑯滿目的高精尖科技成果,歷來在高交會發(fā)布重磅產(chǎn)品的AI企業(yè)云天勵飛,一如既往上了盤“硬菜”——

國產(chǎn)Chiplet大模型推理芯片DeepEdge10。

▲云天勵飛董事長兼CEO陳寧博士發(fā)布Edge10芯片

這是云天勵飛迄今算力最強的旗艦AI芯片SoC,內(nèi)置自研新一代神經(jīng)網(wǎng)絡(luò)處理器NNP400T,通過D2D高速互聯(lián)Chiplet技術(shù)、C2CMesh互聯(lián)架構(gòu)實現(xiàn)算力擴展,能夠支持千億級參數(shù)大模型,落地于邊緣設(shè)備和邊緣服務(wù)器。

而“國產(chǎn)”,當(dāng)屬這顆芯片最吸睛的標(biāo)簽。

制程工藝是國產(chǎn),基板是國產(chǎn),D2D Chiplet先進封裝架構(gòu)是國產(chǎn),RISC-V CPU IP、GPU IP是國產(chǎn),云天勵飛自研的NNP更是國產(chǎn)。

波譎云詭的國際環(huán)境中,中國企業(yè)采用海外先進芯片技術(shù)的可能性不斷受限。今天,在國產(chǎn)供應(yīng)鏈的襄助下,云天勵飛證明了通過多重創(chuàng)新技術(shù)的組合拳,自主可控的AI芯片能夠滿足高算力、大內(nèi)存的大模型推理需求。

▲三款不同規(guī)格的Edge10系列芯片(美譽度拍攝)

云天勵飛是怎么做到的?為何在自研芯片路上堅持至今?未來又有怎樣的戰(zhàn)略規(guī)劃?在深圳高交會期間,美譽度與云天勵飛副總裁、芯片產(chǎn)品線總經(jīng)理李愛軍進行了深入交流。

一、大模型創(chuàng)新爆發(fā)時代,需要什么樣的邊緣推理芯片?

大模型正在顛覆生產(chǎn)力,海量數(shù)據(jù)和參數(shù)的運算需求、日趨豐富的應(yīng)用場景帶來了全新的計算泛式和計算要求,給AI芯片提出新的挑戰(zhàn)。

一方面,多模態(tài)大模型成為大勢所趨,帶動推理算力需求激增;另一方面,OpenAI、微軟等接連開放自定義GPT能力,掀起新一股生成式AI應(yīng)用模型創(chuàng)新熱潮,更加分散泛化的多元場景,需要大量邊緣推理算力的支撐。

據(jù)云天勵飛副總裁、芯片產(chǎn)品線總經(jīng)理李愛軍回憶,在推進芯片落地的過程中,云天勵飛深刻體會到邊緣計算場景存在算力碎片化、算法長尾化、產(chǎn)品非標(biāo)化、規(guī)模碎片化的痛點。

追求單一場景極致PPA(性能、功耗、面積)的傳統(tǒng)芯片方式,已經(jīng)難以適應(yīng)邊緣計算場景下AI落地的需求。大模型的出現(xiàn),為行業(yè)提供了算法層面的解決之道,因而日漸成為大勢所趨。

那么讓大模型在邊緣計算場景實際落地,需要怎樣的AI推理芯片?

一些方向已經(jīng)是業(yè)界共識:既要有更高算力,又要增加更多的內(nèi)存容量、更大的內(nèi)存帶寬,這樣才能存得下、搬得快足夠多的數(shù)據(jù)。同時,邊緣計算對低功耗、低成本的要求更為苛刻。

除了支持大模型等AI計算任務(wù),AI邊緣推理芯片還承擔(dān)了“落地應(yīng)用最后一公里”的職責(zé),需要具備較強的通用算力。

針對這些需求,云天勵飛自主研發(fā)并推出了面向邊緣計算全場景、基于國產(chǎn)工藝的大模型推理芯片平臺——DeepEdge10。

二、全面兼容大模型新型計算范式,主控級SoC支持通用算法

李愛軍告訴美譽度,DeepEdge10芯片的研發(fā)始于2020年。得益于其算法部門在前沿AI算法方面的敏銳認(rèn)知,云天勵飛芯片團隊預(yù)見到未來視覺算法會基于Transformer和注意力機制,因此對大模型計算方式進行了深度解構(gòu),著重考慮到如何通過靈活的架構(gòu)設(shè)計來實現(xiàn)高效支持。

Edge10有4大技術(shù)加持:1)主控級SoC;2)新一代神經(jīng)網(wǎng)絡(luò)處理器,高效支持Transformer;3)D2D Chiplet架構(gòu),實現(xiàn)算力靈活擴展;4)C2CMesh互聯(lián)擴展,支持千億級參數(shù)大模型。

其主控級SoC集成了CPU、GPU、NPU、多媒體、顯示、外設(shè)、安全等功能,支持傳統(tǒng)的CNN、DNN、SLAM等算法,可滿足絕大部分場景的控制需要。CPU、GPU均為國產(chǎn)IP。RISC-V CPU采用2+8核,主頻最高達1.8Ghz;多媒體能力最大支持8K30視頻編解碼、2億像素JPEG編解碼;具備國際主流的硬件級安全性。

與支持大模型運行最為相關(guān)的,當(dāng)屬其自研的新一代神經(jīng)網(wǎng)絡(luò)處理器NNP400T。

NNP400T采用三維并行的矩陣計算架構(gòu),矩陣計算與矢量計算聯(lián)合優(yōu)化,大幅提升Softmax、Layernorm等算子的執(zhí)行性能。

結(jié)合國產(chǎn)工藝的特點,NNP400T通過稀疏化、參數(shù)/數(shù)據(jù)壓縮、低比特量化等措施,有效實現(xiàn)大模型帶寬的極致優(yōu)化。它還支持混合數(shù)據(jù)精度計算,包括INT8、INT16、FP16。

通過這些設(shè)計,芯片在支撐大模型推理時的能效比,可以被控制在合理的水平。

而在D2D、C2C Mesh高速互聯(lián)架構(gòu)的加持下,NPU算力能夠無極擴展,同時統(tǒng)一內(nèi)存最高可達512GB、統(tǒng)一內(nèi)存帶寬最高可達1920GB/s,能夠滿足大到千億級參數(shù)大模型在邊緣端部署的需求。

三、國產(chǎn)14nm Chiplet大模型推理芯片:國內(nèi)首創(chuàng),四大創(chuàng)新亮點

總體來看,面向邊緣場景的大模型部署需求,DeepEdge10芯片平臺具有4大創(chuàng)新亮點:

1、支持大模型新型計算范式

新一代神經(jīng)網(wǎng)絡(luò)處理器兼容Transformer,支持低精度混合計算、分布式并行計算。云天勵飛現(xiàn)已向國內(nèi)頭部的AIoT芯片設(shè)計廠商、智慧汽車芯片設(shè)計廠商、服務(wù)機器人廠商、國家重點實驗室等提供神經(jīng)網(wǎng)絡(luò)處理器的IP授權(quán)。

2、D2D Chiplet+C2C Mesh互聯(lián)架構(gòu)

據(jù)李愛軍分享,在啟動Edge10研發(fā)時,云天勵飛芯片團隊就在思考,如何在國產(chǎn)制程工藝與國際先進水平存在代差的情況下,通過其他技術(shù)手段追齊性能?像搭積木一樣將不同制程、不同IP模塊組合到一起的Chiplet先進封裝思路,成為一條有希望的路徑。

在無法采用國際先進制程的客觀限制下,云天勵飛與合作伙伴一起從三年前展開聯(lián)合技術(shù)攻關(guān),在D2D Chiplet技術(shù)上定制了一系列的IP,雖然成本、功耗會高一些,但實現(xiàn)了基于國產(chǎn)14nm工藝在單臺設(shè)備跑大模型的能力。

▲云天勵飛副總裁、芯片產(chǎn)品線總經(jīng)理李愛軍講解D2D Chiplet架構(gòu)

D2D Chiplet通過在多Die間架起“高速公路”,在不犧牲時延的情況下能做到算力靈活擴展,可實現(xiàn)一次設(shè)計流片、多次封裝,生產(chǎn)不同計算規(guī)格的芯片。C2C Mesh互聯(lián)技術(shù)可實現(xiàn)各個計算節(jié)點之間的最短傳輸延遲,保證大模型推理達到最短時延,支持不同規(guī)格的大模型靈活部署。

“在片內(nèi)高速互聯(lián)速度上,我們已經(jīng)做到了14nm上的最好水平了?!崩類圮娬f,“我們將立足國產(chǎn)工藝打造自主可控的AI芯片,這條路很艱難,我們會堅持不懈的走下去?!?/p>

3、支持大模型部署的異構(gòu)多核軟件棧

為了適應(yīng)D2D/C2C架構(gòu),云天勵飛構(gòu)建了一套支持大模型部署的異構(gòu)多核軟件棧,包括設(shè)計了一套高效異構(gòu)多核Syslink通信庫,實現(xiàn)高效的D2D/C2C數(shù)據(jù)搬運管理、Mesh互聯(lián)下的統(tǒng)一內(nèi)存調(diào)度管理和模型分布式并行管理,因此能實現(xiàn)集群的大模型部署。

4、符合大模型演進趨勢的統(tǒng)一工具鏈

云天勵飛打造了一套符合大模型演進趨勢的一站式統(tǒng)一工具鏈,通過分布式并行策略、基于硬件的流水線排布、先進的量化策略、多機并行的編譯機制,來支持千億級大模型快速部署。

DeepEdge10已支持超過100個主流開源模型,數(shù)量還在持續(xù)更新,同時支持云天勵飛客戶模型的定制部署。

四、單芯片算力最高48TOPS,加速卡能跑70億參數(shù)大模型

通過上述架構(gòu)創(chuàng)新,云天勵飛Edge10系列芯片有三種規(guī)格:Edge10C(8核CPU)、Edge10標(biāo)準(zhǔn)版(10核CPU)、Edge10Max(40核CPU),峰值算力分別為8TOPS、12TOPS、48TOPS,總體性能比上一代芯片高出20倍;統(tǒng)一內(nèi)存最高32GB,內(nèi)存帶寬最高120GB/s。

其中,Edge10C和Edge10標(biāo)準(zhǔn)版適用于邊緣計算領(lǐng)域;Edge10Max適用于邊緣CV大模型,單芯片能跑SAM視覺大模型。

相應(yīng)的出貨形態(tài)包括芯片、板卡、盒子、加速卡、推理服務(wù)器等,可廣泛應(yīng)用于AIoT邊緣視頻、移動機器人等場景。

Edge10適用于邊緣設(shè)備和邊緣服務(wù)器,在Edge Device上運行70億參數(shù)大語言模型,生成速度可達27Tokens/s;能夠兼容運行130億參數(shù)大語言模型。

第一代Edge Server基于DeepEye1000小算力芯片?;贓dge10系列芯片的IPU X2000、IPU X5000、IPU X6000加速卡,算力從24TOPS到256TOPS。

經(jīng)C2C Mesh擴展,AI算力能達到1024TOPS,在Edge Server上運行700億參數(shù)大語言模型,可實現(xiàn)42Token/s的生成速度;能夠兼容運行千億級參數(shù)大語言模型、百億級參數(shù)視覺大模型,未來將兼容多模態(tài)大模型。

五、落地邊緣計算三大應(yīng)用場景,助攻AI電腦跑AIGC應(yīng)用

DeepEdge10芯片布局邊緣計算的三大芯片平臺解決方案:感知計算、視頻高密、大模型推理。

感知計算場景下,基于Edge10和Edge10Max芯片,云天勵飛打造了能支持多傳感器接入的主板方案,可以滿足機器人自主導(dǎo)航和運動、無人機自主避障與導(dǎo)航、汽車智能安全駕駛控制、家居系統(tǒng)智能控制等應(yīng)用場景的感知要求。

視頻高密場景下,芯片、加速卡結(jié)合云天勵飛過去幾年在公共安全領(lǐng)域及行業(yè)領(lǐng)域積累的專業(yè)算法和長尾算法,共同形成了面向嵌入式邊緣計算端設(shè)備的單芯片主控方案和加速卡方案,這些方案可以滿足智能化園區(qū)管理、消防應(yīng)急管理、智慧物業(yè)、智慧城市治理等場景的視頻高密需要。

像IPU X6000單卡可支持320路視頻處理,算力有256TOPS。一臺服務(wù)器可以插8張卡,相當(dāng)于實現(xiàn)超過2500路的視頻高密方案。

大模型推理方面,在Edge Device上,Edge10可作為當(dāng)前信創(chuàng)PC的算力協(xié)處理器方案,把大模型的能力應(yīng)用到傳統(tǒng)信創(chuàng)PC上,讓信創(chuàng)PC能跑AIGC辦公應(yīng)用,包括文案生成、代碼生成、智能決策、增強設(shè)計等。

在Edge Server上,基于IPU X6000的算力加速卡方案,可實現(xiàn)1~8卡靈活擴展的服務(wù)器部署,滿足行業(yè)大模型和場景大模型集中化的推進。

據(jù)李愛軍透露,云天勵飛會優(yōu)先選擇在一些邊緣計算場景的頭部行業(yè)玩家進行深度合作,提供Edge10系列芯片和產(chǎn)品,再逐步對外開放。

六、披露八年自研芯片路線圖,以三年為周期進行迭代

云天勵飛自2014年成立至今,一直堅持自主研發(fā)芯片,沉淀“算法芯片化”的核心能力,其核心芯片團隊設(shè)計經(jīng)驗平均超過14年。

“算法芯片化”并不是簡單的“算法+芯片”,而是云天勵飛基于對場景的理解,以及對算法關(guān)鍵計算任務(wù)在應(yīng)用場景中的量化分析,將芯片設(shè)計者的理念、思想與算法相融合的AI芯片設(shè)計流程,能夠讓AI芯片在實際應(yīng)用中發(fā)揮更優(yōu)的效果。

在“算法芯片化”核心能力的支持下,云天勵飛已完成3代指令集架構(gòu)、4代神經(jīng)網(wǎng)絡(luò)處理器架構(gòu)的研發(fā),且已陸續(xù)商用。

據(jù)云天勵飛董事長兼CEO陳寧博士分享,從第一代芯片起,云天勵飛的自研芯片就一直定位在邊緣計算,與其系統(tǒng)產(chǎn)品相輔相成,落地到智慧城市、智能交通、智能制造、智慧教育、智能配送、邊緣計算模型等場景中。

其第一代芯片DeepEye1000在2020年初實現(xiàn)商用,過去四年多應(yīng)用在人臉門禁和AI相機、工業(yè)AI相機和安全PC、商業(yè)機器人等邊緣計算設(shè)備中。最新推出的DeepEdge10邊緣推理芯片,采用云天勵飛的第二代異構(gòu)多核架構(gòu)、第一代Chiplet架構(gòu),相較上一代性能整體提升。

“我們基本上是以三年為一個周期,相信2025年我們將會推出DeepEdge20,推動我們的性能以20倍以上的速度進行提升?!标悓幷f。

按其“劇透”,下一代DeepEdge20芯片將采用第三代異構(gòu)多核架構(gòu)、第二代Chiplet架構(gòu),內(nèi)置多核RISC-V、第四代自研NPU。

七、擁有近30家算法芯片化合作伙伴,已開放超過100種算法

一路走來,云天勵飛神經(jīng)網(wǎng)絡(luò)處理器的核心技術(shù)和芯片的能力逐步獲得行業(yè)內(nèi)合作伙伴的認(rèn)可。

其自研芯片曾先后獲得工信部、發(fā)改委、科技部三大部委人工智能專項,并獲得吳文俊人工智能專項獎芯片項目一等獎,已被國內(nèi)頂尖芯片設(shè)計公司采用,芯片進入了大規(guī)模應(yīng)用中。

李愛軍認(rèn)為,國際AI芯片巨頭最堅不可摧的壁壘是生態(tài),走兼容路線只是短期內(nèi)的權(quán)宜之計,從長遠來看,國內(nèi)芯片企業(yè)必須實打?qū)嵉爻掷m(xù)投入軟件研發(fā)和生態(tài)構(gòu)筑。

云天勵飛現(xiàn)有近30家算法芯片化合作伙伴,并將合作伙伴需求植入下一代芯片中;還打造了開放的算法應(yīng)用生態(tài),所有使用云天芯片產(chǎn)品的合作伙伴,均可在線下載更新其超過100種算法。

在2020年的高交會上,云天勵飛首次公布自進化城市智能體戰(zhàn)略。

而驅(qū)動自進化城市智能體發(fā)展的核心邏輯,是打造“應(yīng)用生產(chǎn)數(shù)據(jù)、數(shù)據(jù)訓(xùn)練算法、算法定義芯片、芯片規(guī)模化賦能應(yīng)用”的數(shù)據(jù)飛輪。

對于云天勵飛自身來說,芯片是決定AI應(yīng)用廣度與深度的關(guān)鍵載體,也是自進化城市智能體建設(shè)的重要算力支撐。今天發(fā)布的大模型推理芯片,是其自進化城市智能體底層核心算力平臺補齊大模型能力的重要成果展示。

陳寧談道,未來,云天勵飛將繼續(xù)加大自主研發(fā)力度,立足自主可控,以自研“芯”,為自進化城市智能體發(fā)展提供強大引擎。

結(jié)語:大模型正向邊緣端滲透,AI推理芯片研發(fā)需結(jié)合本土落地需求

生成式AI和大模型的應(yīng)用落地正逐步從云端向邊緣和終端進行滲透,最新一代的智能手機、個人電腦(PC)等邊緣端側(cè)設(shè)備已經(jīng)具備在本地部署運行百億級參數(shù)大模型的能力。

在陳寧看來,訓(xùn)練、生產(chǎn)大模型不是目的,千行百業(yè)的落地和應(yīng)用才是最終目的,所謂邊緣,不管是機器人、無人駕駛汽車、新型智能傳感,還是未來的智慧硬件和腦機接口芯片,需要的都是大模型推理芯片。

今天,大模型推理芯片還是百家爭鳴的景象,尤其在中國,我們要考慮如何基于國產(chǎn)工藝進行技術(shù)攻關(guān)和生態(tài)建設(shè),打造出契合本土落地需求的AI芯片。

展望未來,陳寧預(yù)言,未來三年,可能會有80%以上的企業(yè)將運行在大模型之上;未來五年,機器人和數(shù)字人的數(shù)量將超過人類的數(shù)量;未來七年,也就是到2030年,大模型的智慧程度將超過人腦,GPT10.0的版本將會具備1萬億的參數(shù)體量,相當(dāng)于是人腦末梢神經(jīng)連接的數(shù)量。

“我們正在踏入第四次工業(yè)革命的開端,未來已來?!彼餐嘎读嗽铺靹铒w將會在今年年底發(fā)布大模型,說敬請期待。

400-021-0821