您好,歡迎進入美譽度品牌管理官網(wǎng)!

江蘇危機公關(guān)公司

一站式提供商

提供設(shè)計,生產(chǎn),安裝,售后服務(wù)一條龍服務(wù)

400-021-0821
公司資訊
您的位置: 主頁 > 新聞中心 > 公司資訊
智源連甩多個開源王炸!悟道3.0大模型數(shù)彈齊發(fā),大模型評測體系上線
發(fā)布時間:2023-07-31 09:20瀏覽次數(shù):

6月9日報道,當生成式AI和大模型的颶風(fēng)呼嘯而來,全球掀起了一場狂熱的GPT競賽,大量緊迫的前沿議題隨之接踵而至:

語言、視覺、多模態(tài)大模型分別有哪些研究突破口?如何顯著提升大模型的計算速度、效率和擴展性?怎樣確保大模型始終安全可控、符合人類意圖和價值觀?國內(nèi)產(chǎn)學(xué)研界亟待做些什么,才能更好地迎接大模型時代?

這些問題的答案,正在今日開幕的國內(nèi)現(xiàn)象級AI內(nèi)行頂級盛會——2023北京智源大會上——碰撞出專業(yè)深度的火花。

隨著AI大模型爆火,智源大會因規(guī)格之高、嘉賓陣容之強大而廣受矚目:這場面向AI精英人群的專業(yè)大會已經(jīng)連續(xù)舉辦5年,即日起兩天15場專題論壇匯聚了一眾AI行業(yè)翹楚,從多位深度學(xué)習(xí)先驅(qū)、圖靈獎得主與院士,到聲名烜赫的OpenAI聯(lián)合創(chuàng)始人Sam Altman、Midjourney創(chuàng)始人David Holz,以及Google DeepMind、Anthropic、Stability AI、HuggingFace、Cohere等明星AI團隊和Meta、谷歌、微軟等科技巨頭的代表,都將齊聚一堂,探討影響AI未來的核心議題。

智源“悟道”大模型項目連創(chuàng)「中國首個+世界最大」大模型紀錄之后,智源研究院在開幕式上重磅宣布:“悟道3.0”邁向全面開源、嶄新階段。

大會期間,智源研究院發(fā)布首個支持中英雙語知識、開源商用許可的“悟道·天鷹(Aquila)”語言大模型系列,提供“能力-任務(wù)-指標”三維評測框架的“天秤(FlagEval)”大模型評測體系,力求打造大模型時代“新Linux”生態(tài)的FlagOpen大模型開源技術(shù)體系,以及6項“悟道·視界”視覺大模型研究成果。

智源研究院院長黃鐵軍在與美譽度等媒體交流時談道,大模型已成為AI產(chǎn)業(yè)發(fā)展的主導(dǎo)力量,智源研究院希望未來做更多的支撐性工作,為大模型時代的早日形成貢獻一份獨特力量。 

一、悟道·天鷹(Aquila)+天秤(FlagEval),打造大模型能力與評測標準雙標桿

為了推動大模型在產(chǎn)業(yè)落地和技術(shù)創(chuàng)新,智源研究院發(fā)布了“開源商用許可語言大模型系列+開放評測平臺”兩大重磅成果。

先來看一下“悟道·天鷹”Aquila語言大模型系列。

這是首個具備中英雙語知識、支持商用許可協(xié)議、支持國內(nèi)數(shù)據(jù)合規(guī)要求的開源語言大模型。悟道·天鷹(Aquila)系列模型包括 Aquila基礎(chǔ)模型(7B、33B),AquilaChat對話模型(7B、33B)以及 AquilaCode “文本-代碼”生成模型。

開源地址:https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila

現(xiàn)場,智源重點展示了“悟道·天鷹”AquilaChat對話模型的4項技能:對話、寫作、可拓展特殊指令規(guī)范,強大的指令分解能力。

首先是對話能力,AquilaChat非常謹慎地拒絕回答像“如何瞞過安檢帶著炸藥上飛機”這樣存在安全風(fēng)險的問題,同時能就乘坐飛機的常見問題給出簡明清晰的答案。

寫高考作文也不在話下。AquilaChat拿今年高考作文全國甲卷的“時間的仆人”題目練了練手,僅用不到10秒就生成了一篇切題的完整文章。

此外,AquilaChat通過定義可擴展的特殊指令規(guī)范,實現(xiàn)通過AquilaChat對其它模型和工具的調(diào)用,且易于擴展。例如,調(diào)用智源開源的AltDiffusion多語言文圖生成模型,實現(xiàn)了流暢的文圖生成能力:

AquilaChat還擁有強大的指令分解能力,配合智源InstrucFace多步可控文生圖模型,能夠?qū)崿F(xiàn)對人臉圖片的多步可控編輯。

比如要求將照片中的女人皮膚變白、眼睛變藍、動漫化,AquilaChat會將復(fù)雜指令拆解成多個步驟,依次完成。

再比如要求把圖片里女生的頭發(fā)變成淡黃色、皮膚變成古銅色、臉色變得更加紅潤,AquilaChat也能出色地分解并完成任務(wù)。

AquilaCode-7B“文本-代碼”生成模型,基于Aquila-7B強大的基礎(chǔ)模型能力,以小數(shù)據(jù)集、小參數(shù)量,實現(xiàn)高性能,是目前支持中英雙語的、性能最好的開源代碼模型。

AquilaCode-7B分別在英偉達和國產(chǎn)芯片上完成了代碼模型的訓(xùn)練,并通過對多種架構(gòu)的代碼+模型開源,推動芯片創(chuàng)新與多元化發(fā)展。

值得一提的是,悟道·天鷹Aquila語言大模型基座是在中英文高質(zhì)量語料(有近40%的中文語料)基礎(chǔ)上從零開始訓(xùn)練的,通過數(shù)據(jù)質(zhì)量的控制、深層次數(shù)據(jù)清洗處理、多種訓(xùn)練的優(yōu)化方法,實現(xiàn)在更小的數(shù)據(jù)集、更短的訓(xùn)練時間,獲得了比其它開源模型更優(yōu)的性能。

Aquila基礎(chǔ)模型底座(7B、33B)在技術(shù)上繼承了GPT-3、LLaMA等模型的架構(gòu)設(shè)計優(yōu)點,使用智源FlagAI開源代碼框架,替換了一批更高效的底層算子實現(xiàn)、重新設(shè)計實現(xiàn)了中英雙語的tokenizer,升級了BMTrain并行訓(xùn)練方法。

結(jié)果,Aquila在訓(xùn)練過程中,實現(xiàn)了比Megtron-LM+ZeRO-2將近8倍的訓(xùn)練效率;訓(xùn)練效率也比LLaMA提升了24%。

智源研究院副院長兼總工程師林詠華告訴美譽度,一個消費級顯卡就能運行Aquila-7B模型:如果是FP16精度,Aquila-7B模型至少可以在20G顯存上跑起來;如果是INT8精度,則會進一步減少顯存使用。

“我們的發(fā)布只是一個起點。”她談道,智源今天打造了一整套“大模型進化流水線”,基于此,智源會讓大模型在更多數(shù)據(jù)、更多能力的增加之下,源源不斷地成長。

智源研究院首創(chuàng)“可持續(xù)、自動化評測輔助模型訓(xùn)練”的新范式,將大模型訓(xùn)練與評測結(jié)合,利用階段性的自動化評測結(jié)果,指導(dǎo)后續(xù)訓(xùn)練的方向、選擇更優(yōu)路徑,大幅提升模型訓(xùn)練的效果,實現(xiàn)了“大模型進化流水線”,悟道 · 天鷹Aquila語言大模型系列后續(xù)也將持續(xù)迭代、持續(xù)開源。

同時,智源研究院發(fā)布了FlagEval(天秤)大語言模型評測體系及開放平臺。

目前大模型評測存在諸多難點。相比傳統(tǒng)小模型,大模型規(guī)模大、結(jié)構(gòu)更復(fù)雜、具備多種能力,且步入內(nèi)容生成和人類認知領(lǐng)域。傳統(tǒng)評測方法已經(jīng)遠遠無法滿足大模型評測的需求。

因此,是否有能力打造一套“自動化評測+人工主觀評測”的大模型全面評價系統(tǒng),并實現(xiàn)從評測結(jié)果到模型能力分析、再到模型能力提升的自動閉環(huán),已是基礎(chǔ)大模型創(chuàng)新的重要壁壘之一。

智源推出的天秤(FlagEval)大模型評測體系及開放平臺,旨在建立一站式的科學(xué)、公正、開放的基礎(chǔ)模型評測基準、方法及工具集,協(xié)助研究人員全方位評估基礎(chǔ)模型及訓(xùn)練算法的性能,同時探索利用AI方法實現(xiàn)對主觀評測的輔助,大幅提升評測的效率和客觀性。

FlagEval創(chuàng)新地構(gòu)建了“能力-任務(wù)-指標”三維評測框架,細粒度刻畫基礎(chǔ)模型的認知能力邊界,并可視化呈現(xiàn)評測結(jié)果。

目前該評測體系已覆蓋語言、多模態(tài)兩大領(lǐng)域的大模型評測,推出開源多語言文圖大模型評測工具mCLIP-Eval、開源文圖生成評測工具ImageEval,后續(xù)將覆蓋視覺、語音評測場景。

FlagEval開放評測平臺現(xiàn)已開放(http://flageval.baai.ac.cn),打造自動化評測與自適應(yīng)評測機制,并支持英偉達、寒武紀、昆侖芯、昇騰-鵬城云腦等多種芯片評測,以及PyTorch、MindSpore等多種深度學(xué)習(xí)框架。

開源評測工具:http://github.com/FlagOpen/FlagEval

林詠華期待更多業(yè)界同仁參與其中,通過更多的學(xué)科交叉,持續(xù)豐富大模型評測集。

作為“科技部2030”旗艦項目重要課題,天秤FlagEval評測體系正與北京大學(xué)、北京航空航天大學(xué)、北京師范大學(xué)、北京郵電大學(xué)、閩江學(xué)院、南開大學(xué)、中國電子技術(shù)標準化研究院、中國科學(xué)院自動化研究所等合作單位共建(按首字母排序),定期發(fā)布權(quán)威評測榜單。

FlagEval是FlagOpen飛智大模型技術(shù)開源體系的重要組成之一。

其中,F(xiàn)lagAI新增集成了悟道·天鷹(Aquila)語言大模型系列、18種語言多模態(tài)文生圖生成模型AltCLIP-m18、AltDiffusion-m18等智源開源模型,支持并行加速技術(shù),并集成了高效推理技術(shù)LoRA和BMinf。

FlagPerf建立了評測Case的各項標準、支持容器內(nèi)評測模式;新增國產(chǎn)芯片的評測系列,包括昆侖芯、天數(shù)智芯等;評測系列從語言大模型擴展到多種主流視覺模型。

FlagEval包含多種開源多模態(tài)模型評測工具和FlagEval(天秤)大模型評測平臺。FlagData包含數(shù)據(jù)分析工具、數(shù)據(jù)清洗工具、微調(diào)數(shù)據(jù)標注工具等。

FlagOpen開放平臺:https://flagopen.baai.ac.cn

二、“悟道·視界”:6大視覺智能成果,點亮通用視覺曙光

除了發(fā)布開源語言大模型及評測體系外,智源研究院還一連發(fā)布了“悟道·視界”視覺大模型系列的6項先進技術(shù)成果。

據(jù)黃鐵軍分享,從技術(shù)路線而言,通用視覺模型與語言模型的方法論類似,但視覺涌現(xiàn)與語言涌現(xiàn)的形式有所差別。傳統(tǒng)視覺模型屬于判別式模型,通用視覺模型則更看重對未知事物的通用辨別能力和生成預(yù)測能力。

“悟道·視界”由悟道3.0的視覺大模型團隊打造,是一套具備通用場景感知和復(fù)雜任務(wù)處理能力的智能視覺和多模態(tài)大模型系列。6項國際領(lǐng)先技術(shù)中,前5個是基礎(chǔ)模型,最后1個是應(yīng)用技術(shù)。

1、Emu:在多模態(tài)序列中補全一切的多模態(tài)大模型

Emu是一個多模態(tài)-to-模態(tài)的大模型,輸入輸出均可為多模態(tài),可以接受和處理不同模態(tài)的數(shù)據(jù),并輸出各類的多模態(tài)數(shù)據(jù)。

基于多模態(tài)上下文學(xué)習(xí)技術(shù)路徑,Emu能從圖文、交錯圖文、交錯視頻文本等海量多模態(tài)序列中學(xué)習(xí)。訓(xùn)練完成后,Emu能在多模態(tài)序列的上下文中補全一切,也就是可通過多模態(tài)序列做prompting(提示),對圖像、文本和視頻等多種模態(tài)的數(shù)據(jù)進行感知、推理和生成。

相比其他多模態(tài)模型,Emu能進行精準圖像認知,完成少樣本圖文理解,根據(jù)圖片或者視頻進行問答和多輪對話。它也具備文圖生成、圖圖生成、多模態(tài)上下文生成等生成能力。

2、EVA:最強十億級視覺基礎(chǔ)模型

如何讓通用視覺模型兼顧更高效和更簡單?抓住語義學(xué)習(xí)和幾何結(jié)構(gòu)學(xué)習(xí)這兩個關(guān)鍵點,基本可以解決絕大部分的視覺任務(wù)。

智源的十億級視覺基礎(chǔ)模型EVA便將最強語義學(xué)習(xí)(CLIP)與最強幾何結(jié)構(gòu)學(xué)習(xí)(MIM)結(jié)合,再將標準的ViT模型擴大規(guī)模至10億參數(shù)進行訓(xùn)練,一舉在ImageNet分類、COCO檢測分割、Kinetics視頻分類等廣泛的視覺感知任務(wù)中取得當時最強性能。


3、EVA-CLIP:性能最強開源CLIP模型

EVA-CLIP基于通用視覺模型EVA開發(fā),相關(guān)工作入選2023 CVPR Highlight論文。 EVA極大地穩(wěn)定了巨型CLIP的訓(xùn)練和優(yōu)化過程,僅需使用FP16混合精度,就能幫助訓(xùn)練得到當前最強且最大的開源CLIP模型。

此前多模態(tài)預(yù)訓(xùn)練模型CLIP作為零樣本學(xué)習(xí)基礎(chǔ)模型,廣受業(yè)界認可。智源視覺團隊在今年年初發(fā)布的EVA-CLIP 5B版本,創(chuàng)造了零樣本學(xué)習(xí)性能新高度,超越了此前最強的Open CLIP模型,在ImageNet1K零樣本top1達到最高的82.0%準確率。此外,智源去年發(fā)布的EVA-CLIP 1B版本,今年才被Meta發(fā)布的DINOv2模型追平ImageNet kNN準確率指標。

論文地址:https://arxiv.org/abs/2303.15389
代碼地址:https://github.com/baaivision/EVA/tree/master/EVA-CLIP

4、Painter:首創(chuàng)“上下文圖像學(xué)習(xí)”技術(shù)路徑的通用視覺模型

研究者相信,表達圖像信息最好的方式就是圖像,圖像理解圖像、圖像解釋圖像、圖像輸出圖像,可以避免圖像-語言翻譯過程中產(chǎn)生的信息誤差和成本消耗。

智源將NLP中的上下文學(xué)習(xí)概念引入視覺模型,打造了將“以視覺為中心”作為建模核心思想的通用視覺模型Painter。Painter把圖像作為輸入和輸出,從而獲得了上下文視覺信息,完成不同的視覺任務(wù)。該模型目前可完成7種主流視覺任務(wù),已在深度估計、語義分割等核心視覺任務(wù)中,相比同類模型有11%~25%的性能提升。


5、視界通用分割模型:一通百通,分割一切

從影像中分割出各種各樣的對象,是視覺智能的關(guān)鍵里程碑。今年年初,智源研發(fā)的首個利用視覺提示(prompt)完成任意分割任務(wù)的“視界通用分割模型”,與Meta的SAM模型同時發(fā)布,點亮了通用視覺GPT曙光。

“視界通用分割模型”具有強大的視覺上下文推理能力:給出一個或幾個示例圖像和意圖掩碼(視覺提示prompt),模型就能理解用戶意圖,“有樣學(xué)樣”地完成類似分割任務(wù)。用戶在畫面上標注識別一類物體,即可批量化識別分割同類物體。此外,該模型還具備強大的通用能力、靈活推理能力和自動視頻分割與追蹤能力。


6、vid2vid-zero:首個零樣本視頻編輯方法

現(xiàn)有文本驅(qū)動的AIGC視頻編輯方法嚴重依賴于大量“文本-視頻”數(shù)據(jù)上調(diào)整預(yù)訓(xùn)練好的視頻擴散模型,需要龐大的計算資源,帶來了高昂的人工數(shù)據(jù)標注成本和計算成本。

智源研究院提出的零樣本視頻編輯方法vid2vid-zero,首次在無需額外視頻訓(xùn)練的情況下,利用注意力機制動態(tài)運算的特點,結(jié)合現(xiàn)有圖像擴散模型,實現(xiàn)可指定屬性的視頻編輯。只需上傳視頻,輸入一串編輯文本提示,就可以坐等AI創(chuàng)作出創(chuàng)意視頻。


“悟道·視界”聚焦視覺和多模態(tài)上下文學(xué)習(xí),創(chuàng)新了視覺和多模態(tài)領(lǐng)域的Prompt工程,取得了零樣本學(xué)習(xí)性能的新突破。未來其應(yīng)用可帶給自動駕駛、智能機器人等領(lǐng)域更多可能性。還有多語言AIGC文圖生成,通用智能體學(xué)習(xí)等多模態(tài)領(lǐng)域,也將公布相關(guān)代碼。

三、通向AGI的三大路線:大模型、生命智能、AI4Science

據(jù)黃鐵軍分享,在以智力服務(wù)為特征的時代,重要的不是模型本身比誰大比誰強,而是訓(xùn)練大模型的算法和技術(shù)本身是否夠先進、訓(xùn)練成本是否能夠有效降低、模型智能的能力是否可信可控。智源正將許多產(chǎn)學(xué)研單位的智慧匯聚,以開放方式進行協(xié)作,為大模型技術(shù)體系的發(fā)展添磚加瓦。

他告訴美譽度,作為一家非營利機構(gòu),智源研究院立足科研,會基于自研通用視覺模型和語言模型做一些Demo演示。目標是以開源開放的方式提供技術(shù),促進技術(shù)發(fā)展與迭代。

除了大模型技術(shù)路線外,智源也在堅持研究生命智能和AI4Science。

黃鐵軍說,這三條路線相互作用和影響,對于未來的通用人工智能(AGI)都是必要的。今天,大模型方向展現(xiàn)出很強的能力,主要得益于海量高質(zhì)量數(shù)據(jù),用擁有巨大參數(shù)的神經(jīng)網(wǎng)絡(luò)表達復(fù)雜數(shù)據(jù)背后規(guī)律,是一種比較直接的方式。

大模型方向有其優(yōu)勢,但并沒有解決掉通用人工智能的所有問題。比如大模型智能的發(fā)生機理與人類生物大腦智能背后的信號機理差距很大,如果想做到類似于人腦的智能涌現(xiàn),還要探究類腦方向與具身智能。

他談道,既然大模型已經(jīng)證明涌現(xiàn)能力行之有效,這方面的投入會加大很多,速度也會加快,很大概率大模型方向上接近通用人工智能速度會更快。隨著模型規(guī)模擴大,對算力、數(shù)據(jù)的要求越來越高,必然會帶來成本上和實現(xiàn)代價上的一些需求快速增加。這是次生問題。

“為實現(xiàn)一個更偉大目標,付出資源成本更高,也是自然的事情。我認為大模型規(guī)模上現(xiàn)在遠遠沒有看到天花板?!秉S鐵軍說。

結(jié)語:群英會聚大模型研討高地,百場精彩討論干貨滿載

算上今天,智源大會已經(jīng)連續(xù)舉辦了五屆。這五年來,憑借匯聚人工智能領(lǐng)域最關(guān)鍵的人物、最重要的機構(gòu)、最核心的話題與最專業(yè)的觀眾,智源大會的口碑持續(xù)發(fā)酵,不僅是業(yè)界全面關(guān)注度最高的人工智能盛會之一,也早已成為北京加快建設(shè)人工智能創(chuàng)新策源地的一張名片。

智源大會的主辦方智源研究院,是中國最早進行大模型研究的科研機構(gòu),從率先開啟大模型立項探索,率先組建大模型研究團隊,率先預(yù)見“AI大模型時代到來”,率先發(fā)布連創(chuàng)“中國首個+世界最大”記錄的“悟道”大模型項目,到今天,智源研究院依然走著最前沿,率先倡導(dǎo)大模型開源開放,并帶頭建設(shè)大模型測評旗艦項目,為大模型行業(yè)發(fā)展與生態(tài)擴張注入源源不斷的動能。

大模型引爆人工智能概念,離不開算法的進步。本屆智源大會邀請了過去一年領(lǐng)域突破的重要工作完成者,包括GPT-4/ChatGPT、PaLM-E、OPT、LLaMA、Codex、Whisper、Sparrow、NLLB、T5、Flan-T5、LAION-5B、RoBERTa等重要工作作者出席,親身講解研究成果。

滿滿兩天將覆蓋百場精彩討論,包括明天,在星光熠熠的AI安全與對齊論壇期間,智源研究院理事長張宏江與OpenAI聯(lián)合創(chuàng)始人兼CEO Sam Altman,加州伯克利分校教授與圖靈獎得主、中國科學(xué)院院士姚期智,將分別展開對談交鋒。圖靈獎得主、“深度學(xué)習(xí)之父”Geoffrey Hinton也將發(fā)表重磅主題演講,非常令人期待。

400-021-0821