美譽(yù)度12月13日?qǐng)?bào)道,昨日晚間,微軟又亮出了小模型大招!
微軟發(fā)布了27億參數(shù)規(guī)模的小語(yǔ)言模型Phi-2,經(jīng)研究人員測(cè)試,Phi-2在參數(shù)規(guī)模小于130億的模型中展示了最先進(jìn)性能。
從性能表現(xiàn)看,Phi-2在Big Bench Hard(BBH)、常識(shí)推理、語(yǔ)言理解、數(shù)學(xué)和編碼基準(zhǔn)測(cè)試中,其平均性能得分已經(jīng)超過(guò)70億、130億參數(shù)規(guī)模的Mistral和Llama 2,在部分基準(zhǔn)測(cè)試中超過(guò)谷歌的Gemini Nano 2。
Phi-2還有一大優(yōu)勢(shì)是,因?yàn)閰?shù)規(guī)模足夠小,其可以在筆記本電腦、手機(jī)等移動(dòng)設(shè)備上運(yùn)行。
過(guò)去幾個(gè)月間,微軟研究院的機(jī)器學(xué)習(xí)基礎(chǔ)團(tuán)隊(duì)陸續(xù)發(fā)布了小型語(yǔ)言模型(SLM)Phi系列。
其中,第一個(gè)模型為13億參數(shù)規(guī)模的Phi-1,官方博客稱,Phi-1在SLM中的Python編碼方面表現(xiàn)最好,在HumanEval和MBPP基準(zhǔn)測(cè)試上尤甚。第二個(gè)模型為13億參數(shù)規(guī)模的Phi-1.5,這個(gè)模型的重點(diǎn)為常識(shí)推理和語(yǔ)言理解能力。
現(xiàn)在微軟發(fā)布的Phi-2能為研究人員探索機(jī)器可解釋性、安全性改進(jìn)或?qū)Ω鞣N任務(wù)的微調(diào)實(shí)驗(yàn)上提供幫助,目前,Phi-2已經(jīng)從Azure AI Studio模型目錄中開(kāi)放給研究人員。
一、96塊A100 GPU訓(xùn)練14天,參數(shù)規(guī)模僅27億
一些大模型的參數(shù)規(guī)模達(dá)到數(shù)千億的量級(jí),使得其涌現(xiàn)出眾多新興能力,那么,是否可以通過(guò)改變訓(xùn)練策略等方式讓更小的參數(shù)實(shí)現(xiàn)這些能力?微軟的小型語(yǔ)言模型(SLM)系列或許是這一問(wèn)題的答案。
Phi-2是一個(gè)基于Transformer架構(gòu)的模型,具有下一個(gè)單詞預(yù)測(cè)目標(biāo),在用于NLP和編碼的合成數(shù)據(jù)集和Web數(shù)據(jù)集的混合上多次傳遞的1.4T tokens上進(jìn)行訓(xùn)練。
Phi-2在96個(gè)A100 GPU上訓(xùn)練了14天,作為一個(gè)基礎(chǔ)模型,其沒(méi)有通過(guò)人類反饋強(qiáng)化學(xué)習(xí)(RLHF)進(jìn)行對(duì)齊,也沒(méi)有進(jìn)行指令微調(diào)。
盡管如此,與經(jīng)過(guò)調(diào)整的現(xiàn)有開(kāi)源模型Llama 2-7B相比,研究人員觀察到在避免生成有攻擊性、有害和內(nèi)容有偏差方面Phi-2的表現(xiàn)也不差。
研究人員根據(jù)ToxiGen的13個(gè)人口統(tǒng)計(jì)數(shù)據(jù)計(jì)算的安全評(píng)分,他們選擇6541個(gè)句子的子集,并根據(jù)困惑度和句子“毒性”進(jìn)行0到1之間的評(píng)分。分?jǐn)?shù)高就說(shuō)明,模型產(chǎn)生有攻擊性、有害句子的可能性較小。
▲Llama 2與Phi-2在生成有攻擊性、有害和內(nèi)容有偏差方面性能比較(圖源:微軟官方博客)
微軟使用Phi-2打破了傳統(tǒng)語(yǔ)言模型縮放定律,其中有兩個(gè)關(guān)鍵環(huán)節(jié):
第一是訓(xùn)練數(shù)據(jù)的質(zhì)量對(duì)模型的性能至關(guān)重要。微軟的模型訓(xùn)練數(shù)據(jù)包含專門創(chuàng)建的合成數(shù)據(jù)集,用于教授模型常識(shí)推理,還包括科學(xué)、心理等領(lǐng)域的常識(shí)。
研究人員還挑選了一些網(wǎng)絡(luò)數(shù)據(jù)進(jìn)一步擴(kuò)充訓(xùn)練語(yǔ)料庫(kù),并基于內(nèi)容的價(jià)值和質(zhì)量進(jìn)行了數(shù)據(jù)過(guò)濾。
此外,從13億參數(shù)規(guī)模的Phi-1.5開(kāi)始,微軟的研究人員實(shí)現(xiàn)了規(guī)?;闹R(shí)轉(zhuǎn)移,將Phi-1.5的知識(shí)嵌入到27億參數(shù)的Phi-2中。這種方法不僅加速了訓(xùn)練收斂,而且提高了Phi-2的基準(zhǔn)分?jǐn)?shù)。
▲Phi-2和Phi-1.5比較(圖源:微軟官方博客)
二、基準(zhǔn)測(cè)試擊敗Llama 2、Mistral、Gemini Nano 2
微軟總結(jié)了Phi-2在學(xué)術(shù)基準(zhǔn)上與主流語(yǔ)言模型的性能表現(xiàn)對(duì)比。
其基準(zhǔn)測(cè)試涵蓋Big Bench Hard(BBH數(shù)據(jù)集)以及PIQA、WinoGrande、ARC easy、Challenge、SIQA的常識(shí)推理、HellaSwag、OpenBookQA、MMLU、SQuADv2的語(yǔ)言理解數(shù)據(jù)集,GSM8k數(shù)學(xué)數(shù)據(jù)集和HumanEval、MBPP的編碼數(shù)據(jù)集等。
27億參數(shù)規(guī)模的Phi-2,在BBH、常識(shí)推理、語(yǔ)言理解、數(shù)學(xué)、編碼各項(xiàng)基準(zhǔn)測(cè)評(píng)上都超過(guò)了70億、130億參數(shù)規(guī)模的Mistral和Llama 2。
相比于參數(shù)規(guī)模差距在25倍的700億參數(shù)Llama 2,Phi-2在編碼、數(shù)學(xué)等多步推理任務(wù)上表現(xiàn)更好。
▲Llama 2、Mistral、Phi-2性能比較(圖源:微軟官方博客)
此外,微軟還比較了Phi-2與谷歌最近發(fā)布的Gemini Nano 2,谷歌發(fā)布的模型參數(shù)規(guī)模為32.5億,Phi-2的性能表現(xiàn)部分優(yōu)于Gemini Nano 2。
▲Phi-2、Gemini Nano 2性能比較(圖源:微軟官方博客)
考慮到一些公共基準(zhǔn)測(cè)試的數(shù)據(jù)可能會(huì)泄漏到訓(xùn)練數(shù)據(jù)中,微軟對(duì)第一個(gè)模型Phi-1進(jìn)行了廣泛的凈化研究以排除這種可能性。
基于判斷語(yǔ)言模型的最佳方法是在具體用例上對(duì)其進(jìn)行測(cè)試的考量,研究人員使用了多個(gè)微軟內(nèi)部專有數(shù)據(jù)集和任務(wù)評(píng)估了Phi-2,并再次將其與Mistral和Llama 2進(jìn)行比較,其結(jié)果為,平均而言Phi 2優(yōu)于Mistral-7B,后者優(yōu)于70億、130億、730億參數(shù)規(guī)模的Llama-2模型。
除了基準(zhǔn)測(cè)試外,研究人員還測(cè)試了社區(qū)內(nèi)的一些常用提示,他們觀察到的表現(xiàn)也與基準(zhǔn)測(cè)試的結(jié)果預(yù)期一致。
其中,研究人員測(cè)試了用于評(píng)估谷歌Gemini Ultra模型在解決物理問(wèn)題方面能力的問(wèn)題。
與Gemini的測(cè)試類似,研究人員進(jìn)一步向Phi-2詢問(wèn)學(xué)生的錯(cuò)誤答案,來(lái)確認(rèn)它是否能識(shí)別出錯(cuò)誤所在。
不過(guò),從輸出結(jié)果來(lái)看,這并不完全是與Gemini報(bào)告中描述的Gemini Ultra輸出的同類比較,Gemini測(cè)評(píng)中學(xué)生的答案上傳了手寫文本的圖像,Phi-2的測(cè)試采用的是原始文本。
結(jié)語(yǔ):大模型時(shí)代,小模型仍在崛起
Phi-2的參數(shù)規(guī)模僅有27億,但相比于參數(shù)規(guī)模更大的70億、130億模型,其性能表現(xiàn)仍不遜色。微軟專注于小模型市場(chǎng)的布局,也印證了大模型時(shí)代小模型的價(jià)值。
微軟與OpenAI的緊密合作,使得GPT模型的表現(xiàn)在大模型市場(chǎng)一騎絕塵,再加上微軟參數(shù)規(guī)模更小的Phi系列,能進(jìn)一步搶占開(kāi)源模型長(zhǎng)尾市場(chǎng)。不過(guò)從目前來(lái)看,Phi系列僅被允許用于研究目的。
從市場(chǎng)來(lái)看,越來(lái)越多的玩家開(kāi)始探索在手機(jī)等移動(dòng)設(shè)備上部署大模型,微軟此舉或許也會(huì)加速模型能力在端側(cè)的應(yīng)用。