您好,歡迎進入美譽度品牌管理官網(wǎng)!

江蘇危機公關(guān)公司

一站式提供商

提供設計,生產(chǎn),安裝,售后服務一條龍服務

400-021-0821
公司資訊
您的位置: 主頁 > 新聞中心 > 公司資訊
突發(fā)!谷歌深夜掀桌子,發(fā)最強大模型Gemini,跑分碾壓GPT-4【附60頁技術(shù)報告】
發(fā)布時間:2023-12-28 13:32瀏覽次數(shù):

美譽度品牌管理

北京時間12月7日凌晨,期盼已久的谷歌AI大模型Gemini終于發(fā)布了!

作為谷歌用來應對GPT-4的“殺手锏”,Gemini也不負眾望,一亮相就拿出了許多亮眼的成績:首次在MMLU(大規(guī)模多任務語言理解)測評上超過人類專家,在32個多模態(tài)基準中取得30個SOTA(當前最優(yōu)效果),幾乎全方位超越GPT-4。

▲Gemini成為首個在MMLU上超越人類專家的大模型

實際上,Gemini的發(fā)布也是一波三折。今年8月就有消息稱,Gemini將在秋季發(fā)布。但到了11月,Gemini又被傳出推遲至明年第一季度發(fā)布。

此次發(fā)布,谷歌稱之為Gemini 1.0,包含三個版本:適用于高度復雜任務的Gemini Ultra、適用于各種任務的最佳模型Gemini Pro以及適用于端側(cè)設備的Gemini Nano。

其中,Gemini Pro和Gemini Nano已分別在聊天機器人Bard和智能手機Pixel 8 Pro上集成,最強大的Gemini Ultra則將在明年發(fā)布。

一、三大版本、五種模態(tài),多模態(tài)性能全面超越GPT-4V

作為一個從頭開始構(gòu)建的多模態(tài)大模型,Gemini可以同時識別和理解文本、圖像、音頻、視頻和代碼五種信息。

這意味著用戶可以自然地交錯輸入:說幾句話,添加圖像、文本,或是短視頻。同樣,模型也會自然地交錯文本和圖像作為輸出。

▲Gemini根據(jù)視頻輸入生成代碼

Gemini具有三個版本:規(guī)模最大、功能最強大,適用于高度復雜任務的Gemini Ultra、適用于各種任務的最佳模型Gemini Pro以及適用于端側(cè)設備的Gemini Nano。所謂的端側(cè),主要是指能在手機、平板、PC上直接運行。

▲Gemini的三個版本

其中,Gemini Nano還包含兩個規(guī)模,分別是參數(shù)18億的Nano-1和參數(shù)32.5億的Nano-2,針對低內(nèi)存和高內(nèi)存設備。Gemini Nano是通過從更大的Gemini模型中提取知識進行訓練的,它經(jīng)過4位量化處理用于部署,并提供最佳性能。

▲Gemini 1.0全家桶介紹

谷歌宣稱,Gemini Ultra是首個在MMLU任務上表現(xiàn)優(yōu)于人類專家的大模型,取得90.0%的成績。作為對比,人類專家的成績?yōu)?9.8%,GPT-4為86.4%。

從測評數(shù)據(jù)上來看,Gemini的性能在多模態(tài)任務上全面超越GPT-4V。

▲Gemini在多模態(tài)任務上的表現(xiàn)

在文本任務上,Gemini Ultra也幾乎全方位勝于GPT-4V。

▲Gemini在文本任務上的表現(xiàn)

具體來說,Gemini Ultra在32個基準測試中的30個中取得SOTA,還在上周新發(fā)布的MMMU多模態(tài)推理基準上取得了62.4%的最佳分數(shù),比之前的SOTA模型高出5個百分點以上。

二、解題、寫文案、做菜譜,60頁技術(shù)報告教你玩轉(zhuǎn)Gemini

“如果回顧在過去幾十年時間AI發(fā)展的突破性節(jié)點,你會發(fā)現(xiàn)谷歌在其中參與良多。我認為Gemini,將會繼承這個優(yōu)良的傳統(tǒng)?!痹诠雀韫俜桨l(fā)布的視頻里,谷歌CEO桑達爾·皮查伊(Sundar Pichai)面帶著笑意說道。

▲谷歌CEO桑達爾·皮查伊

皮查伊還發(fā)布了一封公開信,以下是公開信全文:

每一次技術(shù)轉(zhuǎn)變都是推動科學發(fā)現(xiàn)、加速人類進步和改善生活的機會。我相信我們目前所見到的AI的轉(zhuǎn)變將是我們一生中最深遠的,遠遠超過移動技術(shù)或互聯(lián)網(wǎng)的轉(zhuǎn)變。AI有潛力為全球各地的人們創(chuàng)造機會,從日常生活到非凡事物。它將帶來新的創(chuàng)新浪潮和經(jīng)濟進步,并在我們從未見過的規(guī)模上推動知識、學習、創(chuàng)造力和生產(chǎn)力。

這就是讓我興奮的地方:有機會讓AI對全世界的每個人都有幫助。

作為一個以AI為核心的公司,我們已經(jīng)走過了近八年的旅程,進展的速度只會越來越快:數(shù)百萬人現(xiàn)在在我們的產(chǎn)品中使用生成式AI來完成以前甚至無法完成的任務,從回答更復雜的問題到使用新工具進行協(xié)作和創(chuàng)造。同時,開發(fā)人員正在使用我們的模型和基礎(chǔ)設施構(gòu)建新的生成式AI應用程序,全球的初創(chuàng)企業(yè)和企業(yè)正在借助我們的AI工具實現(xiàn)增長。

這是令人難以置信的勢頭,然而,我們只是剛剛開始揭開可能性的表面。

我們以大膽和負責任的態(tài)度進行這項工作。這意味著我們在研究中有著雄心勃勃的目標,追求能夠給人們和社會帶來巨大利益的能力,同時建立安全保障,并與政府和專家合作,應對AI變得更加強大時的風險。我們繼續(xù)投資于最好的工具、基礎(chǔ)模型和基礎(chǔ)設施,并將它們應用于我們的產(chǎn)品和其他領(lǐng)域,遵循我們的AI原則的指導。

現(xiàn)在,我們正邁向旅程的下一步,推出Gemini,這是我們迄今為止最強大、最通用的模型,具備許多領(lǐng)先基準測試的先進性能。我們的第一個版本,Gemini 1.0,針對不同的規(guī)模進行了優(yōu)化:Ultra、Pro和Nano。這些是Gemini時代的第一個模型,也是我們今年早些時候成立谷歌DeepMind時設想的第一個實現(xiàn)。這一新模型時代代表著我們作為一家公司所進行的最大的科學和工程努力之一。我對未來和Gemini將為全球人們帶來的機遇感到真正興奮。

而作為Gemini的另一大功臣,DeepMind CEO戴密斯·哈薩比斯(Demis Hassabis)則給出更為具體的介紹,“Gemini是我們最強大的模型。通過吸收大量的信息,它可以理解我們四周的環(huán)境,理解我們的思維方式,并有所產(chǎn)出?!?/p>

▲DeepMind CEO戴密斯·哈薩比斯

同時,谷歌也考慮到AI大模型的安全性,提供了一系列保護措施。

谷歌DeepMind首席科學家杰夫·迪恩(Jeff Dean)在社交平臺X貼出了自己團隊專門為Gemini寫的60頁技術(shù)報告,來介紹Gemini的能力。

▲DeepMind首席科學家杰夫·迪恩

利用Gemini的多模態(tài)推理能力,該模型能夠讀懂凌亂的筆跡,正確理解問題的表述,將問題和解決方案都轉(zhuǎn)換為數(shù)學排版,識別出學生在解決問題時出錯的具體推理步驟,然后給出問題的正確解決方案。

▲Gemini識別手寫筆記并解物理題

利用交錯圖像和文本生成能力,Gemini可以幫助用戶寫博客。Gemini能夠按照提示詞生成與文本密切相關(guān)的圖像,并且所有圖像顯示出高度的一致性。下圖的提示詞為:寫一篇去紐約游玩的博客,一只狗和它的主人玩得很開心,包括幾張狗狗在不同地標歡快擺姿勢的照片。

▲Gemini交錯生成文字和圖像

通過圖像和語音輸入,Gemini可以指導做菜,并在不同階段提出相應的建議。

▲Gemini通過多模態(tài)能力輔助做菜

在最常規(guī)的文本基準測試中,我們更是看到Gemini“超過”2023年發(fā)布的一系列大模型,但如果仔細觀看數(shù)據(jù),我們也能發(fā)現(xiàn)事實上,Gemini拉開的差距并不大。

而在Gemini系列內(nèi)部,我們也能看到不同版本的模型對語言理解和文本生成的能力有所不同。

在圖像理解方面,Gemini Ultra也優(yōu)于現(xiàn)有的方法。

但我們也能夠從近期發(fā)布的一系列的大模型測試文件中,看到整個AI產(chǎn)業(yè)正在以滾滾巨浪的態(tài)勢,迅速向前推進。

技術(shù)報告地址:
storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf

三、Gemini Pro已接入聊天機器人Bard,下周起開放API

目前,谷歌旗下的聊天機器人Bard已經(jīng)集成Gemini Pro的微調(diào)版本,在170多個國家和地區(qū)提供英語服務。這是Bard自推出以來最大的升級。

谷歌稱,在未來幾個月內(nèi),Bard將擴展不同的模態(tài),并支持新的語言和地區(qū)。明年年初,谷歌還將推出Bard Advanced,提供Gemini Ultra模型的最佳性能。

谷歌的Pixel 8 Pro成為首款搭載Gemini Nano的智能手機,推出錄音總結(jié)、智能回復等AI功能,明年還將推出更多應用。

針對開發(fā)者,Gemini Pro將于美國時間12月13日開始提供API(應用程序接口),開發(fā)者和企業(yè)客戶可以通過Google AI Studio或Google Cloud Vertex AI獲取Gemini Pro入口。

安卓開發(fā)者還可以通過谷歌日前推出的AI Core應用來使用Gemini Nano。

Bard體驗地址:bard.google.com

▲谷歌數(shù)據(jù)中心內(nèi)的一排Cloud TPU v5p AI加速器超級計算機

結(jié)語:谷歌憑Gemini追趕微軟和OpenAI步伐

昨天,微軟剛剛宣布了旗下AI助手Copilot重大升級,將接入OpenAI的最新模型GPT-4 Turbo。正當我們感慨,留給谷歌的時間已經(jīng)不多了的時候,谷歌突然亮出底牌,甩出Gemini全家桶與之對抗。

雖然目前僅開放了Gemini Pro和Nano,但Gemini Ultra在測評基準上取得的成績已十分亮眼,尤其是代碼生成能力方面。這無疑是在OpenAI陷入內(nèi)部混亂的時候給了它重重一擊。

Gemini Ultra將于明年發(fā)布,它在實踐中的具體表現(xiàn)將會如何,我們將持續(xù)關(guān)注。

400-021-0821