美譽度品牌管理
作者 | jojo
編輯 | jonyle
今年科技圈最火熱的話題,非生成式AI莫屬,而生成式AI發(fā)展迭代的速度之快,也令人驚嘆。
從GPT-3.5到GPT-4.0,從多模態(tài)交互融入到插件的支持,而曾經只能跑在云端的AI大模型,也開始在智能終端設備中落地。
沒錯,今天擁有數十億、上百億參數的AI大模型已經可以直接在你的手機上運行了。注意,是完全本地化運行,只依賴手機本身的算力。
這聽起來似乎還有些遙遠,但就在上周召開的上海WAIC上,我們已經看到搭載高通第二代驍龍8芯片的安卓手機直接運行參數規(guī)模超過10億的Stable Diffusion,且只需要15秒左右就可以出圖,而參數規(guī)模超過15億的ControlNet也成功在手機終端上實現了本地化運行。
▲搭載驍龍芯片的手機運行Stable Diffusion,15秒左右出圖,來源:高通
在WAIC上,我們還能看到各類生成式AI應用已經可以被越來越多的普通消費者通過身邊的智能設備接觸到。
AI正迎來大爆發(fā)時期,就像此前電視、互聯網和智能手機的問世,而這種爆發(fā)對算力以及計算架構都提出了新的需求。AI訓練和推理的成本顯著提升,計算架構需要不斷演進并滿足生成式AI日益增長的處理和性能需求。
在移動芯片巨頭高通看來,未來生成式AI的發(fā)展必然會是云端與終端側的“混合”模式。
在這樣的大背景下,以智能手機為代表的各類智能終端產品很快就會迎來AI體驗的變革,生成式AI無疑將席卷整個智能硬件賽道。
如何實現大模型在端側的落地?如何實現端側和云端的高效協同?如何設計出更高效的“混合AI”架構?面向生成式AI革新終端體驗的大趨勢,從芯片到軟件到算法再到生態(tài),高通已經提前布局,成為端側AI體驗變革的核心推動者之一。面向生成式AI的未來,高通已經提前給出了自己的答案。
一、“混合AI”未來已至,手機跑大模型成為現實
生成式AI在終端側的落地,與我們每一個人的生活密切相關,一項技術從實驗室中走到商用,再到面向消費市場大范圍落地,必然需要有一個落地的平臺,各類智能終端設備無疑扮演著這樣的角色。
從去年底到今年年中,短短不到一年,生成式AI及相關產品應用如雨后春筍般成長。據統計,目前已有3000多個可用的生成式AI應用和特性出現。
但這些應用受限于背后大模型的復雜度和龐大規(guī)模,絕大部分都只能在云端運行,前不久ChatGPT推出了iOS版本,但該應用的任務處理仍然是基于云端的。
究其原因,AI大模型的推理成本會隨著日活用戶數量及其使用頻率的增長而顯著增加。云端推理的高成本,讓生成式AI的規(guī)?;瘮U展陷入瓶頸。
在這樣的大趨勢下,高通日前發(fā)布了《混合AI是AI的未來》技術白皮書,提出了混合AI架構的概念?!盎旌稀?,就意味著云端要和手機、PC、XR頭顯、汽車這些終端設備協同工作,而不是單打獨斗。
在今年WAIC上,高通公司高級副總裁兼AI負責人Ziad Asghar就提到,為實現生成式AI的規(guī)?;瘮U展,AI處理的重心正在向邊緣轉移。
▲高通技術公司產品管理高級副總裁兼AI負責人Ziad-Asghar,來源:高通
因此AI能否真正在終端側應用落地,并與云端進行高效協同,就顯得至關重要。
從此次WAIC上的一系列演示和獲獎成果來看,高通在AI落地智能終端方面顯然是走得更快的一家科技巨頭,尤其是在其強項的智能手機賽道中,高通已經展示了多個“全球首次”。
可以說,手機跑大模型,已經逐漸走入現實。
Stable Diffusion是我們很熟悉的一個文本到圖像生成式AI模型,其參數超過10億,而在WAIC上,一部搭載高通第二代驍龍8移動平臺的智能手機已經可以直接本地運行Stable Diffusion,并且在15秒內生成一張512×512像素的圖像。
從現場實際演示來看,其時延已經可以做到和云端相當,且由于是完全本地化運行,用戶輸入的文本也完全不受限制。
據了解,這背后,高通采用了全棧AI優(yōu)化的方式,通過量化、編譯和硬件加速進行優(yōu)化,最終實現了這一用例。值得一提的是,高通已經這一能力擴展到了搭載驍龍芯片的PC產品上。
除此之外,高通還演示了ControlNet這一圖像到圖像生成式AI模型在智能手機上的運行,該模型的參數量更是達到了15億。
在演示中,ControlNet通過跨模型架構、AI軟件和神經網絡硬件加速器的全棧式AI優(yōu)化,在12秒的時間內完成了16步推理,最終完成了AI圖像生成,整個過程不需要訪問任何云端。
▲在手機上本地化運行15億參數的圖像到圖像模型ControlNet,來源:高通
一方面,高通在WAIC上的展示讓我們看到生成式AI落地終端,已經成為現實,另一方面,我們也能看到高通在終端AI領域的實力。因為目前高通是全球唯一一個能夠實現在智能手機本地運行大模型的廠商。
高通Ziad Asghar在大會上還做了進一步展望,他說,未來擁有100億或更大規(guī)模參數的生成式AI模型也會在終端上運行,推動生成式AI的普及。
二、背靠數十億終端,從軟硬件到生態(tài),構建全棧式AI能力
WAIC上的一系列成果,讓我們看到了高通在終端AI領域已經走在了行業(yè)前列,而在這背后,高通已經在終端AI相關硬件、軟件、生態(tài)等方面儲備了諸多產品和技術,形成了自己的全棧式AI能力,這也是高通在AI時代核心的秘密武器之一。
在前文提到的各種智能手機運行AI大模型的案例中,我們經??吹健叭珬J紸I”這個詞,高通的這項能力也是其對于AI產業(yè)的核心價值所在。
首先在硬件層面,芯片層的AI運算處理能力是AI落地終端的必要條件,目前高通AI引擎是高通在硬件領域的殺手锏之一。
就在此次WAIC上,第二代驍龍8移動平臺中的高通AI引擎獲得了2023世界人工智能大會SAIL獎(卓越人工智能引領者獎),這也側面證明了高通在AI硬件技術方面的能力。
▲第二代驍龍8移動平臺的高通AI引擎榮獲SAIL獎,來源:高通
根據高通官方實驗數據,搭載高通AI引擎的智能手機,其解決方案的能效與競品相比大約有2倍左右的優(yōu)勢,以更低功耗提供過硬的終端側AI性能是高通AI引擎的一大強項。
▲第二代驍龍8的AI能效與競品相比較,來源:高通
具體來看,高通AI引擎采用了異構計算架構,其中的Hexagon處理器、Adreno GPU和Kryo CPU這三個模塊都對終端側運行AI應用進行了針對性優(yōu)化。
Hexagon處理器使用了專用的供電系統,按照工作負載適配功率,從而提升系統能效比。此外,Hexagon處理器支持微切片推理和INT4硬件加速,可以在AI處理方面實現更高性能、更低的能耗和內存占用。
目前生成式AI領域大量應用到Transformer模型,而Hexagon處理器可以對Transformer進行加速,提升生成式AI中一些關鍵機制的推理速度,根據高通實驗數據,在使用MobileBERT的特定用例中,AI性能可以提升4.35倍。
正如前文所說,既然是“全棧”,就要軟硬技術都過關。
在軟件能力方面,高通AI軟件棧可以說是高通所有相關AI軟件產品的“集大成”方案, 借助高通AI軟件棧,開發(fā)者只需要創(chuàng)建一次AI模型,就可以實現跨不同產品的部署。
▲高通AI軟件棧,來源:高通
此外,高通AI軟件棧支持TensorFlow、PyTorch、ONNX和Keras等主流AI框架以及對應的runtime,集成了面向Android、Linux和Windows不同版本的高通神經網絡處理SDK。
值得注意的是,高通一直專注于AI模型效率研究,從而提升AI模型運行的能效和性能,這對于生成式AI的應用和擴展是至關重要的。
高通通過量化、壓縮、條件計算、神經網絡架構搜索和編譯,在不犧牲太多精度的前提下對AI模型進行了縮減。在量化方面,高通將FP32模型量化壓縮到INT4模型,實現了64倍內存和計算能效提升。
在生成式AI領域,像常見的GPT、Bloom以及LLaMA這樣基于Transformer的大語言模型通常會受到內存的限制,根據高通實驗數據,借助量化感知訓練以及更加深入的量化研究,不少生成式 AI 模型可以量化至INT4模型,與INT8相比,性能提升約為90%,能效提升在60%左右。
我們表面上看到的是數十億參數的大模型輕松地跑在了手機上,但實際上這背后高通在提升AI模型效率方面的研究發(fā)揮著關鍵作用。
高通全球副總裁兼高通AI研究負責人侯紀磊博士在WAIC上特別提到,能效是高通AI解決方案的核心優(yōu)勢之一,以極低功耗提供出色的終端側AI性能,賦能AI用例,是他們要做的。
▲高通技術公司全球副總裁兼高通AI研究負責人侯紀磊博士,來源:高通
最后,在硬件、軟件之外,高通在全球化規(guī)模以及生態(tài)建設方面的優(yōu)勢也成為其推動生成式AI落地終端的關鍵動力。
目前搭載高通AI引擎產品出貨量已經超過20億個,根據市研機構Counterpoint數據統計,搭載驍龍和高通平臺的已上市用戶終端數量規(guī)模在數十億臺。市研機構TechInsights預測,未來高通會以超過40%的市場份額保持AI智能手機處理器出貨量第一,超過蘋果公司的25%以及聯發(fā)科的24%。
此外,搭載驍龍平臺的已發(fā)布XR終端已經超過65款,其中Meta、PICO等頭部廠商的旗艦產品均采用的是高通芯片。
可以看到,高通的AI能力已經深入數十億邊緣終端設備,形成跨智能手機、汽車、XR、PC以及企業(yè)級AI等現有市場和新興領域的終端AI生態(tài)系統。
憑借在軟硬件技術實力、全球化規(guī)模和生態(tài)系統賦能方面的優(yōu)勢,高通正在推動生成式AI加速落地終端。
正如侯紀磊博士在WAIC上所說到的,憑借一系列基礎研究,以及跨AI應用、模型、硬件與軟件的全棧終端側AI優(yōu)化,高通一直處于終端側AI解決方案的前沿。
三、深耕AI研究十五年,推動技術從實驗室走到消費者手中
科技產業(yè)發(fā)展的每個時代,都有行業(yè)的引領者,通過技術創(chuàng)新帶動行業(yè)的發(fā)展,例如PC時代的微軟、英特爾、智能手機時代的蘋果,而在生成式AI的新浪潮中,各路玩家仍在尋找自己的定位,產業(yè)格局仍充滿變量。
能夠把握住生成式AI的浪潮,精準利用優(yōu)勢產品和技術切入賽道,對于每家科技公司來說都不是一件容易的事。在WAIC展示的各類生成式AI落地智能手機的用例背后,高通其實在AI前沿技術研究領域已經深耕多年,甚至在生成式AI領域,也已提前多年進行了前瞻性探索。這些研究對于推動AI與移動通信產業(yè)的融合發(fā)展發(fā)揮著關鍵作用。
從2007年高通驍龍平臺搭載首個Hexagon處理器至今,高通深耕AI研發(fā)已超過15年。
▲高通近15年來AI研究重要節(jié)點,來源:高通
從2015年的驍龍820集成了首個專門面向移動平臺的高通AI引擎,到2019年驍龍865開始擴展終端側AI用例,多年來高通一直在推動終端側AI技術的迭代,讓感知、推理和行為等核心能力在終端上落地。
此外,多年來高通的重要AI研究也在影響著行業(yè),推動高能效AI的研究和發(fā)展,加速AI在終端側的落地應用。
從高通歷年發(fā)布的AI研究論文來看,高通在計算機視覺、無線和射頻傳感、能源效率、機器學習、音視頻和語言處理、數據壓縮模型生成、個性化與聯邦學習、強化學習、AI編譯器和算法等AI前沿基礎理論研究領域均有不少研究成果發(fā)布。
▲高通AI研究主要涉及領域,來源:高通
比如在今年的CVPR上,高通展示了全球首個在移動設備上通過神經編解碼器對1080P視頻進行編碼和解碼的演示。根據實際演示視頻,在搭載高通芯片的智能手機上,神經編解碼器進行視頻解碼的速度已經達到了35FPS左右。
▲在手機上進行的1080P神經網絡視頻編碼,來源:高通
與此同時,高通在前沿算法和模型開發(fā)領域一直持續(xù)迭代自己的技術,比如具備自主學習能力的FrameExit模型、應用在移動終端上的量化技術和創(chuàng)新的編譯器棧等。
高通利用INT4模型在終端側實現了全球首個實時超級分辨率任務處理,與INT8相比,INT4模型的性能和能效提高了1.5倍到2倍。
可以說,十五年來高通在AI領域的深厚積累,已經成為今天他們發(fā)力生成式AI、推進混合AI發(fā)展的關鍵技術底蘊。
高通的身影一直活躍在AI技術前沿研究領域,一面連接學術界、產業(yè)界,推動著技術的發(fā)展,一面連接消費者,完善技術落地產品的體驗,高通無疑已經成為“混合AI時代”加速生成式AI落地終端的核心推動者。
結語:生成式AI加速落地終端,AI產業(yè)涌現新變量
今天,生成式AI對各行各業(yè)產生深刻影響,幾乎所有科技公司,都已卷入生成式AI的浪潮。
終端AI應用的深度廣度都在加速擴張,云端和終端協同工作的混合AI將成為生成式AI體驗的底層保障。百億甚至千億規(guī)模參數大模型落地終端,也將在不久的將來成為現實。
在未來端云結合的混合AI時代,能夠提供全套解決方案的玩家必然會成為產業(yè)關注的焦點, 作為底層技術和生態(tài)構建者的高通,正成為產業(yè)中不可或缺的一環(huán)。端側AI的應用正在迎來一次“進化”,而高通正在為這次革命按下加速鍵。