美譽(yù)度11月14日消息,昨日晚間,英偉達(dá)在國(guó)際超算大會(huì)SC23上宣布推出新一代AI計(jì)算平臺(tái)NVIDIA HGX H200。
H200 GPU重點(diǎn)升級(jí)如下:
→ 跑70B Llama 2,推理速度比H100快90%;
→ 跑175B GPT-3,推理速度比H100快60%;
→ 首撘141GB HBM3e,是H100顯存容量的近1.8倍;帶寬4.8TB/s,是H100帶寬的1.4倍;
→ 2024年第二季度發(fā)貨。
▲H200完整參數(shù)表
需注意的是,雖然都是“200”,但與此前英偉達(dá)發(fā)布的GH200 Grace Hopper超級(jí)芯片不同,GH200是英偉達(dá)Grace CPU與H100 GPU的組合版,而H200是新一代GPU芯片,為大模型與生成式AI而設(shè)計(jì),因此相比H100主要優(yōu)化的是顯存和帶寬,算力則與H100基本持平。
一、內(nèi)置全球最快內(nèi)存,大模型推理成本大降
HGX H200支持NVIDIA NVLink和NVSwitch高速互連,可支持超過(guò)1750億參數(shù)規(guī)模模型的訓(xùn)練和推理,相比于H100,H200的性能提升了60%到90%。英偉達(dá)高性能計(jì)算和超大規(guī)模數(shù)據(jù)中心業(yè)務(wù)副總裁Ian Buck將其描述為“世界領(lǐng)先的AI計(jì)算平臺(tái)”。
這也是首款內(nèi)置全球最快內(nèi)存HBM3e的GPU,英偉達(dá)的新聞稿寫(xiě)道,GPT-3的推理表現(xiàn)中,H100的性能比A100提高了11倍,H200 Tensor Core GPU的性能比A100提高到了18倍。
Buck稱,英偉達(dá)將在未來(lái)幾個(gè)月內(nèi)繼續(xù)增強(qiáng)H100和H200的性能,2024年發(fā)布的新一代旗艦AI芯片B100將繼續(xù)突破性能與效率的極限。
在生成式AI基準(zhǔn)測(cè)試中,H200 Tensor Core GPU每秒在Llama2-13B大型語(yǔ)言模型上每秒快速通過(guò)1.2萬(wàn)個(gè)tokens。
單張H200跑700億參數(shù)的Llama 2大語(yǔ)言模型,推理速度比H100快90%;8張H200跑1750億參數(shù)的GPT-3大語(yǔ)言模型,推理速度比8張100快60%。
在HBM3e的助攻下,NVIDIA H200能以每秒4.8TB的速度提供141GB內(nèi)存,與NVIDIA A100相比,容量幾乎翻倍,且?guī)捲黾恿?.4倍。
二、兼容H100,明年第二季度開(kāi)始供貨
英偉達(dá)還展示了一個(gè)服務(wù)器平臺(tái),可以通過(guò)NVIDIA NVLink互連連接四個(gè)NVIDIA GH200 Grace Hopper超級(jí)芯片,其具有四路和八路配置。
其中,四路配置在單個(gè)計(jì)算節(jié)點(diǎn)中配備了多達(dá)288個(gè)Arm Neoverse內(nèi)核和16PetaFLOPS的AI性能,以及高達(dá)2.3TB的高速內(nèi)存。
八路配置的HGX H200提供超過(guò)32PetaFLOPS的FP8深度學(xué)習(xí)計(jì)算和1.1TB聚合高帶寬內(nèi)存,可在生成式AI和HPC應(yīng)用中實(shí)現(xiàn)最高性能。
當(dāng)與具有超快NVLink-C2C互連的NVIDIA Grace CPU配合使用時(shí),H200還創(chuàng)建了帶有HBM3e的GH200 Grace Hopper超級(jí)芯片,這是可以服務(wù)于大規(guī)模HPC和AI應(yīng)用的集成模塊。
這些服務(wù)器主板與HGX H100系統(tǒng)的硬件和軟件兼容。它還可用于英偉達(dá)8月份發(fā)布的采用HBM3e的新一代NVIDIA GH200 Grace Hopper超級(jí)芯片中。
基于此,H200可以部署在各種類型的數(shù)據(jù)中心中,包括本地、云、混合云和邊緣。包括華碩、戴爾科技、惠普等在內(nèi)的英偉達(dá)全球生態(tài)系統(tǒng)合作伙伴服務(wù)器制造商也可以使用H200更新其現(xiàn)有系統(tǒng)。
H200將于2024年第二季度開(kāi)始向全球系統(tǒng)制造商和云服務(wù)提供商供貨。
除了AI算力和云服務(wù)公司CoreWeave、亞馬遜無(wú)服務(wù)器計(jì)算服務(wù)Lambda和云平臺(tái)Vultr之外,AWS、谷歌云、微軟Azure和甲骨文云將從明年開(kāi)始成為首批部署基于H200實(shí)例的云服務(wù)提供商。
三、全球TOP 500超算榜,基于英偉達(dá)技術(shù)的系統(tǒng)達(dá)379個(gè)
此外,基于10月英偉達(dá)發(fā)布的TensorRT-LLM開(kāi)源庫(kù),英偉達(dá)GH200超級(jí)芯片的速度是雙插槽x86 CPU系統(tǒng)的110倍,能效是x86 CPU + H100 GPU服務(wù)器的近2倍。
在全球TOP 500超算榜中,得益于由NVIDIA H100 Tensor Core GPU提供支持的新系統(tǒng),英偉達(dá)在這些系統(tǒng)中提供了超過(guò)2.5ExaFLOPS的HPC性能,高于5月份排名中的1.6ExaFLOPS。
同時(shí),新的全球TOP 500超算榜名單中包含了有史以來(lái)使用英偉達(dá)技術(shù)數(shù)量最多的系統(tǒng)為379個(gè),而5月份的榜單中為372個(gè),其中還包括了38臺(tái)超級(jí)計(jì)算機(jī)。
英偉達(dá)加速計(jì)算平臺(tái)還提供了強(qiáng)大的軟件工具支持,能使開(kāi)發(fā)人員和企業(yè)構(gòu)建和加速?gòu)腁I到HPC的生產(chǎn)就緒型應(yīng)用程序,其中包括用于語(yǔ)音、推薦系統(tǒng)和超大規(guī)模推理等工作負(fù)載的NVIDIA AI Enterprise軟件套件。
結(jié)語(yǔ):圍繞大模型核心痛點(diǎn),劍指加速計(jì)算需求
生成式AI催生的大量加速計(jì)算需求仍然在不斷增長(zhǎng),大模型開(kāi)發(fā)和部署帶來(lái)的算力需求也成為企業(yè)的核心痛點(diǎn),性能更強(qiáng)的AI芯片仍然是當(dāng)下大模型企業(yè)競(jìng)爭(zhēng)的重點(diǎn)之一。
如今,英偉達(dá)再次圍繞著生成式AI的開(kāi)發(fā)和部署甩出了一系列硬件基礎(chǔ)設(shè)施和軟件工具,幫助企業(yè)突破大模型開(kāi)發(fā)和部署的核心痛點(diǎn),并且通過(guò)在數(shù)值、稀疏性、互聯(lián)、內(nèi)存帶寬等方面的革新,不斷鞏固其在AI時(shí)代的霸主地位。