被稱為科技“春晚”的大會之一的GTC帶來了哪些顛覆性的產(chǎn)品?
今日凌晨,黃仁勛穿著標志性皮夾克,登上演唱會般布局的舞臺。站在舞臺中央,黃仁勛先是用一張圖回顧了英偉達的發(fā)展歷史,期間還著重提了下自己親自講首臺DGX One送給OpenAI的故事。
隨即,黃仁勛向開發(fā)者英偉達最新一代產(chǎn)品和最新進展——在這場兩個小時的演講中,黃仁勛公布了搭載B200芯片的GB200 Grace Blackwell超級芯片系統(tǒng),以及英偉達在AI軟件(NIM微服務)、Omiverse云、具身智能方面的最新進展。
作為Hopper 的繼任者,Blackwell B200這顆重磅炸彈實現(xiàn)了怎樣的代際飛躍?黃仁勛宣布的GR00T的項目,意欲在機器人和具身智能做出哪些突破性工作?英偉達成為業(yè)界公認的“產(chǎn)業(yè)風向標”,又一次將人工智能行業(yè)推向又一個先鋒時刻?以下,Enjoy:
1
強勢發(fā)布「新作」
英偉達持續(xù)探索科技的邊界
Hopper的繼任者——算力炸彈Blackwell B200來襲!
幾乎每六個月就翻一番的大型語言模型,讓算力成為了行業(yè)必需,也讓英偉達GPU成了搶手貨。
這次GTC,英偉達再次發(fā)布新品“Blackwell B200”,以繼承Grace Hopper的位置,成為下一代數(shù)據(jù)中心和AI GPU。
Blackwell和Hopper的對比
黃仁勛表示:“Hopper很棒,但我們需要更大的GPU。”
Blacewell B200也確實從各種意義上完成了「繼承」與「超越」:
保留 Grace CPU 架構(gòu),同時能夠與更新的 Blackwell GPU 進行配對。
世界上晶體管數(shù)量最多的芯片,包含2080億晶體管,是H100的兩倍多。
第二代Transformer引擎,至多可以提供的4 petaflops的AI計算,提升了推理能力和模型大小。
使用臺積電定制4NP TSMC工藝加持,支撐雙芯片配置,是對Hopper H100的改進版本。
配備18個第五代NVLink連接,是H100鏈接數(shù)量的18倍。能夠提供高達1.8TB/s的雙向吞吐量,可以支撐大規(guī)模GPU間的高速通信。
配備 192GB HBM3e 內(nèi)存,足以提供高達 8 TB/s 的帶寬。
老黃在現(xiàn)場也展示了Grace-Blackwell系統(tǒng)(兩個Blackwell GPU、四個die與一個Grace Cpu連接在一起)。GB200能夠?qū)蓚€B200 Blackwell GPU與一個基于Arm的Grace CPU進行配對。
還有專門為 AI 訓練推出的 GB200 NVL72 機群,它將 36 個 CPU 和 72 個 GPU 插入一個單一的液冷機架中,總共有 720 petaflops 的 AI 訓練性能或 1440 petaflops(也稱為 1.4 exaflops)的推理能力。內(nèi)部有近兩英里長的電纜,有 5000 根獨立電纜,包含 72 個 Blackwell GPU 和 36 個 Grace CPU,通過第五代 NVLink 互連。
英偉達表示,該系統(tǒng)可以部署一個擁有 27 萬億參數(shù)的模型,而 GPT-4 大約是一個擁有 1.7 萬億參數(shù)的模型。據(jù)稱,亞馬遜、谷歌、微軟和甲骨文都已計劃在其云服務產(chǎn)品中提供 NVL72 機架。
老黃對新芯片信心滿滿,并表示,人工智能是經(jīng)濟發(fā)生根本性變革的驅(qū)動力,而Blackwell芯片將成為“推動這場新工業(yè)革命的引擎”。他預計,Blackwell支持構(gòu)建實時生成式AI的性能將有用武之地。許多組織都將采用Blackwell,例如亞馬遜網(wǎng)絡服務、戴爾、谷歌、Meta、微軟、OpenAI、甲骨文、特斯拉和XAI等等。
如同Wedbush Securities分析師Dan Ives曾表示:“這代表著人工智能行業(yè)展望未來的又一個先鋒時刻。”
不過,英偉達沒有提供新款GB200或其使用系統(tǒng)的成本。據(jù)分析師估計,英偉達基于Hopper的H100芯片成本在2.5萬至4萬美元之間,而整個系統(tǒng)的成本高達20萬美元。
NIM+NeMo:英偉達版企業(yè)用GPTs來了?
芯片炸彈以外,英偉達用軟件再次給AI行業(yè)帶來「億點點」震撼。
發(fā)布會上,英偉達推出了集大成的新服務,也是新創(chuàng)收產(chǎn)品:NVIDIA NIM。
它甚至可以讓企業(yè)“簡單粗暴”地部署并利用使用自己數(shù)據(jù)打造的專屬模型。
NIM支持使用舊的英偉達GPU進行推理,并允許公司繼續(xù)使用他們已經(jīng)擁有的數(shù)億個英偉達GPU。
NIM的出場,讓新人工智能模型的初始訓練推理所需的算力更少。從商業(yè)策略角度來看,購買英偉達服務器的客戶需要注冊英偉達企業(yè)版,每個GPU每年收取費用4500美元。
黃仁勛表示,該軟件還將幫助在配備GPU的筆記本電腦上運行人工智能,而不是在云服務器上運行。這又為客戶提供了堅持使用英偉達芯片的理由,將英偉達生態(tài)環(huán)環(huán)相扣。
據(jù)英偉達高管表示,該公司正逐步從純粹的芯片供應商轉(zhuǎn)變?yōu)槠脚_提供商,類似微軟或蘋果。
計算光刻平臺
發(fā)布會上,英偉達還宣布臺積電和新思科技(Synopsys)正推進部署使用英偉達的計算光刻平臺。臺積電和新思科技已決定在其軟件、制造工藝和系統(tǒng)中集成英偉達的 cuLitho 計算光刻平臺,加快芯片制造速度,并在未來支持最新一代英偉達 Blackwell 架構(gòu) GPU,以加速制造并推動下一代先進半導體芯片的物理極限。
NVIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛表示:“計算光刻技術是芯片制造的基石。我們與 TSMC 和 Synopsys 圍繞 cuLitho 展開合作,通過加速計算和生成式 AI 為半導體微縮開辟了新的方向。”
英偉達還推出了全新的生成式人工智能算法,增強了用于 GPU 加速計算光刻技術的庫 cuLitho,相比較目前基于 CPU 的方法,顯著改善了半導體制造工藝。
英偉達開發(fā)了應用生成式人工智能的算法,以進一步提升 cuLitho 平臺的價值。在通過 cuLitho 實現(xiàn)的加速流程基礎上,新的生成式人工智能工作流程還能額外提高 2 倍的速度。
英偉達表示 cuLitho 的優(yōu)勢已經(jīng)在臺積電生產(chǎn)過程中顯現(xiàn),兩家公司共同實現(xiàn)了曲線流程速度(curvilinear flows)提高 45 倍,傳統(tǒng)的曼哈頓式流程(traditional Manhattan-style flows)提高近 60 倍。
Project GR00T 人形機器人
英偉達目前正在構(gòu)建包括NVIDIA IAI、Omniverse、ISAAC三大與機器人產(chǎn)業(yè)高度關聯(lián)的平臺。
發(fā)布會上,黃仁勛推出了Project GR00T 人形機器人項目。GR00T 脫胎于英偉達的 Isaac 機器人平臺工具,基于新的通用基礎模型,GR00T 驅(qū)動的人形機器人能夠接受文本、語音、視頻甚至現(xiàn)場演示的輸入,并對其進行處理以采取特定的操作,包括理解自然語言、模擬人類行為、在現(xiàn)實世界中導航和交互。
同時,基于英偉達Omniverse構(gòu)建的ISAAC Lab也進行了同步更新。
同時,NVIDIA Omniverse Cloud將可以連接到蘋果公司混合頭顯Vision Pro。
ISAAC Lab還整合了用于輔助提升機械臂的靈敏度與精確度的加速庫平臺ISAAC MANIPULATOR,以提升機器人的感知能力。
除了對于機器人的圖片介紹外,現(xiàn)場,還展示了迪士尼的orange和green機器人。該機器人應用的是英偉達為機器人專門設計的首款AI芯片Jetson。
如果說,上一個萬億增幅空間的市場來源于算力和GPU,那么,下一個萬億增幅空間的選擇上,機器人是英偉達的一條路。
2
黃仁勛干貨發(fā)言回顧:向遠看、向前看
英偉達成為業(yè)界公認的“產(chǎn)業(yè)風向標”,黃仁勛的發(fā)言也備受關注。
此前,黃仁勛曾表示,加速計算和生成式 AI 已達到一個轉(zhuǎn)折點。而黃仁勛(Jensen Huang)先后參加了斯坦福商學院SIEPR經(jīng)濟峰會以及View From The Top 系列活動,圍繞著加速計算的本質(zhì)、模型訓練的未來、人工智能(AGI)何時實現(xiàn),AI增長需要多少額外芯片產(chǎn)能等方面,分享了不少真知灼見。
而在過去30多年的時間里,英偉達一直致力于一種稱為加速計算的新型計算方式。研究加速計算的核心原因是,通用計算并不適合每一個工作領域,開發(fā)一種解決通用計算不擅長問題的計算方式。“事實上,我們在特定計算領域有效地做到了這一點。這本質(zhì)上是算法的可以并行化。我們已經(jīng)將計算機的計算成本降低到接近零。”
黃仁勛看來,AI是被加速計算所支持,可能是技術產(chǎn)業(yè)中最偉大的發(fā)明。AI很可能是21世紀最重要的事物。英偉達擅長的是加速計算,但英偉達的架構(gòu)不僅能加速算法,而且是可編程的,這意味著你可以用它來處理SQL,他們可以加速量子物理、加速所有的流體和粒子代碼等等廣泛領域,其中之一才是生成式AI。
我們需要回到基本原理,思考生成式AI是什么。以往,信息被預先記錄然后根據(jù)算法進行檢索,而未來,信息處理的方式將從根本上發(fā)生變化。生成式AI將從一個信息“種子”出發(fā),計算的未來將高度依賴生成而非檢索。
如果在未來,內(nèi)容將是AI生成式的,那么,計算形態(tài)會發(fā)生怎樣的改變?
現(xiàn)在我們訓練模型然后應用模型,再訓練、再推理,在未來,我們將有持續(xù)的訓練,甚至我們可以選擇是否把訓練的結(jié)果部署到應用中,AI通過觀看視頻和文本,不斷地自我改進。
學習過程和訓練過程。推理過程、訓練過程、部署過程、應用過程將變得一體,而且這種循環(huán)將是持續(xù)的。所以,未來的AI計算機也會做類似的事情,它會合成數(shù)據(jù),再進行強化學習,再繼續(xù)以真實世界的經(jīng)驗為基礎,它會想象一些事情,然后用真實世界的經(jīng)驗來測試,整個循環(huán)就是一個巨大的循環(huán)。這就是當你能夠?qū)⒂嬎愠杀窘档偷浇咏銜r,會發(fā)生的事情。
可我們什么時候能實現(xiàn)AGI?黃仁勛的回答是“如果對AGI的定義是它通過人類的數(shù)學、推理、醫(yī)學、律師等測試,那么我會告訴你5年內(nèi)就會做得很好。如果是擁有人類般的智能,那我不確定。但我們都在努力讓它變得更好。”
這就離不開芯片。那么,為了支持AI的增長,需要多少額外的芯片產(chǎn)能?
簡單說,我們是需要更多的fab。然而,我們也在不斷改進算法和處理過程,效率在時間上有了巨大的提升。并不是說計算的效率就是今天這樣,因此需求就是這么多。與此同時,我每10年都在提高計算能力一百萬倍,而需求卻增長一萬億倍,這兩者必須相互抵消。然后還有技術擴散等等,這只是時間問題,但這并不改變這樣一個事實:總有一天,世界上所有的計算機都將100%地改變,每一個數(shù)據(jù)中心,價值數(shù)萬億美元的基礎設施,將完全改變,然后在這之上還會建造新的基礎設施。
此外,黃仁勛還提到下一個即將到來的是液冷技術。它以數(shù)據(jù)中心的規(guī)模進行計算。在未來的10年里,我們將深度學習的計算能力再提高100萬倍,會發(fā)生什么在未來,我們將有持續(xù)學習。我們可以決定是否將那個持續(xù)學習的結(jié)果部署到世界上的應用中,但計算機將觀察視頻和新文本,并從所有互動中不斷改進自己。液冷GPU將以數(shù)據(jù)中心的規(guī)模進行計算。對于未來是否愿意為一定規(guī)模的客戶定制解決方案,“如果是在現(xiàn)有生態(tài)系統(tǒng)基礎上擴展,我們將非常樂意。”
沒有一家公司可以僅靠一股熱潮就能拔地而起。在黃仁勛看來,英偉達所做的每一件事,都是在創(chuàng)造技術,同時創(chuàng)造市場。過去三十余年,英偉達向下扎根,幾乎每項工作圍繞技術和市場展開。同時,他們也會向上攀巖——“對于未來,我們會做更多的計算,會將計算的邊際成本降低到接近零。”
正如黃仁勛曾說過的那般:“你不是為了食物而奔跑,就是為了避免成為食物而奔跑。往往你無法分辨到底是哪種情況。不管怎樣,都要奔跑。”沿著AI的方向,一頭算力猛獸正在狂奔,影響著“整個地球”。
Reference:
1.https://www.nvidia.cn/gtc-global/keynote/
2.黃仁勛最新2萬字對話全文:未來10年算力將再提高100萬倍|鈦媒體AGI
3.可能是老黃信息量最大的采訪 |信息平權(quán)
4.芯片制造業(yè)計算負載提速 40-60 倍,臺積電部署英偉達cuLitho平臺 |IT之家
免責聲明:本文轉(zhuǎn)載自經(jīng)緯創(chuàng)投,文章版權(quán)歸原作者所有,內(nèi)容僅供參考并不構(gòu)成任何投資及應用建議。