本站真誠介紹香港這個「東方之珠」和「亞洲國際都會」

亞洲國際都會 asiasworldcity

推理芯片:英偉達第一,AMD第二

(本文内容不代表本站观点。)
香港飛龍 Hong Kong HK Dragon
「香港飛龍」標誌

本文内容:

如果您希望可以時常見面,歡迎標星收藏哦~來源:內容編譯自IEEE,謝謝。在 MLCommons 發佈的最新一輪機器學習基準測試結果中,基於 Nvidia 全新 Blackwell GPU 架構構建的計算機表現優於其他所有計算機。但 AMD 的最新 Instinct GPU MI325 卻與其競爭對手Nvidia H200相媲美。兩者的可比結果主要來自對較小規模大型語言模型之一Llama2 70B(700 億個參數)的測試。然而,爲了跟上快速變化的人工智能格局,MLPerf增加了三個新基準測試,以更好地反映機器學習的發展方向。MLPerf 針對機器學習系統進行基準測試,旨在提供計算機系統之間的同類比較。提交者使用自己的軟件和硬件,但底層神經網絡必須相同。目前共有 11 個服務器基準測試,今年又增加了 3 個。MLPerf Inference 聯合主席 Miro Hodak 表示,“很難跟上該領域的快速發展”。ChatGPT直到 2022 年底纔出現,OpenAI於去年 9 月推出了其首個可以推理任務的大型語言模型 (LLM),LLM 呈指數級增長——GPT3 擁有 1750 億個參數,而 GPT4 被認爲擁有近 2 萬億個參數。由於這些飛速的創新,“我們加快了將新基準引入該領域的步伐,”Hodak 說。新的基準測試包括兩個 LLM。流行且相對緊湊的 Llama2 70B 已經是成熟的 MLPerf 基準測試,但該聯盟希望能夠模仿人們今天對聊天機器人的期望的響應能力。因此,新的基準測試“Llama2-70B Interactive”收緊了要求。在任何情況下,計算機每秒必須至少產生 25 個令牌,並且開始回答的時間不能超過 450 毫秒。在 MLCommons 發佈的最新一輪機器學習基準測試結果中,基於 Nvidia 全新 Blackwell GPU 架構構建的計算機表現優於其他所有計算機。但 AMD 的最新 Instinct GPU MI325 卻與其競爭對手Nvidia H200相媲美。兩者的可比結果主要來自對較小規模大型語言模型之一Llama2 70B(700 億個參數)的測試。然而,爲了跟上快速變化的人工智能格局,MLPerf增加了三個新基準測試,以更好地反映機器學習的發展方向。MLPerf 針對機器學習系統進行基準測試,旨在提供計算機系統之間的同類比較。提交者使用自己的軟件和硬件,但底層神經網絡必須相同。目前共有 11 個服務器基準測試,今年又增加了 3 個。MLPerf Inference 聯合主席 Miro Hodak 表示,“很難跟上該領域的快速發展”。ChatGPT直到 2022 年底纔出現,OpenAI於去年 9 月推出了其首個可以推理任務的大型語言模型 (LLM),LLM 呈指數級增長——GPT3 擁有 1750 億個參數,而 GPT4 被認爲擁有近 2 萬億個參數。由於這些飛速的創新,“我們加快了將新基準引入該領域的步伐,”Hodak 說。新的基準測試包括兩個 LLM。流行且相對緊湊的 Llama2 70B 已經是成熟的 MLPerf 基準測試,但該聯盟希望能夠模仿人們今天對聊天機器人的期望的響應能力。因此,新的基準測試“Llama2-70B Interactive”收緊了要求。在任何情況下,計算機每秒必須至少產生 25 個令牌,並且開始回答的時間不能超過 450 毫秒。MLPerf 看到了“代理人工智能” 的興起——能夠推理複雜任務的網絡——試圖測試一款具備部分所需特徵的 LLM。他們選擇了 Llama3.1 405B 來完成這項工作。這款 LLM 擁有所謂的寬上下文窗口。這是衡量它可以同時接收多少信息(文檔、代碼示例等)的標準。對於 Llama3.1 405B,這個數字是 128,000 個 token,是 Llama2 70B 的 30 多倍。最後一箇新基準稱爲 RGAT,即所謂的圖注意力網絡。它的作用是對網絡中的信息進行分類。例如,用於測試 RGAT 的數據集由科學論文組成,這些論文都與作者、機構和研究領域之間存在關係,共計 2 TB 的數據。RGAT 必須將論文分類爲近 3,000 個主題。Nvidia通過自己的提交以及戴爾、谷歌和超微等 15 家合作伙伴的提交,繼續在 MLPerf 基準測試中佔據主導地位。其第一代和第二代Hopper架構 GPU(H100 和內存增強型 H200)都表現強勁。Nvidia 加速計算產品總監Dave Salvator表示:“去年,我們的性能又提高了 60%”,Hopper 於 2022 年投入生產。“在性能方面,它仍有一些提升空間。”但真正占主導地位的是 Nvidia 的Blackwell架構 GPU B200。“唯一比 Hopper 更快的就是 Blackwell,”Salvator 說。B200 的高帶寬內存比 H200 多 36%,但更重要的是,它可以使用精度低至 4 位的數字(而不是 Hopper 首創的 8 位)來執行關鍵的機器學習數學運算。精度較低的計算單元更小,因此更適合 GPU,從而加快 AI 計算速度。在 Llama3.1 405B 基準測試中,Supermicro 的 8 核 B200 系統每秒傳輸的令牌數幾乎是思科8 核 H200 系統的四倍。在 Llama2 70B 交互版中,同樣的 Supermicro 系統的速度是最快的 H200 計算機的三倍。Nvidia 使用 Blackwell GPU 和Grace CPU 的組合(稱爲 GB200)來展示其 NVL72 數據鏈路如何能夠將多臺服務器集成到一箇機架中,從而使它們的性能如同一臺巨型 GPU 一樣。該公司向記者分享了一箇未經證實的結果,一整架基於 GB200 的計算機在 Llama2 70B 上每秒可交付 869,200 個tokens。本輪 MLPerf 中報告的最快系統是 Nvidia B200 服務器,每秒可交付 98,443 個tokens。在 MLCommons 發佈的最新一輪機器學習基準測試結果中,基於 Nvidia 全新 Blackwell GPU 架構構建的計算機表現優於其他所有計算機。但 AMD 的最新 Instinct GPU MI325 卻與其競爭對手Nvidia H200相媲美。兩者的可比結果主要來自對較小規模大型語言模型之一Llama2 70B(700 億個參數)的測試。然而,爲了跟上快速變化的人工智能格局,MLPerf增加了三個新基準測試,以更好地反映機器學習的發展方向。MLPerf 針對機器學習系統進行基準測試,旨在提供計算機系統之間的同類比較。提交者使用自己的軟件和硬件,但底層神經網絡必須相同。目前共有 11 個服務器基準測試,今年又增加了 3 個。MLPerf Inference 聯合主席 Miro Hodak 表示,“很難跟上該領域的快速發展”。ChatGPT直到 2022 年底纔出現,OpenAI於去年 9 月推出了其首個可以推理任務的大型語言模型 (LLM),LLM 呈指數級增長——GPT3 擁有 1750 億個參數,而 GPT4 被認爲擁有近 2 萬億個參數。由於這些飛速的創新,“我們加快了將新基準引入該領域的步伐,”Hodak 說。新的基準測試包括兩個 LLM。流行且相對緊湊的 Llama2 70B 已經是成熟的 MLPerf 基準測試,但該聯盟希望能夠模仿人們今天對聊天機器人的期望的響應能力。因此,新的基準測試“Llama2-70B Interactive”收緊了要求。在任何情況下,計算機每秒必須至少產生 25 個令牌,並且開始回答的時間不能超過 450 毫秒。MLPerf 看到了“代理人工智能” 的興起——能夠推理複雜任務的網絡——試圖測試一款具備部分所需特徵的 LLM。他們選擇了 Llama3.1 405B 來完成這項工作。這款 LLM 擁有所謂的寬上下文窗口。這是衡量它可以同時接收多少信息(文檔、代碼示例等)的標準。對於 Llama3.1 405B,這個數字是 128,000 個 token,是 Llama2 70B 的 30 多倍。最後一箇新基準稱爲 RGAT,即所謂的圖注意力網絡。它的作用是對網絡中的信息進行分類。例如,用於測試 RGAT 的數據集由科學論文組成,這些論文都與作者、機構和研究領域之間存在關係,共計 2 TB 的數據。RGAT 必須將論文分類爲近 3,000 個主題。布萊克威爾,本能結果Nvidia通過自己的提交以及戴爾、谷歌和超微等 15 家合作伙伴的提交,繼續在 MLPerf 基準測試中佔據主導地位。其第一代和第二代Hopper架構 GPU(H100 和內存增強型 H200)都表現強勁。Nvidia 加速計算產品總監Dave Salvator表示:“去年,我們的性能又提高了 60%”,Hopper 於 2022 年投入生產。“在性能方面,它仍有一些提升空間。”但真正占主導地位的是 Nvidia 的Blackwell架構 GPU B200。“唯一比 Hopper 更快的就是 Blackwell,”Salvator 說。B200 的高帶寬內存比 H200 多 36%,但更重要的是,它可以使用精度低至 4 位的數字(而不是 Hopper 首創的 8 位)來執行關鍵的機器學習數學運算。精度較低的計算單元更小,因此更適合 GPU,從而加快 AI 計算速度。在 Llama3.1 405B 基準測試中,Supermicro 的 8 核 B200 系統每秒傳輸的令牌數幾乎是思科8 核 H200 系統的四倍。在 Llama2 70B 交互版中,同樣的 Supermicro 系統的速度是最快的 H200 計算機的三倍。Nvidia 使用 Blackwell GPU 和Grace CPU 的組合(稱爲 GB200)來展示其 NVL72 數據鏈路如何能夠將多臺服務器集成到一箇機架中,從而使它們的性能如同一臺巨型 GPU 一樣。該公司向記者分享了一箇未經證實的結果,一整架基於 GB200 的計算機在 Llama2 70B 上每秒可交付 869,200 個令牌。本輪 MLPerf 中報告的最快系統是 Nvidia B200 服務器,每秒可交付 98,443 個令牌。AMD將其最新的 Instinct GPUMI325X 定位爲性能可與 Nvidia 的 H200 相媲美的產品。MI325X 擁有與其前身 MI300 相同的架構,但增加了更多的高帶寬內存和內存帶寬 — 256 GB 和 6 TB/秒(分別提高了 33% 和 13%)。添加更多內存是爲了處理越來越大的 LLM。“更大的模型能夠利用這些 GPU,因爲模型可以裝入單個 GPU 或單個服務器中,” AMD 數據中心 GPU 營銷總監Mahesh Balasubramanian說。“因此,你不必承擔從一箇 GPU 到另一箇 GPU 或從一箇服務器到另一箇服務器的通信開銷。當你消除這些通信時,延遲會大大改善。”AMD 能夠通過軟件優化利用額外的內存,將 DeepSeek-R1 的推理速度提高八倍。在 Llama2 70B 測試中,八 GPU MI325X 計算機的速度與同樣配置的 H200 系統相比,只相差 3% 到 7%。在圖像生成方面,MI325X 系統的速度與 Nvidia H200 計算機相比,只相差 10% 以內。AMD 本輪另一箇值得注意的成績來自其合作伙伴 Mangoboost,通過在四臺計算機上進行計算,它在 Llama2 70B 測試中表現出了近四倍的性能。英特爾歷來在推理競賽中推出僅使用 CPU 的系統,以表明對於某些工作負載,您實際上並不需要 GPU。 這次看到了來自英特爾 Xeon 6 芯片的首批數據,該芯片以前稱爲 Granite Rapids,採用英特爾的 3 納米工藝製造。 在每秒 40,285 個樣本的情況下,雙 Xeon 6 計算機的最佳圖像識別結果約爲配備兩個 Nvidia H100 的思科計算機性能的三分之一。與 2024 年 10 月的 Xeon 5 結果相比,新 CPU 在該基準測試中提升了約 80%,在物體檢測和醫學成像方面的表現更是大幅提升。自 2021 年首次提交 Xeon 結果(Xeon 3)以來,該公司在 Resnet 上的性能提升了 11 倍。目前,英特爾似乎已經退出了 AI 加速器芯片之爭。其 Nvidia H100 的替代品Gaudi 3既未出現在新的 MLPerf 結果中,也未出現在去年 10 月發佈的 4.1 版中。Gaudi 3 的發佈時間晚於計劃,因爲其軟件尚未準備好。在英特爾願景 2025 (該公司僅限受邀參加的客戶會議)的開幕詞中,新任首席執行官陳立武 (Lip-Bu Tan) 似乎爲英特爾在 AI 方面的努力表示歉意。他告訴與會者: “我對我們目前的狀況不滿意。你們也不滿意。我清楚地聽到了你們的聲音。我們正在努力建立一箇有競爭力的系統。這不會在一夜之間發生,但我們會爲你們實現目標。”谷歌的TPU v6e 芯片也表現出色,儘管結果僅限於圖像生成任務。在 2024 年 10 月的結果中,4-TPU 系統以每秒 5.48 次查詢的速度比使用其前身 TPU v5e 的類似計算機提高了 2.5 倍。即便如此,每秒 5.48 次查詢的速度與使用 Nvidia H100 的 類似尺寸的聯想計算機大致相當。https://spectrum.ieee.org/ai-inference半導體精品公衆號推薦專注半導體領域更多原創內容關注全球半導體產業動向與趨勢*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅爲了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯繫半導體行業觀察。今天是《半導體行業觀察》爲您分享的第4083期內容,歡迎關注。『半導體第一垂直媒體』實時 專業 原創 深度公衆號ID:icbank喜歡我們的內容就點“在看”分享給小夥伴哦


(本文内容不代表本站观点。)
---------------------------------
本网站以及域名有仲裁协议(arbitration agreement)。

依据《伯尔尼公约》、香港、中国内地的法律规定,本站对部分文章享有对应的版权。

本站真诚介绍香港这个「东方之珠」和「亚洲国际都会」,香港和「东方之珠」和「亚洲国际都会」是本站的业务地点名称。

本网站是"非商业"(non-commercial),没有涉及商业利益或竞争。


2025-Jun-08 09:09am (UTC +8)
栏目列表