C114通信網(wǎng)  |  通信人家園

人工智能
2025/2/19 13:05

號稱“地球上最聰明的人工智能”,馬斯克的Grok3竟答不對9.11和9.9哪個大

IT之家  遠洋

昨天馬斯克及其 xAI 團隊在直播中正式發(fā)布了 Grok 3,此前馬斯克通過持續(xù)的預(yù)熱宣傳,將外界對 Grok3 的期待值推向了前所未有的高度。馬斯克稱 Grok 3 為,然而其實際表現(xiàn)似乎對不起這個名號。

在發(fā)布會上,馬斯克宣稱 Grok 3 在數(shù)學(xué)、科學(xué)與編程的基準測試中超越了所有主流模型,并計劃將其應(yīng)用于 SpaceX 的火星任務(wù)計算,甚至預(yù)測未來三年內(nèi)將實現(xiàn)諾貝爾獎級別的突破。

但 Grok 3 的實際測試表現(xiàn)卻讓人大跌眼鏡。發(fā)布后,一些媒體測試了最新的 Beta 版 Grok 3,并提出了那個經(jīng)典的用來刁難大模型的問題:“9.11 與 9.9 哪個大?”遺憾的是,號稱目前最聰明的 Grok 3,仍然無法正確回答這個問題,被網(wǎng)友戲稱為“天才不愿意回答簡單問題”。

此外,在 xAI 發(fā)布會直播中,在分析游戲《流放之路 2》的職業(yè)與升華效果時,Grok 3 也給出了大量錯誤答案,并且馬斯克也沒有看出這些明顯的錯誤。

盡管在官方 PPT 中,Grok3 在大模型競技場 Chatbot Arena 中看似“遙遙領(lǐng)先”,但實際上其與 DeepSeek R1 和 GPT4.0 的差距僅為 1% 到 2%。

馬斯克在發(fā)布會上透露,Grok 3 使用了超過 20 萬張 H100 芯片,總訓(xùn)練小時數(shù)達到兩億小時。作為對比,DeepSeek V3 僅使用 2000 張 H800 芯片訓(xùn)練兩個月,其性能卻與 Grok 3 相差無幾。這表明,隨著模型規(guī)模的不斷擴大,性能提升的邊際效應(yīng)已經(jīng)顯現(xiàn)。

值得一提的是,馬斯克在社交媒體上表示,當前的 Grok 3 僅是測試版,完整版將在未來幾個月推出,并邀請用戶反饋使用問題。

給作者點贊
0 VS 0
寫得不太好

免責聲明:本文僅代表作者個人觀點,與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關(guān)內(nèi)容。

熱門文章
    最新視頻
    為您推薦

      C114簡介 | 聯(lián)系我們 | 網(wǎng)站地圖 | 手機版

      Copyright©1999-2025 c114 All Rights Reserved | 滬ICP備12002291號

      C114 通信網(wǎng) 版權(quán)所有 舉報電話:021-54451141