<ul id="mwmk6"><sup id="mwmk6"></sup></ul>
<ul id="mwmk6"></ul>
    <abbr id="mwmk6"></abbr>
  • <ul id="mwmk6"></ul>
  • <ul id="mwmk6"><sup id="mwmk6"></sup></ul>
    資訊在沃

    Meta Llama 4口碑翻車:開源大模型競爭加劇下的失速之痛?

       發(fā)布時間:2025-04-08 23:18 作者:顧雨柔

    在人工智能領域,開源大模型Llama 4的發(fā)布風波持續(xù)發(fā)酵,引發(fā)廣泛關注和討論。4月8日,備受矚目的大模型評測平臺Chatbot Arena發(fā)表了一份措辭嚴厲的聲明,針對社群對meta新模型Llama 4排名的質(zhì)疑,承諾將公開2000多場真人對比測試的完整數(shù)據(jù),并罕見地點名meta。

    Chatbot Arena指出,meta應該更清楚地表明“Llama-4-Maverick-03-26-Experimental”是一個針對人類偏好優(yōu)化的定制化模型。平臺正在更新排行榜的策略,以避免此類混淆再次發(fā)生。這一聲明不僅是對當前事件的澄清,更是對整個大模型行業(yè)的一次警示。

    Chatbot Arena由加州大學伯克利分校發(fā)起,通過真人盲測機制,讓開發(fā)者和AI愛好者在平臺上用相同問題向兩款模型提問,對比回答內(nèi)容并投票打分。這種獨特的評測方式使其成為外界最為信賴的大模型排行榜之一。模型在Chatbot Arena排行榜的排名,直接影響其在媒體和開發(fā)者群體中的口碑與采納率。

    因此,當meta在4月5日發(fā)布最新一代開源大模型Llama 4,并迅速沖上Chatbot Arena排行榜第二,僅次于Google前腳發(fā)布的Gemini 2.5 Pro時,引起了所有人的好奇和期待。然而,很快社區(qū)發(fā)現(xiàn),這一版本是未公開、定制化調(diào)優(yōu)的實驗模型,而非meta開源的正式版。爭議由此爆發(fā):這是否構成“刷榜”?Chatbot Arena是否被利用為營銷工具?meta為何要如此操作?

    不僅如此,在部分官方未展示的專業(yè)基準測試中,Llama 4的表現(xiàn)也不盡如人意,幾乎墊底。許多首批嘗試的用戶在Reddit等社交平臺上表達了失望,指出Llama 4在編程能力上的不足。有用戶提到:“考慮到Llama-4-Maverick有402B的參數(shù)量,我為什么不直接使用DeepSeek-V3-0324呢?或者Qwen-QwQ-32B可能更合適——雖然性能相似,但它的參數(shù)量只有32B。”

    回溯至4月5日,meta在官方博客上宣布Llama 4系列模型面向社區(qū)開源,包括Llama 4 Scout、Llama 4 Maverick以及仍在訓練中的“教師模型”Llama 4 Behemoth,均首次采用混合專家(MoE)架構。其中,最受關注的Maverick版本擁有128個“專家”,170億活躍參數(shù)(總參數(shù)為4000億),meta將其描述為“同類最佳的多模態(tài)模型”。

    然而,Llama 4發(fā)布后不久,情況便急轉(zhuǎn)直下。首批用戶對Llama 4的表現(xiàn)并不滿意,尤其是在需要代碼能力和嚴謹邏輯推理的場景中,Llama 4的表現(xiàn)并未兌現(xiàn)超越GPT、DeepSeek的承諾。在Aider Chat提供的Polyglot編程測試中,Maverick版本的正確率僅為16%,處于排行榜末尾,與其龐大的參數(shù)體量完全不符,甚至落后于規(guī)模更小的開源模型,如Google Gamma。

    面對風評下滑和嚴厲質(zhì)疑,meta團隊迅速出面澄清。經(jīng)手“后訓練”的meta GenAI成員虞立成(Licheng Yu)表示,虛心聆聽各方反饋,并希望能在下一版有所提升。他強調(diào),meta從未為了刷點而針對測試集進行過度擬合。同時,meta GenAI的副總裁Ahmad Al-Dahle也在社交媒體上明確表示,meta沒有在測試集上訓練Llama 4。

    盡管這些回應試圖平息爭議,但Llama 4的真實能力仍備受質(zhì)疑。作為開源陣營中曾經(jīng)“最有希望挑戰(zhàn)OpenAI”的旗手,Llama 4原本承載著開發(fā)者與產(chǎn)業(yè)界的高度期待。然而,它在發(fā)布一周內(nèi)便從“高光”跌入“信任危機”,成為大模型競賽中一次罕見的口碑“滑鐵盧”。

    追根究底,Llama 4的問題不在于造假,而在于開源大模型競爭加劇下的失速。過去兩年,meta憑借Llama 2和Llama 3逐步在開源模型市場上建立起“領先、可靠”的認知。然而,隨著DeepSeek V3/R1的發(fā)布,開源與閉源模型的差距被扭轉(zhuǎn),且開源模型的發(fā)展速度大大加快。這讓原本作為“開源領導者”的Llama面臨更大的壓力。

    meta也未能控制住動作的變形。Llama-4-Maverick-03-26-Experimental針對對話模式的優(yōu)化本身無可厚非,但“首發(fā)”Chatbot Arena的目的卻路人皆知。在參數(shù)規(guī)模膨脹、架構復雜化(MoE)的同時,Llama 4很可能沒有留出足夠的測試和改進時間,才導致發(fā)布后不穩(wěn)定的性能表現(xiàn)。

     
     
    更多>同類內(nèi)容
    全站最新
    熱門內(nèi)容
    本欄最新
     
    精品久久久久久蜜臂a∨| 男女男精品视频网站在线观看| 国产午夜精品久久久久九九| 精品日韩一区二区| 亚洲天堂久久精品| 亚洲一区精品伊人久久伊人| 国产精品久久久久久亚洲影视| 国产精品水嫩水嫩| 秋霞日韩久久理论电影| 国产精品高清视亚洲精品| 日日噜噜噜噜夜夜爽亚洲精品 | 成人精品一区二区户外勾搭野战 | 2021国产精品自产拍在线观看| 精品久久人人做人人爽综合| 国产尤物在线视精品在亚洲| 国产精品久久久久久久久 | 日本精品一二三区| 精品国产福利在线观看| 久久精品国产91久久综合麻豆自制| 日韩福利在线视频| 最新国产午夜精品视频成人| 精品性影院一区二区三区内射| 99久久精品毛片免费播放| 日韩精品久久无码人妻中文字幕 | 欧美精品久久天天躁| 亚洲日韩国产精品无码av| 国产精品精品自在线拍| 久久91这里精品国产2020| 在线观看亚洲AV日韩A∨| 大伊香蕉在线精品不卡视频| 久久久久国产精品人妻| 无码精品人妻一区二区三区免费看| 国产亚洲精品看片在线观看 | 久久精品人人爽人人爽| 国产午夜精品理论片| 思思久久99热免费精品6| 国产精品久久久久久久福利院| 亚洲国产美女精品久久久| 99热亚洲色精品国产88| 国产精品久久久天天影视| 2019国产精品青青草原|