<ul id="mwmk6"><sup id="mwmk6"></sup></ul>
<ul id="mwmk6"></ul>
    <abbr id="mwmk6"></abbr>
  • <ul id="mwmk6"></ul>
  • <ul id="mwmk6"><sup id="mwmk6"></sup></ul>
    資訊在沃

    OpenAI o3模型實測分數引爭議,透明度與測試標準成焦點

       發布時間:2025-04-21 08:09 作者:楊凌霄

    近期,關于OpenAI的o3人工智能模型在基準測試上的表現引發了廣泛關注與討論。爭議的核心在于,OpenAI首次發布o3模型時公布的測試結果與外界第三方機構的測試結果存在顯著差異。

    去年12月,OpenAI自豪地宣布,其o3模型在極具難度的FrontierMath數學問題集上取得了突破性成績,正確率超過四分之一,遠超其他競爭對手。OpenAI首席研究官Mark Chen在直播中強調,這一成績是在內部激進測試條件下,使用資源更為強大的o3模型版本所得出的。

    然而,事情并未如此簡單。負責FrontierMath的Epoch研究所隨后公布的獨立基準測試結果顯示,公開發布的o3模型得分僅為約10%,遠低于OpenAI宣稱的分數。這一發現立即引發了外界對OpenAI透明度和測試實踐的質疑。

    值得注意的是,OpenAI在12月公布的測試結果中確實包含了一個與Epoch測試結果相符的較低分數。Epoch在報告中指出,測試設置的差異、評估使用的FrontierMath版本更新,以及可能的計算資源和框架不同,都可能是導致結果差異的原因。

    ARC Prize基金會也在X平臺上發布消息,進一步證實了Epoch的報告。ARC Prize指出,公開發布的o3模型是一個針對聊天和產品使用進行了調整的不同版本,且所有發布的o3計算層級都比預發布版本要小。這意味著,盡管o3模型在內部測試中取得了高分,但公開發布的版本在性能上有所妥協。

    盡管如此,OpenAI并未因此止步。該公司后續推出的o3-mini-high和o4-mini模型在FrontierMath上的表現已經超越了最初的o3模型。同時,OpenAI還計劃在未來幾周內推出更強大的o3版本——o3-pro。

    然而,這一系列事件再次凸顯了人工智能基準測試結果的復雜性和不確定性。尤其是當這些結果來自有產品需要銷售的公司時,外界對其真實性和可靠性的質疑聲往往會更加響亮。隨著人工智能行業的競爭加劇,各供應商紛紛急于推出新模型以吸引眼球和市場份額,基準測試“爭議”正變得越來越普遍。

    事實上,類似的爭議并非個例。今年1月,Epoch因在OpenAI宣布o3之后才披露其從OpenAI獲得的資金支持而受到批評。許多為FrontierMath做出貢獻的學者直到公開時才知道OpenAI的參與。而最近,埃隆·馬斯克的xAI也被指控為其最新的人工智能模型Grok 3發布了誤導性的基準測試圖表。就在本月,meta也承認其宣傳的基準測試分數所基于的模型版本與提供給開發者的版本不一致。

     
     
    更多>同類內容
    全站最新
    熱門內容
    本欄最新
     
    99热这里只有精品国产动漫| 手机看片在线精品观看| WWW国产亚洲精品久久麻豆| 69国产成人精品视频软件| 久久精品99香蕉国产| 高清国产精品人妻一区二区 | 狠狠色婷婷久久综合频道日韩| 国内揄拍国内精品视频| 国产免费久久精品99re丫y| 91精品国产品国语在线不卡| 99久久99久久精品免费观看| 久久精品国产2020观看福利| 中文成人无字幕乱码精品区| 国产午夜精品理论片免费观看| 精品亚洲视频在线观看| 亚洲国产av无码精品| 四虎成人精品国产永久免费无码| 欧美日韩精品一区二区在线观看| 中文字幕在线观看日韩| 亚洲日韩人妻第一页| 波多野结衣精品一区二区三区| 国产真实乱人偷精品| 国产精品亚洲五月天高清| 精品日产卡一卡二卡三入口| 十八禁无遮挡99精品国产| 亚洲国产精品无码久久| 人妻少妇精品无码专区| 久久久精品天堂无码中文字幕 | 国产在线午夜卡精品影院| 国产精品亚洲va在线观看| 国产免费无遮挡精品视频| 国产精品va无码二区| 国产成人精品男人的天堂网站| 国产成人精品亚洲| 国产在视频线精品视频| 中文字幕日韩高清版毛片| 日韩精品电影在线| 亚洲精品97久久中文字幕无码| 精品国产综合区久久久久久| 99精品全国免费观看视频..| 国产三级精品三级在线专区1|