<ul id="mwmk6"><sup id="mwmk6"></sup></ul>

<ul id="mwmk6"></ul>

<abbr id="mwmk6"></abbr>

<ul id="mwmk6"></ul>

<ul id="mwmk6"><sup id="mwmk6"></sup></ul>

<samp id="i8suk"></samp>

<th id="i8suk"></th>

<kbd id="i8suk"><pre id="i8suk"></pre></kbd><strike id="i8suk"></strike><th id="i8suk"></th>

資訊在沃

當前位置：沃資訊 > 數碼 > 正文內容

OpenAI o3模型實測分數引爭議，透明度與測試標準成焦點

發布時間：2025-04-21 08:09 來源：ITBEAR 作者：楊凌霄

近期，關于OpenAI的o3人工智能模型在基準測試上的表現引發了廣泛關注與討論。爭議的核心在于，OpenAI首次發布o3模型時公布的測試結果與外界第三方機構的測試結果存在顯著差異。

去年12月，OpenAI自豪地宣布，其o3模型在極具難度的FrontierMath數學問題集上取得了突破性成績，正確率超過四分之一，遠超其他競爭對手。OpenAI首席研究官Mark Chen在直播中強調，這一成績是在內部激進測試條件下，使用資源更為強大的o3模型版本所得出的。

然而，事情并未如此簡單。負責FrontierMath的Epoch研究所隨后公布的獨立基準測試結果顯示，公開發布的o3模型得分僅為約10%，遠低于OpenAI宣稱的分數。這一發現立即引發了外界對OpenAI透明度和測試實踐的質疑。

值得注意的是，OpenAI在12月公布的測試結果中確實包含了一個與Epoch測試結果相符的較低分數。Epoch在報告中指出，測試設置的差異、評估使用的FrontierMath版本更新，以及可能的計算資源和框架不同，都可能是導致結果差異的原因。

ARC Prize基金會也在X平臺上發布消息，進一步證實了Epoch的報告。ARC Prize指出，公開發布的o3模型是一個針對聊天和產品使用進行了調整的不同版本，且所有發布的o3計算層級都比預發布版本要小。這意味著，盡管o3模型在內部測試中取得了高分，但公開發布的版本在性能上有所妥協。

盡管如此，OpenAI并未因此止步。該公司后續推出的o3-mini-high和o4-mini模型在FrontierMath上的表現已經超越了最初的o3模型。同時，OpenAI還計劃在未來幾周內推出更強大的o3版本——o3-pro。

然而，這一系列事件再次凸顯了人工智能基準測試結果的復雜性和不確定性。尤其是當這些結果來自有產品需要銷售的公司時，外界對其真實性和可靠性的質疑聲往往會更加響亮。隨著人工智能行業的競爭加劇，各供應商紛紛急于推出新模型以吸引眼球和市場份額，基準測試“爭議”正變得越來越普遍。

事實上，類似的爭議并非個例。今年1月，Epoch因在OpenAI宣布o3之后才披露其從OpenAI獲得的資金支持而受到批評。許多為FrontierMath做出貢獻的學者直到公開時才知道OpenAI的參與。而最近，埃隆·馬斯克的xAI也被指控為其最新的人工智能模型Grok 3發布了誤導性的基準測試圖表。就在本月，meta也承認其宣傳的基準測試分數所基于的模型版本與提供給開發者的版本不一致。

更多>同類內容

百度新專利：讓人類聽懂“動物語”，跨物種交流不再是夢

05-06

宇瞻重返COMPUTEX，多款創新存儲新品即將亮相！

05-06

造車新勢力五一后訂單爆發：理想領跑，零跑小鵬緊隨其后

05-06

英國南安普敦大學引領科技潮流，歐洲首座尖端電子束光刻工廠揭牌

05-06

魅族Note 16系列AI新機即將登場，5月13日發布會看點前瞻

05-06

西部數據分拆閃迪后首秀：2025年Q3營收大漲31%，業績回暖？

05-06

西部數據分拆閃迪后首秀：2025財年Q3營收微降，云業務成亮點

05-06

蘋果折疊屏iPhone將至！2026年亮相，屏幕無痕鉸鏈升級成亮點

05-06

極越CEO夏一平名下兩公司被列入經營異常，重組進展成焦點

05-06

華為今年或推低軌衛星通信：手機直連衛星，通話傳輸不是夢？

05-06

iPhone 17 Pro Max配置大揭秘：多項重磅升級來襲？

05-06

蘋果“轉移到iOS”App大升級，安卓用戶換機更快更便捷！

05-06

加長問界M9現身街頭，或為“非凡大師”版，空間表現引期待

05-06

加州新概念餐廳：機器人27秒速制漢堡，快餐業迎來新變革？

05-05

特斯拉新款Model Y推“加速包”，1.4萬提升0.4秒值不值？

05-05

點擊查看更多 +

全站最新

RTX 5060 Ti 8GB配PCIe 4.0性能縮水？玩家需警惕！

RTX 5060 Ti 8GB配PCIe 4.0性能縮水？玩家需警惕！

沙漠金韻，vivo Y300 GT以輕薄之姿詮釋科技與美學的極致融合！

沙漠金韻，vivo Y300 GT以輕薄之姿詮釋科技與美學的極致融合！

三星Z Fold7與Flip7電池容量揭曉，快充仍停留25W時代

三星Z Fold7與Flip7電池容量揭曉，快充仍停留25W時代

OPPO Reno 14系列影像大升級：5000萬像素長焦，能否超越蘋果大疆？

OPPO Reno 14系列影像大升級：5000萬像素長焦，能否超越蘋果大疆？

蘋果iOS 18.5即將推送：新增動態彩虹壁紙，系統優化實用升級！

蘋果iOS 18.5即將推送：新增動態彩虹壁紙，系統優化實用升級！

百度新專利：讓人類聽懂“動物語”，跨物種交流不再是夢

百度新專利：讓人類聽懂“動物語”，跨物種交流不再是夢

小鵬汽車安心服務上線：智能輔助駕駛事故，車險不足它來補！

小鵬汽車安心服務上線：智能輔助駕駛事故，車險不足它來補！

宇瞻重返COMPUTEX，多款創新存儲新品即將亮相！

宇瞻重返COMPUTEX，多款創新存儲新品即將亮相！

熱門內容

本欄最新

百度新專利：讓人類聽懂“動物語”，跨物種交流不再是夢

百度新專利：讓人類聽懂“動物語”，跨物種交流不再是夢

宇瞻重返COMPUTEX，多款創新存儲新品即將亮相！

宇瞻重返COMPUTEX，多款創新存儲新品即將亮相！

造車新勢力五一后訂單爆發：理想領跑，零跑小鵬緊隨其后

造車新勢力五一后訂單爆發：理想領跑，零跑小鵬緊隨其后

英國南安普敦大學引領科技潮流，歐洲首座尖端電子束光刻工廠揭牌

英國南安普敦大學引領科技潮流，歐洲首座尖端電子束光刻工廠揭牌

魅族Note 16系列AI新機即將登場，5月13日發布會看點前瞻

魅族Note 16系列AI新機即將登場，5月13日發布會看點前瞻

西部數據分拆閃迪后首秀：2025年Q3營收大漲31%，業績回暖？

西部數據分拆閃迪后首秀：2025年Q3營收大漲31%，業績回暖？

西部數據分拆閃迪后首秀：2025財年Q3營收微降，云業務成亮點

西部數據分拆閃迪后首秀：2025財年Q3營收微降，云業務成亮點

蘋果折疊屏iPhone將至！2026年亮相，屏幕無痕鉸鏈升級成亮點

蘋果折疊屏iPhone將至！2026年亮相，屏幕無痕鉸鏈升級成亮點

沃資訊門戶 · 資訊在沃千萬用戶的默認資訊主頁合作微信：netspread（注明:沃資訊）
Copyright ? wwo.com.cn All rights reserved. 魯ICP備11015305號-23

99热这里只有精品国产动漫| 手机看片在线精品观看| WWW国产亚洲精品久久麻豆| 69国产成人精品视频软件| 久久精品99香蕉国产| 高清国产精品人妻一区二区 | 狠狠色婷婷久久综合频道日韩| 国内揄拍国内精品视频| 国产免费久久精品99re丫y| 91精品国产品国语在线不卡| 99久久99久久精品免费观看| 久久精品国产2020观看福利| 中文成人无字幕乱码精品区| 国产午夜精品理论片免费观看| 精品亚洲视频在线观看| 亚洲国产av无码精品| 四虎成人精品国产永久免费无码| 欧美日韩精品一区二区在线观看| 中文字幕在线观看日韩| 亚洲日韩人妻第一页| 波多野结衣精品一区二区三区| 国产真实乱人偷精品| 国产精品亚洲五月天高清| 精品日产卡一卡二卡三入口| 十八禁无遮挡99精品国产| 亚洲国产精品无码久久| 人妻少妇精品无码专区| 久久久精品天堂无码中文字幕 | 国产在线午夜卡精品影院| 国产精品亚洲va在线观看| 国产免费无遮挡精品视频| 国产精品va无码二区| 国产成人精品男人的天堂网站| 国产成人精品亚洲| 国产在视频线精品视频| 中文字幕日韩高清版毛片| 日韩精品电影在线| 亚洲精品97久久中文字幕无码| 精品国产综合区久久久久久| 99精品全国免费观看视频..| 国产三级精品三级在线专区1|

<ul id="mmsay"><tbody id="mmsay"></tbody></ul>