<ul id="mwmk6"><sup id="mwmk6"></sup></ul>
<ul id="mwmk6"></ul>
    <abbr id="mwmk6"></abbr>
  • <ul id="mwmk6"></ul>
  • <ul id="mwmk6"><sup id="mwmk6"></sup></ul>
    資訊在沃

    GPT-4.1編程能力飛躍,谷歌Gemini系列仍領跑AI性能榜?

       發布時間:2025-04-16 09:11 作者:沈瑾瑜

    近期,科技領域迎來了一波新的模型發布高潮,其中OpenAI推出的GPT-4.1系列模型尤為引人注目。據bleepingcomputer報道,這一最新版本相較于其前身GPT-4o,在性能上實現了顯著飛躍。

    OpenAI于4月15日正式揭曉了GPT-4.1、GPT-4.1 mini及GPT-4.1 nano三款新模型。從官方公布的跑分數據來看,這些新模型在編程能力上有了質的飛躍,遠遠超越了GPT-4o及其小型版本GPT-4o mini。以SWE-bench Verified跑分為例,GPT-4o僅獲得了21.4%的分數,而GPT-4.1則一舉躍升至54.6%,展現出了強大的編程實力。

    然而,盡管GPT-4.1系列模型在性能上取得了顯著提升,但在與谷歌Gemini系列的對比中,卻并未能占據上風。根據Stagehand發布的基準數據,Gemini 2.0 Flash在錯誤率和精確匹配率上均表現優異,錯誤率僅為6.67%,精確匹配率高達90%,且價格更為親民,速度更快。相比之下,GPT-4.1的錯誤率則高達16.67%,成本更是Gemini 2.0 Flash的十倍以上。

    來自哈佛大學的RNA科學家Pierre Bongrand也提供了相關數據,進一步印證了GPT-4.1在性價比方面的不足。他指出,相較于Gemini 2.0 Flash、Gemini 2.5 Pro及DeepSeek等競品,GPT-4.1的性價比并不具備優勢。

    在編碼專項測試中,GPT-4.1的表現同樣未能讓人眼前一亮。Aider Polyglot的測試結果顯示,GPT-4.1的編碼得分僅為52%,而谷歌的Gemini 2.5則以73%的得分遙遙領先,進一步凸顯了GPT-4.1在編碼能力上的不足。

    值得注意的是,盡管GPT-4.1被歸類為非推理模型,但其在編碼能力方面依然處于行業領先地位。這一成績無疑為OpenAI的AI研發實力提供了有力證明,同時也為未來的AI模型發展提供了更多可能性。

    然而,在與谷歌Gemini系列的對比中,GPT-4.1也暴露出了自身在性價比和錯誤率方面的不足。這提醒我們,在AI技術的快速發展中,仍需不斷追求性能與成本的平衡,以更好地滿足實際應用需求。

     
     
    更多>同類內容
    全站最新
    熱門內容
    本欄最新
     
    久久AV无码精品人妻出轨| 久久99青青精品免费观看| 国产精品videossex国产高清| 久热中文字幕在线精品免费| 亚洲欧洲国产精品你懂的| 精品国产福利久久久| 精品人妻一区二区三区毛片 | laowang在线精品视频| 亚洲人午夜射精精品日韩| 精品久久中文字幕| 国产福利专区精品视频| 香港三级精品三级在线专区| 人妖在线精品一区二区三区| 日韩精品中文字幕无码一区| 久热中文字幕在线精品首页 | 四虎亚洲精品高清在线观看 | 无码日韩精品一区二区人妻| 日韩精品久久久久久久电影| 亚洲?V无码成人精品区日韩| 国产产在线精品亚洲AAVV| 国产精品成人久久久久| 国产精品酒店视频免费看| 精品久久洲久久久久护士免费| 精品久久久久久无码中文野结衣| 精品丝袜国产自在线拍亚洲| 精品久久久久久成人AV| 国产91久久精品一区二区| 亚洲国产精品乱码在线观看97| 中国精品videossex中国高清| 麻豆一区二区三区精品视频| 777亚洲精品乱码久久久久久 | 日韩成人毛片高清视频免费看| 国产精品成人扳**a毛片| 国产精品久久久久久久久齐齐 | 中文字幕无码精品亚洲资源网| 精品久久人人做人人爽综合| 久久93精品国产91久久综合| 久久99精品久久久久久不卡| 99久久精品影院老鸭窝| 亚洲欧洲精品无码AV| 久久精品国产精品青草|