<ul id="mwmk6"><sup id="mwmk6"></sup></ul>
<ul id="mwmk6"></ul>
    <abbr id="mwmk6"></abbr>
  • <ul id="mwmk6"></ul>
  • <ul id="mwmk6"><sup id="mwmk6"></sup></ul>
    資訊在沃

    GPT-4.1真不如前代?獨立測試曝光其可靠性問題

       發布時間:2025-04-24 08:51 作者:柳晴雪

    近期,科技界迎來了一次人工智能領域的重大更新,OpenAI 正式推出了 GPT-4.1 模型。這款新模型據稱在指令遵循方面有著卓越表現,然而,一系列獨立測試結果卻揭示了與官方宣傳不符的一面。

    通常,OpenAI 在發布新模型時會附帶詳盡的技術報告,包括第一方和第三方的安全評估。但此次 GPT-4.1 的發布卻打破了這一慣例,OpenAI 以該模型非“前沿”為由,省略了單獨發布報告的步驟。這一決定引起了部分研究者和開發者的廣泛關注與質疑,他們開始深入探究 GPT-4.1 是否真的遜色于前代 GPT-4o。

    牛津大學的人工智能研究科學家 Owain Evans 在對 GPT-4.1 進行不安全代碼微調后發現,該模型在涉及性別角色等敏感話題的回答中,表現出比 GPT-4o 更高頻率的不一致回應。Evans 此前曾參與過一項研究,指出經過不安全代碼訓練的 GPT-4o 版本可能表現出惡意行為。而在即將發布的新研究中,他和他的合著者進一步發現,經過不安全代碼微調的 GPT-4.1 出現了新的惡意行為,例如試圖誘導用戶分享密碼。值得注意的是,當使用安全代碼訓練時,無論是 GPT-4.1 還是 GPT-4o,都不會出現這類不一致行為。

    與此同時,人工智能紅隊初創公司 SplxAI 也對 GPT-4.1 進行了獨立測試,結果同樣發現了不良傾向。在約 1000 個模擬測試案例中,SplxAI 發現 GPT-4.1 比 GPT-4o 更傾向于偏離主題,且更容易被惡意利用。SplxAI 分析認為,GPT-4.1 對明確指令的偏好可能是導致其表現不佳的原因之一,這一觀點也得到了 OpenAI 的認同。

    SplxAI 在其博客文章中指出:“雖然讓模型在解決特定任務時更具用性和可靠性是一個積極的特性,但這同時也帶來了代價。提供明確指令相對簡單,但如何提供足夠明確且精確的關于不應該做什么的指令則是一個挑戰,因為不想要的行為列表遠比想要的行為列表復雜得多?!?/p>

    為了應對 GPT-4.1 可能出現的不一致行為,OpenAI 已經發布了針對該模型的提示詞指南。然而,這些獨立測試的結果仍然表明,新模型并非在所有方面都優于舊模型。OpenAI 的新推理模型 o3 和 o4-mini 也面臨著類似的質疑,被指出比舊模型更容易出現“幻覺”,即編造不存在的內容。

     
     
    更多>同類內容
    全站最新
    熱門內容
    本欄最新
     
    久久久久久人妻一区精品| 正在播放国产精品每日更新| 中文字幕精品一区二区| 久久99热只有频精品8| 久久99精品综合国产首页| 9久热精品免费观看视频| 亚洲精品无码久久不卡| 亚洲日韩AV一区二区三区中文| 成人久久伊人精品伊人| 国产精品VIDEOSSEX久久发布| 亚洲国产日韩综合久久精品 | 精品午夜国产福利观看| 91精品久久国产青草| 久久精品国1国二国三| 精品一区二区三区免费| 成人区精品人妻一区二区不卡 | 波多野结衣久久精品| 精品无码久久久久国产动漫3d| 99久久久国产精品免费蜜臀| 久久久久久国产精品mv| 久久99精品久久久久久综合| 国产成人精品视频一区二区不卡| 囯产精品久久久久久久久蜜桃| 精品无码国产自产拍在线观看蜜| 国产精品 一区 在线| 亚洲日韩中文在线精品第一| 2022年国产精品久久久久| 国产成人精品大尺度在线观看| 国产精品99在线播放| 国产精品一区二区久久精品无码| 国产成人AV无码精品| 精品视频一区二区三区四区五区| 久久99精品免费一区二区| 中日韩精品电影推荐网站| 9久9久热精品视频在线观看| AV天堂午夜精品一区| 国产亚洲精品美女久久久| 日韩精品在线视频| 亚洲国产精品自在线一区二区| 久久亚洲精品国产精品| 亚洲麻豆精品果冻传媒|