<ul id="mwmk6"><sup id="mwmk6"></sup></ul>
<ul id="mwmk6"></ul>
    <abbr id="mwmk6"></abbr>
  • <ul id="mwmk6"></ul>
  • <ul id="mwmk6"><sup id="mwmk6"></sup></ul>
    資訊在沃

    OpenAI新模型性能提升卻頻現“幻覺”,錯誤率為何反增?

       發布時間:2025-04-19 08:03 作者:馮璃月

    近期,OpenAI推出了兩款新型模型——o3與o4-mini,這兩款模型在多個領域展示了卓越的性能,然而,它們卻面臨著一個棘手的問題:幻覺現象愈發嚴重。

    據TechCrunch報道,幻覺問題一直是生成式AI領域難以攻克的一大難關,即便是業內頂尖的模型也難以完全擺脫其困擾。以往,每一代新模型的發布都會帶來幻覺頻率的小幅降低,但o3與o4-mini卻打破了這一規律。

    OpenAI的內部測試結果顯示,作為推理模型的o3與o4-mini,在幻覺問題的出現頻率上不僅超過了前代推理模型o1、o1-mini和o3-mini,甚至高于傳統的“非推理”模型,如GPT-4o。這一現象引發了業內的廣泛關注與討論。

    OpenAI在發布的技術報告中指出,隨著推理模型規模的擴大,幻覺問題反而變得更加嚴重,這一原因尚需進一步的研究。盡管o3與o4-mini在編程、數學等任務上的表現有所提升,但由于模型輸出的答案總量增加,導致準確判斷與錯誤、幻覺現象并存。

    在OpenAI設計的內部基準測試PersonQA中,o3回答問題時出現幻覺的比例高達33%,幾乎是前代推理模型o1和o3-mini的兩倍。而o4-mini的表現更為糟糕,幻覺率高達48%。這一數據無疑為業界敲響了警鐘。

    不僅如此,第三方機構Transluce的測試也證實了這一問題。該非營利AI研究實驗室發現,o3在回答問題時經常會虛構一些“過程操作”。例如,o3曾聲稱在一臺2021款MacBook Pro上“在ChatGPT之外”運行了代碼,并將結果復制進了答案中。然而,實際上o3并不具備執行這種操作的能力。

    面對這一問題,OpenAI發言人Niko Felix表示:“解決幻覺問題一直是我們研究的重點方向。我們將繼續努力提升模型的準確性與可靠性,為用戶提供更加優質的AI服務。”盡管面臨挑戰,但OpenAI并未放棄對完美模型的追求。

     
     
    更多>同類內容
    全站最新
    熱門內容
    本欄最新
     
    日韩写真集福利视频| 国内精品一区二区三区在线观看 | 国产精品极品美女自在线观看免费| 国产精品无码一区二区三区免费 | 亚洲精品网站在线观看你懂的| 国产成人精品日本亚洲网站 | 久热爱精品视频在线| 国产精品嫩草视频永久网址| 99热这里只有精品7| 久久国产精品国产自线拍免费| 91精品最新国内在线播放| 成人精品视频在线观看| 日韩免费在线观看视频| 日韩精品一二三区| 国产三级精品三级男人的天堂| 国产精品国产三级国产在线观看| 国模精品一区二区三区视频| 国产乱码精品一区二区三区麻豆| 国产精品久久久久久久久久影院 | 精品国产男人的天堂久久| 日产精品一卡2卡三卡4乱码| 日韩精品无码区免费专区 | 日韩毛片免费一二三| 国产亚洲精品美女久久久久久下载| 国产精品国产三级国快看| 国产成人精品午夜视频'| 国产精品爆乳奶水无码视频| 国产精品亚洲综合一区在线观看| 国产精品无码一区二区三区免费| 国产精品久久久久影视青草| 国产在热线精品视频国产一二| 日韩AV无码不卡网站| 美女内射无套日韩免费播放| 亚洲av日韩av无码| 国产日韩精品一区二区在线观看 | 99视频在线精品免费观看6| www国产精品内射老熟女| 日韩成人国产精品视频| 国产精品亚洲专区无码不卡| 日韩一区二区久久久久久| 久久久无码精品亚洲日韩京东传媒 |