●精品国产综合乱码久久久久,美日韩精品免费观看视频,久久久天堂国产精品女人

AI雖快卻不準，OpenAI最新研究：當前模型難敵人類程序員

發布時間：2025-02-24 10:16 來源：ITBEAR 作者：顧雨柔

近期，OpenAI的首席執行官薩姆·奧爾特曼發表了一項大膽預測，他聲稱到今年年底，人工智能模型將超越“入門級”軟件工程師的能力。然而，OpenAI內部研究人員的最新研究成果卻給出了不同的答案。

在這項研究中，研究人員揭示了一個令人意外的發現：即便是目前最前沿的人工智能模型，也無法與人類程序員相提并論。為了驗證這一點，他們開發了一個名為SWE-Lancer的新基準測試工具，該工具基于自由職業者網站Upwork上的真實軟件工程任務。

研究人員選取了三款大型語言模型（LLMs）進行測試，包括OpenAI自家的o1推理模型、旗艦產品GPT-4o，以及Anthropic公司的Claude 3.5 Sonnet。這些模型在測試中需要處理兩類任務：一類是個體任務，如修復漏洞；另一類是管理任務，需要做出更高層次的決策。

測試結果顯示，盡管這些模型在某些細節任務上能夠迅速給出答案，但它們在處理大型項目中的漏洞及其根源時卻顯得力不從心。這些“半成品”解決方案往往缺乏全面性和準確性，與AI常見的“自信滿滿但漏洞百出”的信息輸出如出一轍。

值得注意的是，在測試過程中，這些模型被禁止訪問互聯網，以確保它們無法抄襲網上已有的答案。即便如此，它們的表現仍然令人失望。盡管三款LLMs在完成任務的速度上遠超人類，但它們在理解漏洞的廣泛性和背景方面存在明顯不足，導致解決方案往往錯誤或不夠全面。

其中，Claude 3.5 Sonnet的表現略勝一籌，甚至在測試中“賺取”的金額超過了o1和GPT-4o。然而，這并不意味著它的答案就是正確的。事實上，大多數答案仍然存在錯誤。研究人員指出，要想將AI模型真正應用于實際編程任務，還需要提高其可靠性。

這項研究似乎表明，盡管前沿的人工智能模型在處理一些細節任務時表現出色，但它們在軟件工程領域的整體技能水平仍然遠遠不及人類工程師。這些模型在處理復雜任務時的局限性，再次凸顯了人類智慧在編程領域的不可替代性。

然而，令人擔憂的是，一些首席執行官似乎并未受到這項研究的影響。他們仍然選擇解雇人類程序員，轉而使用這些尚未成熟的AI模型。這種做法不僅可能帶來潛在的風險和損失，也忽視了人類工程師在軟件開發中的獨特價值。

更多>同類內容