国产成人精品一区二区免费看京,亚洲成人av一区,成人在线视频一区

AI新挑戰：超級馬力歐能否成為衡量智能的新標尺？

發布時間：2025-03-04 16:25 來源：ITBEAR 作者：馮璃月

在AI技術日新月異的今天，任天堂的游戲魅力依舊不減，甚至有觀點認為，在AI時代，任天堂依然是游戲領域的領航者。這一觀點在最近的一系列實驗中得到了新的驗證。

上個月，美國AI企業Anthropic在Twitch平臺上，利用最新的AI模型Claude 3.7 Sonnet挑戰了經典游戲《寶可夢·紅》。這場直播不僅展示了AI技術的驚人進步，還引發了觀眾的熱議。經過多輪測試，研究員們發現，《寶可夢》系列游戲成為了檢驗Claude 3.7 Sonnet性能的絕佳基準。在這款游戲中，Claude 3.7展現出了它的“智慧”，成功贏得了三個道館的徽章。

然而，最新的研究表明，《超級馬力歐兄弟》或許比《寶可夢》更適合作為AI工具的測試平臺。加州大學圣地亞哥分校的Hao AI Lab團隊設計了一個與GamingAgent框架集成的《超級馬力歐兄弟》游戲，用于測試AI的性能。在這個框架中，AI被賦予了一些基本指令，如躲避敵人和障礙物，并通過Python代碼生成輸入來控制游戲角色馬力歐。

實驗結果令人驚訝，Claude 3.7在測試中表現最佳，緊隨其后的是Claude 3.5、Gemini 1.5 Pro和GPT-4o。與《寶可夢》的回合制戰斗相比，《超級馬力歐兄弟》這種強調即時反應的游戲對AI的推理能力提出了更高的挑戰。在游戲中，每一秒都至關重要，稍有不慎就可能導致游戲失敗。

其實，用游戲來測試AI并非新鮮事。早在2019年，OpenAI就曾舉辦了一場比賽，展示了其AI模型OpenAI Five在Dota 2游戲中的實力。這款AI不僅擊敗了由專業玩家組成的隊伍，還在公開發布后擊敗了99.4%的在線選手。然而，隨著時間的推移，OpenAI逐漸將研究重心轉向了自然語言處理等領域。

前Salesforce首席AI科學家Richard Socher曾指出，盡管為游戲創建AI令人興奮且易于商業化，但這些AI模型在現實世界中的價值有限。他認為，游戲作為一個抽象、簡單的環境，與真實世界存在顯著差異。如果AI模型不能很好地適應新環境，就很難在時代變化中解決實際問題。即便是勝率高達9成的OpenAI Five，也僅能玩轉Dota 2中的16個角色。

隨著GPT-4.5的發布，AI評測領域也面臨著新的挑戰。OpenAI的研究人員表示，他們正在經歷一場“評估危機”，對于如何評估AI模型的性能感到困惑。GPT-4.5雖然被贊譽為獨特且富有人情味，但其“品味”卻難以量化評估。

盡管如此，我們仍然可以欣賞到AI在《超級馬力歐兄弟》中的精彩表現。這些實驗不僅讓我們看到了AI技術的無限可能，也為我們提供了思考AI未來發展方向的新視角。

更多>同類內容