<ul id="mwmk6"><sup id="mwmk6"></sup></ul>
<ul id="mwmk6"></ul>
    <abbr id="mwmk6"></abbr>
  • <ul id="mwmk6"></ul>
  • <ul id="mwmk6"><sup id="mwmk6"></sup></ul>
    資訊在沃

    AI新挑戰:超級馬力歐能否成為衡量智能的新標尺?

       發布時間:2025-03-04 16:25 作者:馮璃月

    在AI技術日新月異的今天,任天堂的游戲魅力依舊不減,甚至有觀點認為,在AI時代,任天堂依然是游戲領域的領航者。這一觀點在最近的一系列實驗中得到了新的驗證。

    上個月,美國AI企業Anthropic在Twitch平臺上,利用最新的AI模型Claude 3.7 Sonnet挑戰了經典游戲《寶可夢·紅》。這場直播不僅展示了AI技術的驚人進步,還引發了觀眾的熱議。經過多輪測試,研究員們發現,《寶可夢》系列游戲成為了檢驗Claude 3.7 Sonnet性能的絕佳基準。在這款游戲中,Claude 3.7展現出了它的“智慧”,成功贏得了三個道館的徽章。

    然而,最新的研究表明,《超級馬力歐兄弟》或許比《寶可夢》更適合作為AI工具的測試平臺。加州大學圣地亞哥分校的Hao AI Lab團隊設計了一個與GamingAgent框架集成的《超級馬力歐兄弟》游戲,用于測試AI的性能。在這個框架中,AI被賦予了一些基本指令,如躲避敵人和障礙物,并通過Python代碼生成輸入來控制游戲角色馬力歐。

    實驗結果令人驚訝,Claude 3.7在測試中表現最佳,緊隨其后的是Claude 3.5、Gemini 1.5 Pro和GPT-4o。與《寶可夢》的回合制戰斗相比,《超級馬力歐兄弟》這種強調即時反應的游戲對AI的推理能力提出了更高的挑戰。在游戲中,每一秒都至關重要,稍有不慎就可能導致游戲失敗。

    其實,用游戲來測試AI并非新鮮事。早在2019年,OpenAI就曾舉辦了一場比賽,展示了其AI模型OpenAI Five在Dota 2游戲中的實力。這款AI不僅擊敗了由專業玩家組成的隊伍,還在公開發布后擊敗了99.4%的在線選手。然而,隨著時間的推移,OpenAI逐漸將研究重心轉向了自然語言處理等領域。

    前Salesforce首席AI科學家Richard Socher曾指出,盡管為游戲創建AI令人興奮且易于商業化,但這些AI模型在現實世界中的價值有限。他認為,游戲作為一個抽象、簡單的環境,與真實世界存在顯著差異。如果AI模型不能很好地適應新環境,就很難在時代變化中解決實際問題。即便是勝率高達9成的OpenAI Five,也僅能玩轉Dota 2中的16個角色。

    隨著GPT-4.5的發布,AI評測領域也面臨著新的挑戰。OpenAI的研究人員表示,他們正在經歷一場“評估危機”,對于如何評估AI模型的性能感到困惑。GPT-4.5雖然被贊譽為獨特且富有人情味,但其“品味”卻難以量化評估。

    盡管如此,我們仍然可以欣賞到AI在《超級馬力歐兄弟》中的精彩表現。這些實驗不僅讓我們看到了AI技術的無限可能,也為我們提供了思考AI未來發展方向的新視角。

     
     
    更多>同類內容
    全站最新
    熱門內容
    本欄最新
     
    国产AV国片精品有毛| 日韩a无吗一区二区三区| 97精品久久天干天天蜜| 国内精品卡1卡2卡区别 | 自拍偷在线精品自拍偷| 一本大道无码人妻精品专区| 亚洲AV日韩AV鸥美在线观看| 国产成人精品午夜视频'| 色综合久久精品亚洲国产| 国产99视频精品一区| 久久精品国产第一区二区三区| 久久99国产精品| 国产99视频精品免视看7| 国产午夜精品无码| 国内精品久久久久久久亚洲| 精品视频一区二区三区四区五区 | 午夜影视日本亚洲欧洲精品一区| 久久精品国产免费一区| 97久久国产露脸精品国产| 久久乐国产精品亚洲综合| 国产精品久久久天天影视香蕉| 日本精品自产拍在线观看中文| 日韩特级黄色毛片| 国产三级国产精品| 国产在线观看精品一区二区三区91 | 亚洲理论精品午夜电影| 人妻精品久久久久中文字幕69 | 亚洲精品日韩专区silk| 91久久精品国产91久久性色tv| 久久精品国产亚洲AV无码麻豆| 久久久久久夜精品精品免费啦| 99j久久精品久久久久久| 久久精品国产亚洲AV无码偷窥| 精品人妻中文av一区二区三区| 91精品日韩人妻无码久久不卡| 亚洲精品国产啊女成拍色拍| 久久九九兔免费精品6| 99久热任我爽精品视频| 十八禁无遮挡99精品国产| 少妇人妻偷人精品视蜜桃| 日韩加勒比一本无码精品|