<ul id="mwmk6"><sup id="mwmk6"></sup></ul>
<ul id="mwmk6"></ul>
    <abbr id="mwmk6"></abbr>
  • <ul id="mwmk6"></ul>
  • <ul id="mwmk6"><sup id="mwmk6"></sup></ul>
    資訊在沃

    英偉達RL新突破:Nemotron-N1系列模型,深度強化AI決策力

       發布時間:2025-05-14 14:28 作者:顧青青

    近期,科技界傳來一則新動態,英偉達攜手賓夕法尼亞州立大學及華盛頓大學,共同推出了名為Nemotron-Research-Tool-N1系列的新模型。這一系列模型受到了DeepSeek-R1的啟發,并采用了創新的強化學習(RL)范式,旨在增強模型的推理能力。

    在大型語言模型(LLMs)領域,通過整合外部工具來提升性能已成為一種流行趨勢。這些工具使得LLMs在搜索引擎、計算器、視覺處理及Python解釋器等多個領域展現出了卓越的性能。然而,現有的研究方法大多依賴于合成數據集,難以捕捉到明確的推理步驟,導致模型往往只能模仿表面的模式,而無法真正理解背后的決策過程。

    為了克服這一挑戰,研究者們積極探索了多種策略來提升LLMs的工具使用能力。一方面,他們通過整理數據集和優化模型,創建了大規模的監督數據集,并運用了監督微調(SFT)和直接偏好優化(DPO)等強化學習技術,將LLMs與外部工具相結合,進一步擴展其功能。另一方面,研究者們也在不斷改進推理過程,從傳統的訓練時擴展轉向更為復雜的測試時策略。

    盡管這些方法在一定程度上取得了成效,但它們仍然受限于合成數據的不足。通過現有的策略,LLMs雖然能夠處理單輪或多輪的工具調用,但在自主推理的深度上仍顯不足。為了突破這一局限,英偉達及其合作伙伴開發了Nemotron-Research-Tool-N1系列模型。

    Nemotron-Research-Tool-N1系列模型并未依賴顯式的推理軌跡標注,而是采用了一種二元獎勵機制,鼓勵模型自主發展推理策略。研究者們對xLAM和ToolACE等數據集(包含單輪和多輪工具調用軌跡)的子集進行了統一處理,并設計了一種輕量級的提示模板,以指導工具生成過程。這種模板通過使用特定的標簽來明確指示中間推理步驟,并封裝工具調用,從而避免了模型過度擬合特定的提示模式。

    在模型的主干部分,研究者們選擇了Qwen2.5-7B和14B,并測試了LLaMA系列的變體,以評估模型的泛化能力。在BFCL基準測試中,Nemotron-Research-Tool-N1-7B和14B模型展現出了卓越的性能,不僅超越了GPT-4o等封閉源模型,還優于xLAM-2-70B和ToolACE-8B等經過專用微調的模型。

    與采用相同數據源的SFT基準相比,Nemotron-Research-Tool-N1系列模型展現出了顯著的優勢,這充分證明了強化學習方法的有效性。在API-Bank基準測試中,Tool-N1-7B和14B的準確率分別比GPT-4o高出了4.12%和5.03%。這些結果不僅驗證了新方法的巨大潛力,還表明LLMs在自主生成推理策略方面取得了重要進展。這一突破標志著從傳統的監督微調向強化學習范式的轉變。

     
     
    更多>同類內容
    全站最新
    熱門內容
    本欄最新
     
    五月花精品视频在线观看 | 精品多毛少妇人妻AV免费久久| 精品丰满人妻无套内射| 91精品久久久久久无码| 亚洲AV日韩精品久久久久久| 中文成人无字幕乱码精品区| 国产成人精品免费大全| 无码日韩精品一区二区人妻 | 久久精品国产99久久| 国产亚洲精品自在久久| 中国国产成人精品久久| 精品国产黑色丝袜高跟鞋| 国产成人精品综合在线观看| 无码8090精品久久一区| 日韩AV高清在线看片| 亚洲精品无码日韩国产不卡av| 亚洲精品无码日韩国产不卡?V | 国产精品丝袜一区二区三区| assbbwbbwbbwbbwbw精品| 久久夜色精品国产www| 精品一区二区三区免费视频| 国产偷国产偷高清精品| 久久狠狠一本精品综合网| 精品一区二区三区免费观看| 久久久精品视频免费观看| 久久精品三级视频| 91探花福利精品国产自产在线| 不卡精品国产_亚洲人成在线| 91精品在线播放| 国产精品一区二区久久国产| 国产精品综合色区在线观看| 国产在线不卡午夜精品2021| 精品免费视在线观看| 亚洲av永久无码精品网站 | 亚洲精品美女视频| 亚洲狠狠ady亚洲精品大秀| 精品无码一区二区三区在线| 国产精品自拍一区| 亚洲国产精品成人综合色在线| 国产精品久久久久久亚洲影视 | 精品国产乱码久久久久久|