亚洲精品视频在线观看视频,欧美三级在线看,中文字幕av高清

清華突破！RTX 4090單卡就能運行滿血版DeepSeek，AI算力門檻大幅降低

發布時間：2025-02-15 19:06 來源：ITBEAR 作者：蘇婉清

近日，清華大學的一支科研團隊在人工智能領域取得了突破性進展，成功解決了大模型推理的算力瓶頸問題，這一成就無疑給英偉達等傳統高性能計算解決方案提供商帶來了不小的沖擊。

據相關媒體報道，清華大學的KVCache.AI團隊攜手趨境科技，對其開源項目KTransformers進行了重大更新。此次更新標志著在24G顯存的硬件設備（例如RTX 4090D）上，也能流暢運行DeepSeek-R1和V3的671B滿血版模型，這無疑是一次具有里程碑意義的突破。

KTransformers項目的核心在于其創新的異構計算策略。團隊巧妙地利用了稀疏性，即在混合專家（MoE）架構中，每次僅激活部分專家模塊，而非全部。他們將這些非共享的稀疏矩陣卸載到CPU內存中，并結合高速算子進行處理，從而成功將顯存占用壓縮至24GB以內。

團隊還采用了4bit量化技術和Marlin GPU算子，這一優化使得計算效率提升了3.87倍。在CPU端，他們通過llamafile實現了多線程并行，預處理速度高達每秒286個詞元。這些技術上的創新，共同推動了KTransformers項目的性能飛躍。

不僅如此，團隊還引入了CUDA Graph加速技術，這一技術顯著減少了CPU與GPU之間的通信開銷。現在，單次解碼僅需一次完整的CUDA Graph調用，生成速度達到了每秒14個詞元。這些優化措施，使得大模型推理變得更加高效和便捷。

這一突破帶來的后果是顯而易見的。在過去，運行如此大規模的語言模型需要依賴昂貴的8卡A100服務器，其成本超過百萬，且按需計費每小時可達數千元。而現在，只需一張RTX 4090顯卡，整機成本約為2萬元，功耗僅為80W，這使得中小團隊和個人開發者也能輕松承擔和運行這些大規模模型。

NVIDIA RTX 4090成功運行DeepSeek-R1滿血版的案例，不僅彰顯了清華大學團隊的技術實力和創新精神，更是開源精神與硬件潛能完美結合的典范。這一成就證明，在人工智能飛速發展的今天，創新往往源自于對“不可能”的勇敢挑戰。

這一突破無疑將推動人工智能技術的進一步發展，使得更多有志于AI研究的團隊和個人能夠參與到這一前沿領域的探索中來。我們期待著未來在清華團隊的引領下，人工智能領域能夠涌現出更多令人矚目的創新成果。

更多>同類內容