在中國移動哈爾濱智算中心,一場聚焦萬卡集群智能運維的沙龍活動圓滿落幕。此次活動由中國通信標準化協會TC628標準推進委員會攜手WG3智算運維工作組及黑龍江移動聯合舉辦,匯聚了來自信通院、黑龍江省通信管理局、寧波銀行、螞蟻集團、華為、科大訊飛、南瑞瑞騰、中科海光等多個領域的20余家單位代表,覆蓋了通信、金融、能源、制造及互聯網等多個行業。
活動現場,以“萬卡賦智,重塑運維”為主題,通過主題演講與圓桌會議的形式,深入探討了智能計算基礎設施運維的智能化轉型之路。專家們圍繞先進經驗分享、行業痛點剖析以及產學研深度融合三大板塊,交流了各自在智算運維領域的探索與實踐,共同展望智算運維的未來趨勢與面臨的挑戰。
黑龍江移動作為承辦方,分享了其基于集團公司“五個一”卓越智算運維體系推出的“12821”智算運維方法論,詳細介紹了集省專協同流程優化、機房現場標準化管理、主動運維能力提升以及跨層跨域定界處置等方面的創新實踐,為大規模智算集群運維提供了寶貴的經驗借鑒。
螞蟻集團則聚焦于萬卡集群模型訓練異常分類與支撐手段,分享了其在模型訓練、節點異常、調度異常等多場景下的時間、空間診斷思路與實踐成果,為參會者提供了豐富的實戰案例。
信通院在會上介紹了近年來IT運維領域的標準研究工作及成果,重點解讀了《智算運維能力成熟度模型》系列標準,并表達了未來將加速構建智算運維領域標準生態,全力支持行業智算運維能力建設的決心。
沙龍還通過理論研討與實地參觀相結合的方式,為政產學研各界搭建了深度交流平臺,促進了行業間的業務合作與交流。與會嘉賓圍繞智算運維服務的新變化與挑戰、智算運維如何加速AI應用生態發展等議題展開了熱烈討論,并達成了多項共識。
此次沙龍的成功舉辦,標志著我國智算運維領域步入了標準化、協同化發展的新階段。中國移動(哈爾濱)智算中心在智算運維領域的卓越能力與經驗分享,得到了社會各界的廣泛認可。隨著各方合作的不斷深化,智算集群的高效運維將為人工智能大模型的訓練與推理、行業智能化轉型提供更加堅實的算力支撐,助力我國在全球智算競爭中搶占先機。