中國電信在多媒體與人工智能的交叉領域取得了突破性進展,這一成就獲得了國際認可。中國電信云計算研究院的常建慧博士所撰寫的論文《基于擴散先驗的生成式圖像編碼》在IEEE國際多媒體與博覽會議(ICME 2025)上榮獲“最佳論文獎”。該論文提出了一種創新的思路,將擴散模型應用于生成式圖像編碼領域,有效打破了傳統方法在壓縮效率與圖像重建質量之間的權衡難題。
生成式圖像和視頻編碼技術的突破,正引領通信系統從“傳輸數據”的傳統模式向“重建體驗”的全新階段轉變。這不僅僅意味著壓縮率的提升,更重要的是,它能夠在極小的傳輸負載下,還原出高質量的視覺內容。常建慧博士在接受采訪時,詳細闡述了此次技術突破的應用價值和廣闊前景。
傳統圖像編碼技術在面對自然圖像與AI生成圖像的復雜混合時,面臨著諸多挑戰。早期基于GAN和VAE的生成式編碼技術,在控制力、穩定性和重建質量上存在一定的局限性。而近年來,擴散模型在圖像生成領域展現出了強大的能力,為圖像壓縮帶來了新的可能性。然而,現有的基于擴散模型的圖像生成方法多由文本引導,雖然能夠生成高質量的圖像,但在保真度方面仍有不足,容易出現偏色、變形等問題,難以滿足通信系統對編碼的“可控、穩定、可還原”要求。
常建慧博士的研究團隊提出的基于擴散模型先驗的生成式編碼框架,其核心在于將“生成能力”轉化為“可控的壓縮系統”。這一框架使模型在低碼率下仍能傳達明確有效的控制信號,確保重建結果符合壓縮器的“指令”,從而在低碼率區間顯著提升了感知保真度。該框架采用通用編碼器與插件式適配器相結合的架構,并引入變碼率機制,支持多碼率壓縮與靈活對接多種預訓練擴散模型,從AIGC到自然圖像,再到特定領域的內容,都表現出強大的適配性。
科研之路往往充滿挑戰,這項技術的萌芽始于常建慧博士求學期間的思考與探索。她一直在尋求讓生成模型參與圖像壓縮的方法,雖然早期成果在細節保真和泛化能力上仍有瓶頸,但擴散模型的發展為這一難題提供了新的解決方案。然而,從想法到可用方案的過程中,團隊面臨著壓縮器表達能力與生成器可控性的雙重挑戰。經過多輪嘗試與調整,團隊最終引入了“變碼率編碼器+適配器+融合引導”的結構,成功建立了壓縮與生成之間的協同機制。
加入中國電信云計算研究院后,常建慧博士得到了強大的算力與實驗條件支持。經過反復實驗與模型優化,該方案逐漸趨于穩定。研究院獨特的科研氛圍也為她提供了廣闊的發展空間,她與團隊成員共同努力,不斷突破技術難關,最終使這項技術得以成型并獲得了國際認可。
這項技術的應用前景廣闊,特別是在帶寬敏感或存儲成本高的場景中。例如,在醫療影像等冷數據圖像的長期備份中,生成式編碼可以在極低碼率下保留結構與感知細節,有望大幅降低存儲開銷。然而,要實現規模化落地,還需在推理效率、系統集成能力和生態標準建設等方面取得突破。
中國電信云計算研究院計劃將該技術進一步拓展到視頻編碼中,并探索多模態任務和多模態模型的應用。常建慧博士表示,生成式編碼是一項面向未來的“通用視覺通信能力”,它將支撐泛在云向更智能、更高效、更感知驅動的方向演進。未來,該技術有望在邊緣端降低圖像/視頻的回傳成本,提升算網協同效率;在中心云支持大規模感知優先型視覺內容的托管、分發與歸檔;在泛在場景中構建出“生成驅動”的新型通信機制。
中國電信云計算研究院已與天翼云、天翼視聯公司進行了初步溝通,探討可能的落地應用場景。未來,這一創新技術將不僅局限于“云”領域,還將延伸至視聯網等更廣泛的領域,為“AI+通信”的融合浪潮注入新的活力。在團隊的共同努力下,那些曾經制約實踐的“不可能”正被一一擊破,中國電信的創新者正以扎實的根技術,實踐著從“0”到“1”的突破。