在多媒體與人工智能的交匯點(diǎn),中國電信正書寫著技術(shù)創(chuàng)新的新篇章。近日,中國電信云計(jì)算研究院的常建慧博士憑借論文《基于擴(kuò)散先驗(yàn)的生成式圖像編碼》,在IEEE國際多媒體與博覽會(huì)議(ICME 2025)上榮獲“最佳論文獎(jiǎng)”,這一成就標(biāo)志著中國電信在生成式圖像編碼領(lǐng)域取得了國際矚目的技術(shù)突破。
常建慧博士的論文創(chuàng)新性地將擴(kuò)散模型引入生成式圖像編碼,成功打破了傳統(tǒng)方法在壓縮效率與圖像重建質(zhì)量之間的權(quán)衡難題。這一技術(shù)突破,不僅提升了圖像的壓縮率,更重要的是,它能夠在極低的傳輸負(fù)載下,還原出高質(zhì)量的視覺內(nèi)容,為通信系統(tǒng)帶來了從“傳輸數(shù)據(jù)”到“重建體驗(yàn)”的變革。
想象一下,未來的通信場(chǎng)景:你佩戴著輕便的AR眼鏡,與遠(yuǎn)在他鄉(xiāng)的親人進(jìn)行仿佛面對(duì)面的交流,他們的表情、動(dòng)作乃至背后的環(huán)境都栩栩如生。這一切高清畫面的背后,正是生成式編碼技術(shù)在發(fā)揮作用。它收集關(guān)鍵信息,通過本地生成模型快速還原畫面,為用戶帶來沉浸式的通信體驗(yàn)。
生成式編碼技術(shù)的這一突破,源于對(duì)圖像“壓縮”與“生成”關(guān)系的全新理解。隨著生成技術(shù)的進(jìn)步,視覺內(nèi)容已經(jīng)從自然圖像為主,演變?yōu)樽匀粓D像與AI生成圖像的復(fù)雜混合。傳統(tǒng)的基于GAN和VAE的生成式編碼技術(shù),在控制力、穩(wěn)定性及重建質(zhì)量方面存在局限。而擴(kuò)散模型以其強(qiáng)大的可控生成高質(zhì)量圖像的能力,為圖像壓縮任務(wù)提供了新的解決方案。
然而,將擴(kuò)散模型應(yīng)用于生成式編碼并非易事。如何在極低比特率下提取出對(duì)生成過程有引導(dǎo)力的關(guān)鍵信息,如何讓擴(kuò)散模型“聽懂”來自編碼器的控制信號(hào),都是亟待解決的技術(shù)難題。經(jīng)過反復(fù)實(shí)驗(yàn)與模型優(yōu)化,常建慧博士及其團(tuán)隊(duì)終于取得了突破。他們提出的基于擴(kuò)散模型先驗(yàn)的生成式編碼框架,成功將“生成能力”轉(zhuǎn)化為“可控的壓縮系統(tǒng)”,在低碼率下顯著提升了感知保真度。
這一技術(shù)突破的背后,是無數(shù)次的失敗與嘗試。常建慧博士在求學(xué)期間就開始探索生成模型在圖像壓縮中的應(yīng)用,但一直面臨著細(xì)節(jié)保真和泛化能力的瓶頸。直到擴(kuò)散模型的發(fā)展為這一難題提供了新的解法,她才看到了希望。在加入中國電信云計(jì)算研究院后,研究院提供的強(qiáng)大算力與實(shí)驗(yàn)條件支持,讓她的研究得以加速推進(jìn)。
如今,這一技術(shù)已經(jīng)展現(xiàn)出廣闊的應(yīng)用前景。在帶寬敏感或存儲(chǔ)成本高的場(chǎng)景中,如醫(yī)療影像的長期備份,生成式編碼可以在極低碼率下保留結(jié)構(gòu)與感知細(xì)節(jié),有望大幅降低存儲(chǔ)開銷。它還可以應(yīng)用于AI原生通信、AIGC存儲(chǔ)優(yōu)化、邊端協(xié)同等新興領(lǐng)域,為通信系統(tǒng)的智能化、高效化提供有力支撐。
中國電信云計(jì)算研究院計(jì)劃將這一技術(shù)進(jìn)一步拓展到視頻編碼中,并探索多模態(tài)任務(wù)和多模態(tài)模型的應(yīng)用。同時(shí),他們正與天翼云、天翼視聯(lián)等公司進(jìn)行溝通合作,探討可能的落地應(yīng)用場(chǎng)景。未來,這一技術(shù)有望在更多領(lǐng)域發(fā)揮重要作用,推動(dòng)通信系統(tǒng)的持續(xù)演進(jìn)和產(chǎn)業(yè)升級(jí)。