阿里巴巴旗下的人工智能創(chuàng)新企業(yè)通義萬相,近期公布了一項重大技術進展:其自主研發(fā)的視頻生成技術——“首尾幀生視頻14B模型”已正式向公眾開放,并選擇在多個開源平臺上共享其源代碼。
這項技術的核心亮點在于,它僅需用戶提供的起始與結束畫面,便能智能合成一段720p高清分辨率的過渡視頻。該模型建立在深度學習技術的堅實基礎上,具備對輸入畫面內容的深刻理解能力,包括畫面風格、主題元素等多個維度。
用戶上傳首尾幀圖像后,模型會細致分析畫面中的視覺要素,如物體形態(tài)、色彩搭配以及光影動態(tài)等?;谶@些詳盡的分析結果,模型能夠智能推理出最合適的中間過渡幀,從而確保生成的視頻既流暢又富有邏輯。模型在保持物體運動軌跡自然連貫性的同時,還能實現光線和色彩的平滑過渡,避免了視覺上的生硬跳躍,顯著提升了視頻的觀賞體驗。
這一技術的推出,無疑為眾多應用場景帶來了革新性的解決方案。例如,在延時攝影領域,它能夠幫助攝影師自動生成缺失的中間幀,極大地簡化了拍攝流程;在特效制作中,它則能實現更加自然流暢的變身效果,為影視作品增添更多創(chuàng)意可能。
為了讓更多用戶能夠體驗到這項前沿技術,通義萬相不僅在其官方網站上提供了免費試用服務,還通過GitHub、Hugging Face以及魔搭社區(qū)等多個開源平臺,分享了該模型的源代碼。這一舉措不僅滿足了開發(fā)者對于本地部署和二次開發(fā)的需求,也進一步推動了人工智能技術在視頻生成領域的普及與應用。