第二屆中國國際供應鏈促進博覽會今天(11月26日)在北京正式開幕。鏈博會吉祥物“鏈氪”來到數字科技展區,遇到了一位神秘人物↓
總臺央視記者 張道峰:數字詩人李白是由人工智能大模型生成的,也就是我們常說的生成式人工智能,而做出這一大模型的是一家成立還不到一年的人工智能創新中心。
廉士國是創新中心首席人工智能科學家,他給我們現場拆解了人工智能大模型的運作過程。
生成一個數字詩人李白要分三步:先由文字生成圖片,圖片生成視頻,文字再生成語音跟視頻進行融合。不過,看似簡單的三步,做起來卻不容易。
中國聯通人工智能創新中心首席AI科學家兼技術總師 廉士國:首先要訓練一個語言模型,它大概需要40TB的數據,這個數據量大概相當于400萬本電子書的數據量。
有了語言模型的基礎,才能繼續訓練文生圖、文生視頻等多模態大模型,背后還需要大量“數據對”,也就是數據之間的聯系,比如文字和圖片對應的數據,圖片和視頻對應的數據等。
中國聯通人工智能創新中心首席AI科學家兼技術總師 廉士國:大概需要10億對文字圖像對,從圖像再到視頻,大概在百億對的級別。
不過,有了海量數據才是第一關,然后是“數據標注”,就是要把數據轉化為機器學習算法能理解的形式。
總臺央視記者 張道峰:想什么就能設計出什么,看似簡單的過程,背后其實是一條全新而龐大的人工智能產業鏈在支撐。數字詩人李白能夠作詩,算法、數據等等這條鏈的每一個環節都在發揮作用。
算法、數據、算力的高效協同,構成了生成式人工智能快速發展的重要鏈條。現在,大模型技術賦能千行百業,像“李白作詩”這樣的“文物活化”技術正在走進我們的生活。