在科技界掀起新波瀾的國產(chǎn)大模型DeepSeek,于1月28日凌晨震撼發(fā)布了其最新力作——Janus-Pro多模態(tài)大模型,正式進(jìn)軍文本生成圖像領(lǐng)域,這一舉動無疑為業(yè)界帶來了巨大驚喜。
據(jù)悉,Janus-Pro在Geneval和DPG-Bench兩大基準(zhǔn)測試中展現(xiàn)出了非凡實力,不僅成功超越了OpenAI的DALL-E 3,還將Stable Diffusion、Emu3-Gen等其他熱門模型甩在身后。這一成績,無疑是對其技術(shù)實力的最佳證明。
Janus-Pro采用了MIT開源協(xié)議,這意味著它將能夠無限制地應(yīng)用于商業(yè)場景,為各行各業(yè)提供強(qiáng)有力的技術(shù)支持。這一決策,無疑將極大地推動其在市場上的普及和應(yīng)用。
DeepSeek方面透露,Janus-Pro是其在去年11月13日發(fā)布的JanusFlow大模型的高級版本。與前代模型相比,Janus-Pro在訓(xùn)練策略上進(jìn)行了優(yōu)化,訓(xùn)練數(shù)據(jù)也得到了擴(kuò)展,使得模型規(guī)模更加龐大,性能更加卓越。
得益于這些改進(jìn),Janus-Pro在多模態(tài)理解和文本到圖像的指令跟蹤功能方面取得了顯著進(jìn)步。同時,它還增強(qiáng)了文本到圖像生成的穩(wěn)定性,使得生成的圖像更加清晰、準(zhǔn)確。盡管目前Janus-Pro僅能處理384x384分辨率的圖像,但考慮到其模型的緊湊性和所展現(xiàn)出的高水平性能,這一成就已經(jīng)足以令人贊嘆不已。
作為一款多模態(tài)模型,Janus-Pro的功能遠(yuǎn)不止于此。它不僅能夠根據(jù)文本生成圖像,還能對圖像進(jìn)行描述、識別地標(biāo)景點、識別圖像中的文字,并能對圖片中的知識進(jìn)行詳細(xì)介紹。這些功能使得Janus-Pro在多個領(lǐng)域都具有廣泛的應(yīng)用前景。