在科技界掀起新波瀾的國產大模型DeepSeek,于1月28日凌晨震撼發布了其最新力作——Janus-Pro多模態大模型,正式進軍文本生成圖像領域,這一舉動無疑為業界帶來了巨大驚喜。
據悉,Janus-Pro在Geneval和DPG-Bench兩大基準測試中展現出了非凡實力,不僅成功超越了OpenAI的DALL-E 3,還將Stable Diffusion、Emu3-Gen等其他熱門模型甩在身后。這一成績,無疑是對其技術實力的最佳證明。
Janus-Pro采用了MIT開源協議,這意味著它將能夠無限制地應用于商業場景,為各行各業提供強有力的技術支持。這一決策,無疑將極大地推動其在市場上的普及和應用。
DeepSeek方面透露,Janus-Pro是其在去年11月13日發布的JanusFlow大模型的高級版本。與前代模型相比,Janus-Pro在訓練策略上進行了優化,訓練數據也得到了擴展,使得模型規模更加龐大,性能更加卓越。
得益于這些改進,Janus-Pro在多模態理解和文本到圖像的指令跟蹤功能方面取得了顯著進步。同時,它還增強了文本到圖像生成的穩定性,使得生成的圖像更加清晰、準確。盡管目前Janus-Pro僅能處理384x384分辨率的圖像,但考慮到其模型的緊湊性和所展現出的高水平性能,這一成就已經足以令人贊嘆不已。
作為一款多模態模型,Janus-Pro的功能遠不止于此。它不僅能夠根據文本生成圖像,還能對圖像進行描述、識別地標景點、識別圖像中的文字,并能對圖片中的知識進行詳細介紹。這些功能使得Janus-Pro在多個領域都具有廣泛的應用前景。