本報訊 (記者李喬宇)7月30日,昆侖萬維科技股份有限公司(以下簡稱“昆侖萬維”)正式推出并開源采用自回歸路線的多模態統一預訓練模型Skywork UniPic,在單一模型中深度融合圖像理解、文本到圖像生成、圖像編輯三大核心能力。該模型基于大規模高質量數據進行端到端預訓練,具備良好的通用性與可遷移性。
據悉,Skywork UniPic在單一模型中深度融合圖像理解、文本生成圖像(T2I)與圖像編輯三大核心任務,構建了真正統一的多模態模型架構。
傳統多模態統一模型多依賴VQ或VAE編碼器來壓縮視覺內容,雖然具備一定效果,但也存在局限性。它們更側重保留圖像的視覺細節而非語義信息,這會在一定程度上削弱模型的圖像理解能力。
為此,Skywork UniPic團隊借鑒Harmon架構設計,并在表征方式上做出關鍵調整。采用MAR編碼器作為圖像生成路徑的視覺表征基礎,同時引入SigLIP2作為圖像理解路徑的主干。
此外,Skywork UniPic完成端到端優化流程,能夠實現生成、理解、編輯三大能力的協同訓練和相互促進,突破傳統方法中能力權衡的技術瓶頸。這一架構設計不僅保持了自回歸模型的簡潔高效,更通過共享編碼器實現了跨任務的深度協同,為多模態統一模型的實用化部署奠定了基礎。
在追求模型能力極限的同時,Skywork UniPic也堅持效率重要性的設計理念。Skywork UniPic以1.5B的緊湊參數規模,在無CoT(思維鏈)的情況下取得了SOTA(“當前最佳水平”)分數,逼近部分較大模型帶CoT的0.88分;在DPG-Bench復雜指令生圖基準上達到85.5分的行業SOTA水平。
(編輯 張明富)
00:44 | 走出“破冰期” 鴻蒙5終端數量突破... |
00:44 | 中國長安汽車集團加速向世界一流汽... |
00:44 | 寧德時代上半年凈利潤同比增長33.3... |
00:44 | 南京土拍出讓13宗涉宅用地 “小而... |
00:44 | 恒隆地產上半年總收入49.68億港元 |
00:44 | 國際合作持續深化 中國氫能全產業... |
00:44 | PCB產業鏈呈現高景氣 上市公司加碼... |
00:44 | 能源央企全力確保電力應供盡供、穩... |
00:44 | 暑期檔市場升溫 票房沖刺60億元 |
00:44 | 發揮團隊優勢 公募基金打造共管新... |
00:44 | 銀行理財市場上半年成績單:固收類... |
00:44 | 年內公募自購近50億元 被動指數基... |
版權所有《證券日報》社有限責任公司
互聯網新聞信息服務許可證 10120240020增值電信業務經營許可證 京B2-20250455
京公網安備 11010602201377號京ICP備19002521號
證券日報網所載文章、數據僅供參考,使用前務請仔細閱讀法律申明,風險自負。
證券日報社電話:010-83251700網站電話:010-83251800 網站傳真:010-83251801電子郵件:xmtzx@zqrb.net
安卓
IOS
掃一掃,加關注
掃一掃,加關注