(網(wǎng)經(jīng)社訊)盡管近年來(lái)AIGC關(guān)鍵技術(shù)不斷突破,但圖像生成領(lǐng)域始終面臨著一個(gè)“兩難困境”:閉源模型性能強(qiáng)大但難以私有化部署;開(kāi)源方案在輕量化與高性能之間難以取舍,且缺乏面向商用的專項(xiàng)能力。
據(jù)網(wǎng)經(jīng)社產(chǎn)業(yè)電商臺(tái)(B2B.100EC.CN)獲悉,針對(duì)這一行業(yè)痛點(diǎn),美團(tuán)LongCat團(tuán)隊(duì)近日宣布,開(kāi)源其最新研發(fā)的LongCat-Image模型。該模型通過(guò)高性能模型架構(gòu)設(shè)計(jì)、系統(tǒng)性的訓(xùn)練策略和數(shù)據(jù)工程,以6B的緊湊參數(shù)規(guī)模,在文生圖與圖像編輯核心能力上逼近了更大尺寸的頭部模型,為開(kāi)發(fā)者與產(chǎn)業(yè)界提供了一個(gè)“高性能、低門(mén)檻、全開(kāi)放”的全新選擇。

▲模型架構(gòu)
據(jù)介紹,LongCat-Image的核心優(yōu)勢(shì)在于其架構(gòu)設(shè)計(jì)與訓(xùn)練策略。
具體來(lái)看,模型采用文生圖與圖像編輯同源的架構(gòu),結(jié)合漸進(jìn)式學(xué)習(xí)策略,成功在6B參數(shù)下實(shí)現(xiàn)了指令遵循精準(zhǔn)度、生圖質(zhì)量與文字渲染能力的高效協(xié)同。
在圖像編輯方面,LongCat-Image的“可控性”表現(xiàn)突出,而性能突破的關(guān)鍵在于一套緊密協(xié)同的訓(xùn)練范式和數(shù)據(jù)策略。
為有效繼承文生圖模型的知識(shí)和美感,同時(shí)避免文生圖后訓(xùn)練階段收窄的狀態(tài)空間對(duì)編輯指令多樣性的限制,團(tuán)隊(duì)一方面基于文生圖Mid-training階段模型進(jìn)行初始化,并采用指令編輯與文生圖多任務(wù)聯(lián)合學(xué)習(xí)機(jī)制,深化對(duì)復(fù)雜多樣化指令的理解;另一方面,通過(guò)預(yù)訓(xùn)練階段的多源數(shù)據(jù)及指令改寫(xiě)策略,以及結(jié)合SFT階段引入的人工精標(biāo)數(shù)據(jù),最終實(shí)現(xiàn)了指令遵循精準(zhǔn)度、泛化性和編輯前后視覺(jué)一致性的共同提升。
在GEdit-Bench和ImgEdit-Bench等權(quán)威基準(zhǔn)測(cè)試中,LongCat-Image均達(dá)到開(kāi)源SOTA(當(dāng)前最佳)水平,可精準(zhǔn)響應(yīng)用戶的多樣化修改需求。
在中文文本渲染這一長(zhǎng)期困擾業(yè)界的難題上,LongCat-Image也取得了很大進(jìn)展,通過(guò)課程學(xué)習(xí)策略提升字符覆蓋度和渲染精準(zhǔn)度:預(yù)訓(xùn)練階段基于千萬(wàn)量級(jí)合成數(shù)據(jù)學(xué)習(xí)字形,覆蓋通用規(guī)范漢字表的8105個(gè)漢字;SFT 階段引入真實(shí)世界文本圖像數(shù)據(jù),提升在字體、排版布局上的泛化能力;在RL(強(qiáng)化學(xué)習(xí))階段,引入OCR與美學(xué)雙獎(jiǎng)勵(lì)模型,進(jìn)一步提升文本準(zhǔn)確性與背景融合自然度。
該模型在ChineseWord評(píng)測(cè)中以90.7的得分領(lǐng)先同類產(chǎn)品。無(wú)論是商業(yè)海報(bào)中的復(fù)雜筆畫(huà),還是古詩(shī)詞插圖中的生僻字,LongCat-Image均能實(shí)現(xiàn)精準(zhǔn)、自然的渲染,進(jìn)一步拓展AI在設(shè)計(jì)領(lǐng)域的應(yīng)用邊界。
為了提升生成圖像的審美與真實(shí)感,LongCat團(tuán)隊(duì)還構(gòu)建了系統(tǒng)性的數(shù)據(jù)篩選與對(duì)抗訓(xùn)練框架。團(tuán)隊(duì)在預(yù)訓(xùn)練階段嚴(yán)格過(guò)濾低質(zhì)量AIGC數(shù)據(jù),并在RL階段創(chuàng)新性引入AIGC內(nèi)容檢測(cè)器作為獎(jiǎng)勵(lì)模型,利用其對(duì)抗信號(hào)逆向引導(dǎo)模型學(xué)習(xí)真實(shí)世界的物理紋理、光影和質(zhì)感,從而顯著改善了AI繪圖常見(jiàn)的“塑料感”紋理。

▲客觀基準(zhǔn)測(cè)試性能對(duì)比
全面的客觀與主觀評(píng)測(cè)數(shù)據(jù)均驗(yàn)證了LongCat-Image的能力:在客觀基準(zhǔn)測(cè)試中,其圖像編輯得分與中文渲染能力均領(lǐng)跑參評(píng)模型;在文生圖任務(wù)上,GenEval與DPG-Bench的優(yōu)異表現(xiàn)證明了其相比頭部開(kāi)源與閉源模型依然具備強(qiáng)競(jìng)爭(zhēng)力。

▲人類主觀評(píng)分對(duì)比& 并列對(duì)比評(píng)估勝率
在更貼近用戶體驗(yàn)的主觀評(píng)測(cè)(文生圖方面采用大規(guī)模的人工主觀評(píng)分與圖像編輯方面采用嚴(yán)格的并列對(duì)比評(píng)估)中,LongCat-Image在真實(shí)度方面相比主流開(kāi)閉源模型表現(xiàn)出色,同時(shí)在文本-圖像對(duì)齊與合理度上達(dá)到開(kāi)源SOTA水平;至于綜合編輯質(zhì)量和視覺(jué)一致性方面,雖然與Nano Banana等商業(yè)閉源模型仍有一定差距,但在開(kāi)源領(lǐng)域已形成領(lǐng)先優(yōu)勢(shì)。
值得一提的是,為了構(gòu)建一個(gè)更透明、開(kāi)放、協(xié)作的開(kāi)源生態(tài)系統(tǒng),美團(tuán) LongCat團(tuán)隊(duì)此次全面開(kāi)源了從Mid-training到Post-training的文生圖多階段模型及圖像編輯模型,旨在支持從前沿研究到商業(yè)應(yīng)用的全流程。相關(guān)資源已在Hugging Face和GitHub上線,用戶也可在官網(wǎng)longcat.ai上體驗(yàn)。
與此同時(shí),面向終端用戶的“LongCat APP”也迎來(lái)重大升級(jí),全新上線的圖生圖功能與24個(gè)零門(mén)檻玩法模板,讓普通用戶也能一鍵生成海報(bào)、精修人像,實(shí)現(xiàn)“專業(yè)AI創(chuàng)作零門(mén)檻”。
美團(tuán)LongCat團(tuán)隊(duì)還表示:“我們堅(jiān)信,真正的技術(shù)進(jìn)步源于社區(qū)的集體智慧?,F(xiàn)誠(chéng)邀廣大開(kāi)發(fā)者體驗(yàn)?zāi)P汀⑴c共建,與我們共同基于這個(gè)高效能模型,探索視覺(jué)生成的更多可能?!?/p>
相關(guān)鏈接:
Hugging Face: https://huggingface.co/meituan-longcat/LongCat-Image


































