C114通信網(wǎng)  |  通信人家園

資訊
2024/12/25 16:37

中國聯(lián)通開源元景文生圖模型:業(yè)界首款支持長文本輸入和國產(chǎn)化訓(xùn)推的中文原生文生圖模型

C114通信網(wǎng)  

近日,聯(lián)通數(shù)據(jù)智能有限公司重磅開源首個完全在國產(chǎn)昇騰AI基礎(chǔ)軟硬件平臺上實現(xiàn)訓(xùn)練和推理的中文原生文生圖模型,實現(xiàn)多項自主創(chuàng)新突破——

在架構(gòu)上,通過在SDXL架構(gòu)中融合復(fù)合語言編碼模塊,實現(xiàn)了對中文長文本、多屬性對應(yīng)和中文特色詞匯的精確語義理解,對應(yīng)圖像的生成效果得到了極大提升。

在昇騰AI大規(guī)模算力集群上實現(xiàn)了中文原生文生圖模型的訓(xùn)練和推理,并將模型和代碼對業(yè)界開源,以推動文生圖領(lǐng)域的國產(chǎn)化進(jìn)程。

當(dāng)前的文生圖主流模型以英文輸入為主,中文原生的文生圖模型研發(fā)則相對比較緩慢,這導(dǎo)致了模型對中文語義的理解能力不足,中文特色圖片生成能力有限。中國聯(lián)通作為數(shù)字信息運營服務(wù)國家隊、數(shù)字技術(shù)融合創(chuàng)新排頭兵,長期關(guān)注中文原生大模型的發(fā)展,并走出了一條夯實基礎(chǔ)、自主研發(fā)的技術(shù)創(chuàng)新突破之路。目前,元景文生圖模型已在聯(lián)通內(nèi)外部多個項目中成功應(yīng)用,成為助力企業(yè)降本增效、智能化升級的重要一環(huán)。

架構(gòu)創(chuàng)新:引入復(fù)合語言編碼模塊,支持中文長文本輸入

原始SDXL的語言編碼器僅使用了英文CLIP模型,導(dǎo)致其一方面僅支持英文文本作為輸入,另一方面在輸入長度上也存在嚴(yán)重限制(最長77個token)。對此,元景文生圖模型一方面將英文CLIP模型替換成中文CLIP,使得模型中文短文本輸入具有更好的理解能力;同時,引入復(fù)合語言編碼架構(gòu),將基于encoder-decoder架構(gòu)的語言模型引入了語言編碼器部分,這使得模型能支持超過CLIP長度限制的長文本,實現(xiàn)更準(zhǔn)確的中文語義理解和判斷。

元景中文文生圖架構(gòu)

中文原生模型:支持中文原生語義理解和中文特色圖像生成

通過引入復(fù)合語言編碼模塊,元景文生圖模型實現(xiàn)了原生中文語義理解,避免了傳統(tǒng)的利用翻譯插件等作為中介調(diào)用英文文生圖模型的方法所帶來的中文信息損失。同時通過引入海量中文圖文對數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,模型對中文專屬名詞,如鼠標(biāo)-老鼠、仙鶴-吊車等英文模型易混淆的對象,以及中文菜譜等英文模型無法理解的名詞,都能夠準(zhǔn)確理解并生成對應(yīng)的高質(zhì)量圖片。

提示詞:鼠標(biāo)

提示詞:老鼠

(在英文中均翻譯成mouse,易混淆)

提示詞:仙鶴

提示詞:吊車

(在英文中均翻譯成crane,易混淆)

提示詞:佛跳墻

提示詞:老婆餅

(中文特色詞匯)

 提示詞:一只身體毛發(fā)黑白相間的兔子正在草叢間啃胡蘿卜

 提示詞:在綠色的森林中,隱藏著一座白色的哥特式教堂,教堂的尖塔直指藍(lán)色的天空,教堂周圍是五彩斑斕的野花和淺黃色的草坪

(中文長文本)

支持國產(chǎn)全棧訓(xùn)推,打造數(shù)十個行業(yè)標(biāo)桿案例

中國聯(lián)通在國產(chǎn)昇騰AI基礎(chǔ)軟硬件平臺上實現(xiàn)了元景文生圖模型從微調(diào)訓(xùn)練到推理的一體化適配。在微調(diào)訓(xùn)練方面,用戶可使用自定義數(shù)據(jù)集,實現(xiàn)從其它平臺至?xí)N騰的平滑切換;在模型推理方面,接口與Diffusers對齊,簡單易用,支持單卡和多卡,單卡推理支持UNet Cache加速。

通過架構(gòu)創(chuàng)新、中文原生語義支持、硬件適配等多項突破性成果,聯(lián)通元景中文文生圖模型為廣大開發(fā)者提供了研發(fā)中文定制文生圖模型和應(yīng)用的全棧支持。該模型已在聯(lián)通的多個內(nèi)外部項目中賦能文創(chuàng)、服裝、工業(yè)設(shè)計等諸多領(lǐng)域,支撐了中華器靈、服裝大模型等數(shù)十個行業(yè)標(biāo)桿案例,在生成和設(shè)計領(lǐng)域為企業(yè)降本增效貢獻(xiàn)重要力量,并在全球數(shù)字經(jīng)濟(jì)大會、“數(shù)據(jù)要素X”大賽、白塔杯等賽事中獲獎。

  聯(lián)通元景文生圖模型賦能服裝設(shè)計

  聯(lián)通元景文生圖模型賦能文物活化

  聯(lián)通元景文生圖模型在全球數(shù)字經(jīng)濟(jì)大會上獲獎

中國聯(lián)通積極布局戰(zhàn)略性新興產(chǎn)業(yè)和未來產(chǎn)業(yè),落實“人工智能+”行動,依托算網(wǎng)基礎(chǔ)設(shè)施與全國渠道覆蓋優(yōu)勢,開展大模型基礎(chǔ)和共性能力研發(fā),構(gòu)建元景“1+1+M”大模型體系。在基礎(chǔ)大模型方面,已布局語言、多模態(tài)、視覺、語音等多類模型,形成一套自主可控、模態(tài)豐富、性能先進(jìn)、性價比高、安全可信的元景基礎(chǔ)模型,集約化賦能千行百業(yè)模型和應(yīng)用打造,助力實體經(jīng)濟(jì)高質(zhì)量發(fā)展。

未來,中國聯(lián)通將在生成式人工智能技術(shù)上不斷創(chuàng)新,升級模型能力,深化與國產(chǎn)算力的合作,為企業(yè)提供更多、更好、更智能的信息服務(wù),持續(xù)推動國內(nèi)人工智能和AIGC的國產(chǎn)化、智能化發(fā)展。

目前,元景文生圖模型已在GitHub、Hugging Face、魔搭、始智等社區(qū)全面開源,地址如下:

GitHub:

https://github.com/UnicomAI/UniT2IXL.git

HuggingFace:https://huggingface.co/UnicomAI/UniT2IXL

魔搭:https://www.modelscope.cn/UnicomAI/UniT2IXL.git

始智:https://wisemodel.cn/models/UnicomAI/UniT2IXL

給作者點贊
0 VS 0
寫得不太好

  免責(zé)聲明:本文僅代表作者個人觀點,與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關(guān)內(nèi)容。

熱門文章
    最新視頻
    為您推薦

      C114簡介 | 聯(lián)系我們 | 網(wǎng)站地圖 | 手機(jī)版

      Copyright©1999-2025 c114 All Rights Reserved | 滬ICP備12002291號

      C114 通信網(wǎng) 版權(quán)所有 舉報電話:021-54451141