近期,360集團低調(diào)開源的視覺語言對齊模型FG-CLIP2,在全球科技圈掀起熱議。這款模型在涵蓋長短文本圖文檢索、目標檢測等在內(nèi)的29項權(quán)威公開基準測試中,全面超越科技巨頭Google的SigLIP2與Meta的MetaCLIP2,標志著中國在AI基礎(chǔ)模型領(lǐng)域取得了又一突破性進展。

FG-CLIP2性能雷達圖

中文benchmark綜合排名
從“看得見”到“看得清”:攻克AI視覺“細粒度”難題
如果說OpenAI在2021年提出的CLIP模型,為AI配上了一副能“看清世界”的普通眼鏡;那么360的FG-CLIP2,則是為AI裝備了一臺“高精度光學顯微鏡”,使其能夠“洞察入微”。它成功攻克了CLIP模型長期存在的“細粒度識別”痛點。

FG-CLIP2效果案例
傳統(tǒng)CLIP模型善于理解圖像的全局概念,但在區(qū)分細微的物體屬性、復雜的空間關(guān)系以及精準的語言表達時,往往力不從心。FG-CLIP2則實現(xiàn)了質(zhì)的飛躍:它不僅能辨別出貓的具體品種,還能在遮擋情況下精準判斷其狀態(tài);面對包含多個物體的復雜場景,其細節(jié)識別置信度仍高達96%。這種從“宏觀”到“微觀”的能力躍遷,是AI真正理解物理世界的關(guān)鍵一步。
三大根本性創(chuàng)新 構(gòu)筑技術(shù)護城河
在模型核心上,它實現(xiàn)了三大根本創(chuàng)新:第一,層次化對齊架構(gòu),讓模型能像人眼一樣,同時把握宏觀場景與微觀細節(jié),實現(xiàn)從“看得見”到“看得清”的跨越。第二,動態(tài)注意力機制,使模型可以智能聚焦于圖像關(guān)鍵區(qū)域,以最小算力代價換取精準的細節(jié)捕捉能力。第三,雙語協(xié)同優(yōu)化策略,從底層解決了中英文理解不平衡的難題,實現(xiàn)了真正的雙語原生支持。
卓越的性能離不開強大的底層支撐。FG-CLIP2依托于自研的超大規(guī)模高質(zhì)量數(shù)據(jù)集FineHARD。該數(shù)據(jù)集不僅包含詳盡的全局描述和千萬級的局部區(qū)域標注,還創(chuàng)新性地引入了由大模型生成的“難負樣本”,極大地錘煉了模型的辨別能力。

FG-CLIP2訓練策略
在訓練方法上,模型采用了革命性的兩階段策略。其關(guān)鍵的第二階段摒棄了傳統(tǒng)CLIP的“整體對整體”的粗放對齊模式,升級為“局部對局部”的精細對齊,這正是其實現(xiàn)細粒度理解的精髓所在。
通過這一系列緊密結(jié)合的技術(shù)創(chuàng)新,F(xiàn)G-CLIP2成功攻克了長期困擾行業(yè)的“細粒度識別”難題,并將其領(lǐng)先能力通過API等形式開放,賦能千行百業(yè)的智能化升級。
告別“差不多”AI:細粒度視覺撬動產(chǎn)業(yè)新支點
FG-CLIP2的價值不僅在于實驗室指標的領(lǐng)先,更在于其廣泛而深遠的行業(yè)應(yīng)用潛力,推動AI從“感知”走向“認知”,從“可用”走向“好用”。
在電商領(lǐng)域,它能精準理解“白色蕾絲邊、袖口有珍珠裝飾的連衣裙”等復雜描述,實現(xiàn)“所想即所得”的精準搜索,徹底革新商品檢索與推薦體驗,減少退貨率,直接提升商業(yè)轉(zhuǎn)化。
在具身智能領(lǐng)域,它是機器人的“慧眼”,能精準執(zhí)行“拿餐桌上的紅色水杯”或“把玩具放進綠色收納箱”等指令,通過精準識別物體屬性與空間關(guān)系,讓機器人在家庭、倉儲等復雜場景中的操作成為可能。
此外,其能力同樣賦能于AIGC內(nèi)容生成、內(nèi)容審核及安防監(jiān)控等多個關(guān)鍵場景,通過洞察細節(jié),確保生成內(nèi)容的精準性、審核的可靠性以及安防檢索的高效性,為各行各業(yè)的智能化升級奠定堅實的視覺理解基石。
構(gòu)建AI底層能力:360的AI長期主義
FG-CLIP2的技術(shù)突破并非偶然,而是360對AI底層能力的長期堅持。作為國內(nèi)較早布局人工智能研究的企業(yè),360人工智能研究院已持續(xù)深耕多模態(tài)領(lǐng)域多年。從2021年起,在大模型方向上團隊累計在ICML、NeurIPS、ICCV等頂級會議發(fā)表論文12篇,并在多項國際AI競賽中奪冠。
此外,360依托瀏覽器、搜索、安全等豐富的業(yè)務(wù)生態(tài),積累了百億級的圖文數(shù)據(jù),并結(jié)合自研的大規(guī)模高質(zhì)量數(shù)據(jù)集FineHARD,為訓練FG-CLIP2這樣的頂尖模型提供了“數(shù)據(jù)燃料”。同時,強大的工程化能力確保了模型不僅在學術(shù)上領(lǐng)先,更能在實際業(yè)務(wù)中高效、穩(wěn)定地運行,其推理速度達到同類模型的1.5倍。
此次開源FG-CLIP2,是360在AI基礎(chǔ)模型領(lǐng)域的一次關(guān)鍵落子,其意義遠不止于展示技術(shù)實力,更是為中國構(gòu)建自主可控的AI技術(shù)體系,添上一塊重要基石。
(CIS)
衛(wèi)星通信管理制度及政策法規(guī)進一步完善……[詳情]
| 23:48 | 逐浪全球 吉利何以造就“中國汽車... |
| 23:48 | 第十五屆全國運動會開幕 體育賽事... |
| 23:48 | 電競“錢”景 不止賽事 |
| 23:48 | 多只基金放開大額申購限制 吸引資... |
| 23:48 | 基金主動“限高”規(guī)模以維護運行穩(wěn)... |
| 23:48 | AI+投顧:把“專屬理財師”裝進手... |
| 23:48 | 156家險企最新償付能力掃描:4家保... |
| 23:48 | 券商業(yè)績說明會透露投行及國際業(yè)務(wù)... |
| 23:47 | 磷酸鐵鋰市場產(chǎn)銷兩旺:頭部廠商訂... |
| 23:47 | 六氟磷酸鋰站上12萬元/噸 產(chǎn)業(yè)鏈迎... |
| 23:47 | 交通銀行承辦第八屆虹橋國際經(jīng)濟論... |
| 23:47 | 從超萬億元化債看房地產(chǎn)新生之路 |
版權(quán)所有《證券日報》社有限責任公司
互聯(lián)網(wǎng)新聞信息服務(wù)許可證 10120240020增值電信業(yè)務(wù)經(jīng)營許可證 京B2-20250455
京公網(wǎng)安備 11010602201377號京ICP備19002521號
證券日報網(wǎng)所載文章、數(shù)據(jù)僅供參考,使用前務(wù)請仔細閱讀法律申明,風險自負。
證券日報社電話:010-83251700網(wǎng)站電話:010-83251800 網(wǎng)站傳真:010-83251801電子郵件:xmtzx@zqrb.net
安卓
IOS
掃一掃,加關(guān)注
掃一掃,加關(guān)注