Site logo

尋找金融領域的ImageNet——首個信貸多模態評測基準背後的產業與學術對話

時間2026-02-06 13:23:44

奇富科技-S

下載霸財智贏APP,買賣點即市預警,炒家心水交流 >>

2月5日,圍繞“信貸多模態AI如何定標準”,奇富科技(QFIN.US)舉辦了一場聚焦產業與學術前沿的直播討論。直播中,奇富科技聯合復旦大學、華南理工大學研究人員近期發佈的首個面向信貸場景的多模態評測基準FCMBench-V1.0成爲核心議題。該評測基準源自真實信貸業務場景,圍繞多模態感知、推理與決策等關鍵環節設計評估任務,並同步開源數據集與評測工具,試圖爲金融AI建立一把可被廣泛認可的“尺子”。

image.png

“信貸多模態AI如何定標準”主題直播現場

在這場對話中,來自產業一線與學術前沿的三位嘉賓,從不同視角指向了同一個問題:如果沒有統一標準,金融AI很難真正落地。

作爲奇富科技多模態負責人,楊葉輝博士首先從產業實踐談起。他用“鋤頭與土地”做比喻,形象闡釋了AI與應用場景之間的關係:AI是工具,而金融、醫療這樣的高門檻行業則是足夠“肥沃”的土地。正因爲金融業務對隱私、安全與合規有着天然的高要求,模型能力是否真的可靠,不能只靠“自說自話”。

image.png

奇富科技多模態負責人楊葉輝直播分享現場

“評測先行,本質上是在做一把尺子。”楊葉輝指出,當前金融機構在選擇模型和方案時,常常陷入“不同模型分別聲稱得到了95分和98分,到底哪個好?”的困惑。沒有統一、公平、公開的評測體系,決策就容易失焦。FCMBench的價值,正在於把模型拉到同一條起跑線上,讓能力在真實業務條件下接受檢驗。

爲此,FCMBench在設計上強調“實戰性”。從合規前提下重構數據體系,到任務層面對真實業務流程的映射,再到對光線、角度、反光等十餘種真實幹擾場景的模擬,評測直指金融風控中最具挑戰性的推理問題。比如,職業信息與異常流水之間的矛盾識別,正是檢驗大模型是否具備金融推理能力的關鍵一環。楊葉輝坦言,做評測基準並非短期收益項目,但從長期看,行業共識和開源力量的形成終將反哺業務本身。

華南理工大學許言午教授則從跨行業經驗出發,爲金融AI的發展提供了另一種參照。他指出,很多人直覺上覺得AI在金融領域“存在感不強”,其實並不準確。AI早已深度參與保險定價、資產評估和量化交易,只是這些價值並不直接呈現在ToC產品中,因此“看不見”。

image.png

華南理工大學長聘教授,人工智能與數字經濟廣東省實驗室(琶洲實驗室)研究員許言午直播分享現場

對比醫療AI長達十餘年的研發與審批週期,許言午認爲,金融行業更短的業務迭代週期,反而爲模型評測和更新提供了現實土壤。他將數據集的發展分爲三個階段:先夯實數據質量,再通過學術與賽事運營形成影響力,最終獲得行業層面的官方認可,成爲類似託福、雅思那樣的“准入門檻”。在他看來,FCMBench正處在一個極具潛力的起點。

從更宏觀的視角出發,復旦大學陳濤教授將討論拉回到AI發展史本身。他指出,深度學習真正的分水嶺,並不只是算法突破,而是ImageNet的出現,讓評測尺度第一次實現了數量級躍遷,終結了小數據集時代“各說各話”的局面。

image.png

復旦大學人事處副處長、教授、博士生導師,上海創智學院導師陳濤直播分享現場

“金融AI現在正處在類似的階段。”陳濤強調,從數據規模、任務覆蓋度到評測設計的系統性來看,FCMBench已經是目前國內金融領域,乃至國際金融AI研究中規模最大、最具權威性、同時也是少有的統一評測基準。更重要的是,它並非爲某一家機構服務,而是以行業共識爲目標,定義了真正有價值的問題邊界。

在陳濤看來,好的數據集本身就是對“好問題”的定義。重要的是,金融AI不能停留在通用模型的預訓練與微調階段,而應構建內生的金融思維鏈,讓模型天然理解利率、規則與風險,實現安全可信的推理能力。這也是學界與產業必須協同解決的問題。

在總結環節,主持人、36氪高級內容總監楊軒表示,奇富科技率先邁出了關鍵一步,但要讓金融AI真正走向規模化、規範化發展,仍有賴於產業、學界與研究機構的持續共建。她也在直播中向行業發出邀請,期待更多夥伴參與到數據集測試、評測與賽事中來,讓這個“金融領域的ImageNet”,在協同中不斷校準,在共識中真正成型。

免責聲明:本資訊不構成建議或操作邀約,市場有風險,投資需謹慎!