上海軟件中心參與首屆長(cháng)三角人工智能與醫療大健康創(chuàng )新應用大會(huì )并獲“長(cháng)三角智慧醫療健康產(chǎn)業(yè)優(yōu)秀案例”

2025年5月27日，由閔行區顓橋鎮人民政府，上?，F代服務(wù)業(yè)聯(lián)合會(huì )大健康服務(wù)專(zhuān)委會(huì )、醫療服務(wù)專(zhuān)委會(huì )、養老服務(wù)專(zhuān)委會(huì )，上海市人工智能技術(shù)協(xié)會(huì )聯(lián)合主辦的"AI賦能醫療，拓界健康生態(tài)"首屆長(cháng)三角人工智能與醫療大健康創(chuàng )新應用大會(huì )在閔行區大零號灣國際會(huì )議中心隆重舉行。本次大會(huì )匯聚了來(lái)自政府、產(chǎn)業(yè)、學(xué)術(shù)、醫療等領(lǐng)域的500余位代表，共同探討人工智能與醫療大健康產(chǎn)業(yè)的深度融合與創(chuàng )新發(fā)展。

上海計算機軟件技術(shù)開(kāi)發(fā)中心的“醫學(xué)多模態(tài)大模型系統測評解決方案”在大會(huì )上榮獲“長(cháng)三角智慧醫療健康產(chǎn)業(yè)優(yōu)秀案例”。

案例介紹

該案例中，上海計算機軟件技術(shù)開(kāi)發(fā)中心為檢測某市三甲醫院研發(fā)的醫學(xué)多模態(tài)大模型系統功能完備、性能穩定、安全可靠，對系統進(jìn)行了全方位測試與驗證，分析系統的每個(gè)功能模塊，設計覆蓋多場(chǎng)景、多任務(wù)、多維度的醫療大模型測試用例，有效識別潛在缺陷并推動(dòng)關(guān)鍵功能模塊的優(yōu)化，為其后續的臨床部署和上線(xiàn)運行提供了客觀(guān)、權威的質(zhì)量依據。

測評工作重點(diǎn)

被測系統為多模態(tài)大模型，不適宜用傳統軟件測試方法對其進(jìn)行測評，除了驗證系統性能效率、可靠性和維護性等傳統指標，測評重點(diǎn)需關(guān)注多模態(tài)數據處理準確性、復雜場(chǎng)景對話(huà)流暢性、一致性、安全合規性等核心指標。

測評方案概述

測評難點(diǎn)

被測系統主要處理醫學(xué)領(lǐng)域多模態(tài)數據，此類(lèi)數據往往涉及患者隱私，獲取難度較高；醫院不同科室文檔、檢驗報告格式存在一定差異，測評數據需覆蓋不同科室文檔格式及異常情況；另外需確保系統輸出符合倫理道德、法律法規，不會(huì )產(chǎn)生幻覺(jué)。綜上所述，該系統測評難點(diǎn)主要為領(lǐng)域多模態(tài)測試數據復雜度高且獲取難度大、場(chǎng)景適配復雜以及安全與合規要求高。

測評難點(diǎn)與方法

測評案例創(chuàng )新點(diǎn)

1.全場(chǎng)景、多模態(tài)測評

測評團隊從GMAI-MMBench等醫療多模態(tài)大模型測評基準中獲取數據，使用自研大模型測評工具箱進(jìn)行數據增廣，針對多模態(tài)醫學(xué)文檔智能識別、字段結構化抽取、多模態(tài)醫學(xué)數據分析及交互、異常檢測及健康建議生成等功能設計差異化測試場(chǎng)景，采用準確率、召回率、F1值、工具箱自動(dòng)測評與人機協(xié)同打分等指標和方法進(jìn)行全場(chǎng)景、多模態(tài)的測評。

2.多智能體協(xié)作的幻覺(jué)挖掘測評

測評團隊采用多智能體協(xié)作的幻覺(jué)挖掘測評方法，由自然語(yǔ)言處理專(zhuān)家、認知科學(xué)和心理學(xué)專(zhuān)家、統計和信息科學(xué)專(zhuān)家智能體從不同維度對幻覺(jué)問(wèn)題和被測系統回答進(jìn)行評估，實(shí)現自動(dòng)化幻覺(jué)測評并生成報告，確保系統安全合規。

多智能體協(xié)作的幻覺(jué)挖掘測評

測評案例貢獻

該方案測評工作遵循了上海計算機軟件技術(shù)開(kāi)發(fā)中心參與制定的國家標準GB/T 45288.2-2025《人工智能大模型第2部分：評測指標與方法》，推動(dòng)大模型測評標準應用落地，并將其在醫療領(lǐng)域進(jìn)一步推廣；測評體系及標準化方案可應用至其他醫療細分領(lǐng)域，為全國醫療AI規范化的測評提供技術(shù)范本。

該方案建立了醫療領(lǐng)域多模態(tài)測試數據體系，實(shí)現了全場(chǎng)景、多模態(tài)的測評，驗證了智能體協(xié)作測評的可靠性，可保證所驗證通過(guò)的醫療大模型系統診療準確性、安全合規性，賦能基層醫院精準診療，提升用戶(hù)信任度。