中文人妻字幕一区二区,亚洲AV片刘玥在线观看,在线观看欧美一区,国产对白高清在线视频,日韩专区一区二区在线摇放

上海軟件中心參與首屆長(cháng)三角人工智能與醫療大健康創(chuàng )新應用大會(huì )并獲“長(cháng)三角智慧醫療健康產(chǎn)業(yè)優(yōu)秀案例”

2025年5月27日,由閔行區顓橋鎮人民政府,上?,F代服務(wù)業(yè)聯(lián)合會(huì )大健康服務(wù)專(zhuān)委會(huì )、醫療服務(wù)專(zhuān)委會(huì )、養老服務(wù)專(zhuān)委會(huì ),上海市人工智能技術(shù)協(xié)會(huì )聯(lián)合主辦的"AI賦能醫療,拓界健康生態(tài)"首屆長(cháng)三角人工智能與醫療大健康創(chuàng )新應用大會(huì )在閔行區大零號灣國際會(huì )議中心隆重舉行。本次大會(huì )匯聚了來(lái)自政府、產(chǎn)業(yè)、學(xué)術(shù)、醫療等領(lǐng)域的500余位代表,共同探討人工智能與醫療大健康產(chǎn)業(yè)的深度融合與創(chuàng )新發(fā)展。

上海計算機軟件技術(shù)開(kāi)發(fā)中心的“醫學(xué)多模態(tài)大模型系統測評解決方案”在大會(huì )上榮獲“長(cháng)三角智慧醫療健康產(chǎn)業(yè)優(yōu)秀案例”。

案例介紹

該案例中,上海計算機軟件技術(shù)開(kāi)發(fā)中心為檢測某市三甲醫院研發(fā)的醫學(xué)多模態(tài)大模型系統功能完備、性能穩定、安全可靠,對系統進(jìn)行了全方位測試與驗證,分析系統的每個(gè)功能模塊,設計覆蓋多場(chǎng)景、多任務(wù)、多維度的醫療大模型測試用例,有效識別潛在缺陷并推動(dòng)關(guān)鍵功能模塊的優(yōu)化,為其后續的臨床部署和上線(xiàn)運行提供了客觀(guān)、權威的質(zhì)量依據。


測評工作重點(diǎn)

被測系統為多模態(tài)大模型,不適宜用傳統軟件測試方法對其進(jìn)行測評,除了驗證系統性能效率、可靠性和維護性等傳統指標,測評重點(diǎn)需關(guān)注多模態(tài)數據處理準確性、復雜場(chǎng)景對話(huà)流暢性、一致性、安全合規性等核心指標。

測評方案概述


測評難點(diǎn)

被測系統主要處理醫學(xué)領(lǐng)域多模態(tài)數據,此類(lèi)數據往往涉及患者隱私,獲取難度較高;醫院不同科室文檔、檢驗報告格式存在一定差異,測評數據需覆蓋不同科室文檔格式及異常情況;另外需確保系統輸出符合倫理道德、法律法規,不會(huì )產(chǎn)生幻覺(jué)。綜上所述,該系統測評難點(diǎn)主要為領(lǐng)域多模態(tài)測試數據復雜度高且獲取難度、場(chǎng)景適配復雜以及安全與合規要求。


測評難點(diǎn)與方法

測評案例創(chuàng )新點(diǎn)

1.全場(chǎng)景、多模態(tài)測評

測評團隊GMAI-MMBench醫療多模態(tài)大模型測評基準中獲取數據,使用自研大模型測評工具箱進(jìn)行數據增廣,針對多模態(tài)醫學(xué)文檔智能識別、字段結構化抽取、多模態(tài)醫學(xué)數據分析及交互、異常檢測及健康建議生成等功能設計差異化測試場(chǎng)景,采用準確率、召回率、F1值、工具箱自動(dòng)測評人機協(xié)同打分等指標和方法進(jìn)行全場(chǎng)景、多模態(tài)的測評。

2.多智能體協(xié)作的幻覺(jué)挖掘測評

測評團隊采用多智能體協(xié)作的幻覺(jué)挖掘測評方法,由自然語(yǔ)言處理專(zhuān)家、認知科學(xué)和心理學(xué)專(zhuān)家、統計和信息科學(xué)專(zhuān)家智能體從不同維度對幻覺(jué)問(wèn)題和被測系統回答進(jìn)行評估,實(shí)現自動(dòng)化幻覺(jué)測評并生成報告,確保系統安全合規。

多智能體協(xié)作的幻覺(jué)挖掘測評

測評案例貢獻

該方案測評工作遵循了上海計算機軟件技術(shù)開(kāi)發(fā)中心參與制定的國家標準GB/T 45288.2-2025《人工智能大模型第2部分:評測指標與方法》,推動(dòng)大模型測評標準應用落地,并將其在醫療領(lǐng)域進(jìn)一步推廣;測評體系及標準化方案可應用至其他醫療細分領(lǐng)域,為全國醫療AI規范化的測評提供技術(shù)范本。

該方案建立了醫療領(lǐng)域多模態(tài)測試數據體系,實(shí)現了全場(chǎng)景、多模態(tài)的測評,驗證了智能體協(xié)作測評的可靠性,可保證所驗證通過(guò)的醫療大模型系統診療準確性、安全合規性,賦能基層醫院精準診療,提升用戶(hù)信任度。


后續,上海計算機軟件技術(shù)開(kāi)發(fā)中心也將繼續深化大模型測評的研究與應用,推動(dòng)垂直領(lǐng)域測試數據體系構建、智能化測評工具鏈研發(fā)及智能體測試方法論創(chuàng )新,助力產(chǎn)業(yè)高質(zhì)量發(fā)展。

版權所有 ?2021. 上海計算機軟件技術(shù)開(kāi)發(fā)中心 All Rights Reserved 滬公網(wǎng)安備 31011202012393號,滬ICP備14033306號-25

中文人妻字幕一区二区,亚洲AV片刘玥在线观看,在线观看欧美一区,国产对白高清在线视频,日韩专区一区二区在线摇放