微軟最新推出的AI醫療診斷系統MAI-DxO,在復雜病例的診斷上取得了突破性進展。該系統不僅將診斷準確率提升至人類醫生的四倍,還成功將醫療成本削減了近70%。這一革命性的表現得益于一項全新的基準測試,即順序診斷基準(SDBench),它模擬了臨床醫生的實際診斷流程。
在《利用語言模型進行順序診斷》的論文中,研究團隊深入闡述了MAI-DxO的設計理念及其卓越表現。面對極具挑戰性的病例,該系統在準確性和成本效益方面均大幅超越了人類醫生。為了驗證其實際效果,團隊精心設計了SDBench,它不同于傳統的醫學AI測試,而是采用逐步提供信息的方式,模擬真實的臨床決策過程。
測試結果顯示,來自美國和英國的21名經驗豐富的全科醫生,其診斷準確率僅為19.9%,平均每個病例的費用高達2963美元。相比之下,結合了OpenAI的o3模型的MAI-DxO系統,診斷準確率高達79.9%,而平均成本僅為2397美元。值得注意的是,盡管o3模型在標準測試中達到了78.6%的最高準確率,但其平均費用卻高達7850美元。而MAI-DxO系統在提升準確率的同時,成功將成本降低了近70%。
MAI-DxO系統的出色表現部分歸功于其獨特的虛擬醫生團隊設計。該團隊由多個角色組成,包括“假設醫生”、“測試選擇醫生”、“質疑醫生”、“成本監控醫生”和“檢查清單醫生”。這種多元化的結構設計旨在避免系統過早地陷入某一固定假設,從而提高診斷的準確性和全面性。
然而,研究團隊也坦誠地指出了該系統存在的局限性。首先,SDBench的測試案例均基于復雜的教學病例,未能全面反映日常診療中常見病癥的分布情況。其次,成本計算僅為粗略估算,未考慮現實世界中多種復雜因素的影響。參與測試的醫生均為全科醫生,在面對復雜病例時通常會轉介給專科醫生,且測試過程中未允許他們利用外部資源。