在人工智能領域,谷歌再度邁出了令人矚目的一步,推出了三款基于Gemma架構的創新模型:MedGemma、SignGemma和DolphinGemma。這些模型分別針對醫療、手語翻譯以及海豚語言研究,展現了AI在多元化應用場景下的強大潛力。
首先,MedGemma是谷歌為醫療行業量身打造的AI模型,分為4B多模態版本和27B文字推理版本。4B版本能夠處理圖像與文本的組合任務,在醫療影像診斷、報告生成等方面表現出色,適用于胸部X光片、皮膚科圖像、眼科圖像和病理切片等數據的處理。而27B版本則專注于文本處理,擁有強大的推理能力,適用于病歷分析、醫療問答等復雜場景。這兩款模型均能在單塊GPU上高效運行,為醫療開發者提供了靈活多樣的選擇。
谷歌通過Health AI Developer Foundations計劃發布了MedGemma,旨在加速醫療應用的開發進程。未來,開發者將能夠利用這些模型構建更加智能的醫療工具,推動精準醫療的發展。
其次,SignGemma是一款專為手語翻譯設計的AI模型,重點支持美國手語(ASL)到英語的翻譯。這款模型能夠將手語動作轉化為口語文本,為聾啞患者和開發者提供了一種全新的交互方式。SignGemma在手語理解方面表現出色,被譽為迄今為止最強大的手語理解模型。谷歌計劃在未來進一步擴展SignGemma的多語言支持,助力全球聾啞社區實現無障礙溝通。
基于SignGemma,開發者可以開發出實時手語翻譯工具、教育平臺等創新應用,為聾啞群體帶來更多便利。這一模型的推出,無疑將推動手語翻譯技術的進一步發展。
最后,DolphinGemma是谷歌與Wild Dolphin Project(WDP)和喬治亞理工學院合作開發的創新模型,旨在分析和生成海豚的復雜聲音。這款模型基于40年積累的北大西洋斑點海豚聲學數據,能夠識別特定聲音模式,并預測聲音序列。DolphinGemma已集成到WDP的CHAT系統中,通過智能手機界面實現實時海豚聲音分析。
研究人員甚至嘗試通過合成哨聲與海豚進行簡單交互,這一成果為跨物種溝通的研究提供了新的思路。谷歌計劃于今年夏季將DolphinGemma開源,允許更多研究者將其應用于其他鯨類物種,加速跨物種溝通的研究進程。
這三款模型均基于Gemma架構,兼顧高效性和適應性。然而,Gemma系列的非標準許可條款也引發了一些開發者對商業應用的擔憂。未來,谷歌需要進一步優化許可政策,以提升模型的商業化潛力。