掘力計劃第23期多模態(tài)大模型為視覺障礙者打造無障礙數(shù)字體驗-魔扣目錄

2022年9月9日，掘力計劃第23期線上技術分享活動以“AIGC的應用和創(chuàng)新”為主題，邀請到 Jina AI 工程師季光輝進行了主題為《多模態(tài)大模型為視覺障礙者打造無障礙數(shù)字體驗》的演講。他介紹了多模態(tài)人工智能產(chǎn)品 SceneXplain 如何通過算法創(chuàng)新，為殘障人士提供平等的數(shù)字體驗，網(wǎng)站鏈接：scenex.jinaai.cn/a/NEW。

直播回放地址：https://juejin.cn/live/jpowermeetup23

數(shù)字時代的無障礙體驗

隨著移動互聯(lián)網(wǎng)的興起，“無障礙”已成為這個時代的重要詞匯。它意味著不論性別、年齡或能力如何，每個人都能平等地獲得數(shù)字產(chǎn)品和服務。對殘障人士而言，無障礙體驗尤為關鍵。以視障群體為例，全球約有 2.85 億視力障礙者，其中包括 3900 萬盲人。因此，如何通過科技創(chuàng)新為他們提供更好的數(shù)字體驗，已成為一個非常迫切的需求。發(fā)達國家也開始出臺相關法規(guī)，要求政府部門網(wǎng)站達到無障礙標準。

然而，就目前而言，無障礙體驗還存在諸多不足。以網(wǎng)站為例，歐盟內(nèi)僅有 34% 的政府網(wǎng)站達標;即便達標的網(wǎng)站，圖像描述也往往過于簡單或不準確。這主要是由于現(xiàn)有圖像描述算法的局限所致。

傳統(tǒng)圖像描述算法的局限

對視障用戶而言，網(wǎng)站圖片的替代文本是實現(xiàn)無障礙的關鍵。但手動編寫圖像描述是一項艱巨的工作，而現(xiàn)有算法生成的描述往往不夠豐富和準確。具體問題包括：

●圖像細節(jié)缺失：算法無法準確表達圖像的細節(jié)，導致視障用戶難以理解圖像內(nèi)容。

●情感表達不足：算法無法捕捉圖像所要表達的氛圍與情感。

●空間關系理解不足：不同的空間關系會表達不同的意義，但算法難以識別。

●抗干擾能力弱：圖像質(zhì)量下降時，算法的描述能力會大幅降低。

總體來說，現(xiàn)有圖像描述算法要么只能生成圖像提示詞，無法形成流暢的語言描述;要么對復雜圖像理解不足，無法生成高質(zhì)量的描述。

SceneXplain：多模態(tài)算法生成高密度圖像描述

針對上述問題，Jina AI 研發(fā)的 SceneXplain 利用多模態(tài)深度學習算法，實現(xiàn)了圖像高密度描述的自動生成。該算法專注處理復雜場景圖像，通過多語言描述呈現(xiàn)圖像細節(jié)。其優(yōu)勢包括：

●捕捉圖像細節(jié)。可準確描述復雜圖像的場景元素、空間關系等細節(jié)。

●抓取圖像情感。可分析作品的語調(diào)和氛圍，幫助用戶理解圖像情感。

●生成連貫描述。融合多模態(tài)信息，以流暢自然的語言描述圖像。

●強大抗干擾。可應對低質(zhì)量、噪聲圖像，輸出可靠描述。

通過案例分析，SceneXplain 明顯優(yōu)于舊有算法。它可生成上下文豐富、情感細膩的描述，幫助視障用戶充分理解圖像所傳達的信息。

除圖像外，SceneXplain 也可自動描述視頻內(nèi)容。它可解析不同語言的視頻，識別關鍵場景，并產(chǎn)出多語言描述，帶來更好的視頻無障礙體驗。

對開發(fā)者而言，SceneXplain 提供靈活的 API 接口，支持自定義描述長度、語言等。開發(fā)者可以基于該API開發(fā)無障礙應用插件，為更多用戶提供無障礙服務。

以科技促進無障礙發(fā)展

數(shù)字時代，我們有責任利用科技力量，為每個人創(chuàng)造公平的數(shù)字體驗。SceneXplain 正是基于這樣的理念誕生的產(chǎn)品。它展示了人工智能算法的進步如何惠及殘障群體，為他們帶來比文字和圖像更豐富的數(shù)字體驗。讓我們一起期待人工智能為弱勢群體帶來更多驚喜，構(gòu)建充滿溫度與陽光的數(shù)字社會。