2022年9月9日,掘力計劃第23期線上技術分享活動以“AIGC的應用和創(chuàng)新”為主題,邀請到 Jina AI 工程師季光輝進行了主題為《多模態(tài)大模型為視覺障礙者打造無障礙數(shù)字體驗》的演講。他介紹了多模態(tài)人工智能產(chǎn)品 SceneXplain 如何通過算法創(chuàng)新,為殘障人士提供平等的數(shù)字體驗,網(wǎng)站鏈接:scenex.jinaai.cn/a/NEW。
直播回放地址:https://juejin.cn/live/jpowermeetup23

數(shù)字時代的無障礙體驗

隨著移動互聯(lián)網(wǎng)的興起,“無障礙”已成為這個時代的重要詞匯。它意味著不論性別、年齡或能力如何,每個人都能平等地獲得數(shù)字產(chǎn)品和服務。對殘障人士而言,無障礙體驗尤為關鍵。以視障群體為例,全球約有 2.85 億視力障礙者,其中包括 3900 萬盲人。因此,如何通過科技創(chuàng)新為他們提供更好的數(shù)字體驗,已成為一個非常迫切的需求。發(fā)達國家也開始出臺相關法規(guī),要求政府部門網(wǎng)站達到無障礙標準。
然而,就目前而言,無障礙體驗還存在諸多不足。以網(wǎng)站為例,歐盟內(nèi)僅有 34% 的政府網(wǎng)站達標;即便達標的網(wǎng)站,圖像描述也往往過于簡單或不準確。這主要是由于現(xiàn)有圖像描述算法的局限所致。
傳統(tǒng)圖像描述算法的局限

對視障用戶而言,網(wǎng)站圖片的替代文本是實現(xiàn)無障礙的關鍵。但手動編寫圖像描述是一項艱巨的工作,而現(xiàn)有算法生成的描述往往不夠豐富和準確。具體問題包括:
●圖像細節(jié)缺失:算法無法準確表達圖像的細節(jié),導致視障用戶難以理解圖像內(nèi)容。
●情感表達不足:算法無法捕捉圖像所要表達的氛圍與情感。
●空間關系理解不足:不同的空間關系會表達不同的意義,但算法難以識別。
●抗干擾能力弱:圖像質(zhì)量下降時,算法的描述能力會大幅降低。
總體來說,現(xiàn)有圖像描述算法要么只能生成圖像提示詞,無法形成流暢的語言描述;要么對復雜圖像理解不足,無法生成高質(zhì)量的描述。
SceneXplain:多模態(tài)算法生成高密度圖像描述

針對上述問題,Jina AI 研發(fā)的 SceneXplain 利用多模態(tài)深度學習算法,實現(xiàn)了圖像高密度描述的自動生成。該算法專注處理復雜場景圖像,通過多語言描述呈現(xiàn)圖像細節(jié)。其優(yōu)勢包括:
●捕捉圖像細節(jié)。可準確描述復雜圖像的場景元素、空間關系等細節(jié)。
●抓取圖像情感。可分析作品的語調(diào)和氛圍,幫助用戶理解圖像情感。
●生成連貫描述。融合多模態(tài)信息,以流暢自然的語言描述圖像。
●強大抗干擾。可應對低質(zhì)量、噪聲圖像,輸出可靠描述。
通過案例分析,SceneXplain 明顯優(yōu)于舊有算法。它可生成上下文豐富、情感細膩的描述,幫助視障用戶充分理解圖像所傳達的信息。

除圖像外,SceneXplain 也可自動描述視頻內(nèi)容。它可解析不同語言的視頻,識別關鍵場景,并產(chǎn)出多語言描述,帶來更好的視頻無障礙體驗。

對開發(fā)者而言,SceneXplain 提供靈活的 API 接口,支持自定義描述長度、語言等。開發(fā)者可以基于該API開發(fā)無障礙應用插件,為更多用戶提供無障礙服務。
以科技促進無障礙發(fā)展
數(shù)字時代,我們有責任利用科技力量,為每個人創(chuàng)造公平的數(shù)字體驗。SceneXplain 正是基于這樣的理念誕生的產(chǎn)品。它展示了人工智能算法的進步如何惠及殘障群體,為他們帶來比文字和圖像更豐富的數(shù)字體驗。讓我們一起期待人工智能為弱勢群體帶來更多驚喜,構(gòu)建充滿溫度與陽光的數(shù)字社會。