表格大小、種類與樣式復(fù)雜多樣,例如表格中存在不同的背景填充,不同的行列合并方法,不同的內(nèi)容文本類型等。并且現(xiàn)有文檔既包括現(xiàn)代的、電子的文檔,也有歷史的、掃描的手寫(xiě)文檔,它們的文檔樣式、所處光照環(huán)境以及紋理等都有比較大的差異。因此,表格識(shí)別一直是文檔識(shí)別領(lǐng)域的研究難點(diǎn)。好在,合合信息智能文字識(shí)別技術(shù)讓高精度表格識(shí)別成為現(xiàn)實(shí)。
在16年領(lǐng)域深耕中,合合信息智能文字識(shí)別技術(shù)覆蓋了圖片、PDF格式文檔中多種類的表格識(shí)別需求,包括有線表,三線表,無(wú)線表等,并且支持合并單元格、多表格并存等復(fù)雜情況的識(shí)別。
基于分治思想,合合信息引入深度學(xué)習(xí)技術(shù),將表格識(shí)別分為有線表識(shí)別和無(wú)線表識(shí)別兩種方案。有線表識(shí)別中,合合信息利用語(yǔ)義分割、角點(diǎn)回歸等技術(shù)方案還原有線表,在財(cái)報(bào)相關(guān)表格識(shí)別測(cè)試中,有線表識(shí)別單元格結(jié)構(gòu)準(zhǔn)確率高于98%。無(wú)線表識(shí)別則采用序列模型、規(guī)則匹配等方案,通過(guò)自研模型直接預(yù)測(cè)表格的邏輯結(jié)構(gòu),再得到表格的物理結(jié)構(gòu),在保證表格區(qū)域內(nèi)容的完整性的同時(shí),檢測(cè)準(zhǔn)確率較傳統(tǒng)方法顯著提升。
現(xiàn)階段,合合信息智能文字識(shí)別技術(shù)中的表格識(shí)別技術(shù)已被應(yīng)用于以“掃描全能王”為代表的C端APP中,通過(guò)“文件轉(zhuǎn)換excel”功能服務(wù)于大眾生活和辦公需求。近半年來(lái),“文件轉(zhuǎn)換excel”相關(guān)功能累計(jì)被調(diào)用百萬(wàn)次。
B端領(lǐng)域中,作為合合信息智能文字識(shí)別引擎中的重要模塊,表格識(shí)別技術(shù)已落地在保險(xiǎn)、銀行、證券等行業(yè)中,應(yīng)用于合同、銀行流水、物流單據(jù)識(shí)別等多個(gè)場(chǎng)景。
據(jù)悉,合合信息是一家人工智能及大數(shù)據(jù)科技企業(yè),從2006年創(chuàng)立至今,堅(jiān)持深耕智能文字識(shí)別應(yīng)用及商業(yè)大數(shù)據(jù)核心技術(shù)領(lǐng)域,通過(guò)C端、B端產(chǎn)品以及行業(yè)解決方案,為全球百余個(gè)國(guó)家和地區(qū)的億級(jí)用戶及近30個(gè)行業(yè)的企業(yè)客戶提供創(chuàng)新的數(shù)字化、智能化服務(wù)。
近三年來(lái),合合信息先后在ICDAR、ICPR等人工智能國(guó)際競(jìng)賽中斬獲15項(xiàng)冠軍,學(xué)術(shù)成果在CVPR、AAAI、ACL、ACM MM等頂會(huì)上發(fā)表,相關(guān)項(xiàng)目獲中國(guó)圖象圖形學(xué)學(xué)會(huì)(CSIG)科技進(jìn)步獎(jiǎng)二等獎(jiǎng)。在今年8月的CSIG圖像圖形技術(shù)挑戰(zhàn)賽中,合合信息參與的賽隊(duì)奪得總冠軍。