在2021年的春季新品發布會上, 漢王發布了其手稿識別技術。基于深度學習技術,在海量數據訓練基礎上,經多年研發,漢王科技突破性解決了自由書寫文稿識別這一OCR領域難題,這是文字識別領域的一項重大技術突破。面對自由書寫的文稿內容,利用此技術只要隨手一拍,就可以秒級轉換為文本。無論是背景干擾嚴重的復印紙、還是形狀彎曲的紙稿,都可以輕松應對,真正做到了人眼可辨即可識。
作為業界最早致力于OCR識別技術研發和應用的公司之一,自2013年,漢王科技就將文檔電子化的觸角延伸至圖書館、檔案館,銀行、醫院、法院等多個國家級項目。在圖書館領域,漢王已與國家圖書館持續合作了十三個年頭。從最初的圖書掃描加工,到元數據加工,再到高精度全文加工;從簡體中文識別,到繁體中文識別,再到高難度的古籍識別;從紙質文獻到電子文獻;從內容加工服務到管理平臺建設,漢王深度與國家圖書館合作,不斷挑戰新的業務高度。
但在此過程中,利用OCR技術僅僅是將紙質文檔變成數字化文本,這樣的電子文檔沒有對文本進行挖掘、知識之間缺乏關聯,被電腦檢索也只是對比相同字符搜集信息。要將海量的電子文檔智慧化,就必須將文字信息形成結構化數據,只有形成結構化數據,信息和知識之間形成關聯,才能為大數據應用服務,這涉及到人工智能技術中的自然語言處理技術(NLP),業界普遍認為,NLP是人工智能中最難的部分,也是決定AI是否智能的關鍵因素。
2015年,得益于深度學習算法的快速進展,大規模社交文本數據以及語料數據的不斷積累,NLP技術有了飛躍式的發展。漢王也順勢開始了其在NLP技術方面的布局。漢王科技與武漢大學的自然語言處理團隊聯合進行文檔大數據化研發工作,力圖突破NLP技術,建立起自己的文檔大數據庫體系,開發各種新的應用,主攻包括文本分類、聚類、結構化數據抽取、知識抽取、知識圖譜、機器閱讀等在內的NLP技術。
在對文史出版社叢書文獻進行知識加工過程中,通過從文獻中碎片化抽取、清洗、歸集、融合得到基礎數據,深度加工挖掘得到人物、地點、機構、事件類的知識條目,再基于知識條目構建人物庫、地點庫、機構庫、事件庫等知識資源庫,并通過關系定義實現跨類別的知識關聯,提供了超越圖書內容信息的深度知識服務。
近日,在承接的國家圖書館"智慧圖書館體系建設項目"中,漢王針對民國文獻數字資源開展知識化加工,完成數字資源精細化標引和知識內容抽取,細化文獻顆粒度,多維度揭示文獻的知識內容,并開展多維度、多層次知識組織,提供基于知識圖譜的可視化展示。該項目實施過程中就應用到了包括基于深度學習的新一代文字識別、自然語言理解、智能抽取、知識圖譜構建、數據可視化等多項人工智能創新型技術。這將是雙方在人工智能新時代,針對文化領域的一個重點創新與嘗試,其成果將作為全國智慧圖書館體系建設的重要參考之一。
上圖是漢王基于對民國史料海量數據的識別,利用NLP技術形成的知識圖譜,,形成更為有效的智能化方式,提供智能搜索、深度問答等,讓知識“活起來”,更好的服務人民大眾。據悉,漢王還為中華字庫完成了8億字的數字化工作。
在技術迭代升級中,漢王還推出了中英文雙核心,英文手稿也做到了高精度識別。自由手寫體95%以上的識別率、0.3秒/頁的轉換速度,至少是人工錄入的500倍。一個資料室的手稿錄入,需要50個人做10年,而利用漢王的技術只需要1臺機器跑3個月。
漢王一直在手寫OCR領域不斷加速新算法開發,當前不僅可高精度識別滿文,在藏文、日文、英文手寫體識別方向均有突破,其中,日文手寫識別支持7389字符集,并支持水平和豎直書寫識別,識別率可達97%。
為進一步加強公共數字文化建設,提升全民閱讀、全民藝術普及數字化服務水平,“十四五”時期,文化和旅游部面向公共圖書館系統組織實施全國智慧圖書館體系建設項目、面向文化館系統組織實施公共文化云建設項目。近日,中央財政下達了2021年中央支持地方公共文化服務體系建設補助資金,為全國智慧圖書館體系建設項目、公共文化云建設項目安排了相關資金。相關資料顯示,中國圖書館數字化市場達5000億元,近幾年來,漢王科技在其OCR與大數據業務板塊上的可以說是大比例投入,面對當前方興未艾的數字化浪潮,漢王科技的布局也是“小荷才露尖尖角”。隨著國家數字化建設和市場的打開,大規模技術與行業紅利將不斷顯現,漢王也將在這一賽道上或將迎來新一輪的增長。