永久免费a∨片在线观看_日韩人妻精品无码一区二区三区_精品久久久久久无码人妻热_日日噜噜夜夜狠狠久久蜜桃

首頁
核心技術
產品體系
解決方案
動態資訊
關于我們
搜索
首頁 動態資訊 行業(ye)資訊

淺談智能文檔處理技術與應用

來源:易道博識 發布時間:2023-04-26
智(zhi)能(neng)文檔處理介(jie)紹
智能文檔處理(IDP)是(shi)利用人(ren)工(gong)智能技(ji)術,自動(dong)從復雜的非結構(gou)化和半結構(gou)化文檔中抽取關鍵數(shu)(shu)據(ju),并將(jiang)其(qi)轉換成結構(gou)化數(shu)(shu)據(ju)的技(ji)術。IDP又稱(cheng)為(wei)認(ren)知數(shu)(shu)據(ju)處理(Cognitive Data Processing)或智能數(shu)(shu)據(ju)捕獲(Intelligent Data Capturing)技(ji)術。
眾所周知,商業(ye)(ye)(ye)數(shu)據(ju)是(shi)企(qi)(qi)業(ye)(ye)(ye)數(shu)字化轉型的(de)(de)核(he)心。然而,現(xian)實中80%的(de)(de)商業(ye)(ye)(ye)數(shu)據(ju)都是(shi)非(fei)結構化格式,比如郵件、圖片和各種企(qi)(qi)業(ye)(ye)(ye)文(wen)檔,其中非(fei)結構化文(wen)檔占(zhan)據(ju)了絕大多數(shu)。據(ju)統計,到2025年,全球企(qi)(qi)業(ye)(ye)(ye)數(shu)據(ju)總量(liang)將達到175ZB。借助于IDP技術,企(qi)(qi)業(ye)(ye)(ye)能(neng)夠實現(xian)文(wen)檔自動化處(chu)理(li)、文(wen)檔語義理(li)解(jie)、智能(neng)審核(he)和數(shu)據(ju)智能(neng)分析等方面的(de)(de)功能(neng),提(ti)升企(qi)(qi)業(ye)(ye)(ye)用戶文(wen)檔處(chu)理(li)的(de)(de)效率和質(zhi)量(liang),為企(qi)(qi)業(ye)(ye)(ye)降本(ben)增(zeng)效。
智能文檔處理難點
從文檔的結(jie)構特(te)點上,我們(men)可以將現實世界的文檔劃分為結(jie)構化(hua)、半結(jie)構化(hua)和非結(jie)構化(hua)三(san)種(zhong)類型。對應到版(ban)式(shi)特(te)征(zheng)上,分別是固定版(ban)式(shi)、多(duo)版(ban)式(shi)和開放(fang)版(ban)式(shi)三(san)種(zhong)類型。
結(jie)構(gou)化文(wen)檔具有(you)版式(shi)固(gu)定的(de)特(te)點(dian),同(tong)(tong)一類(lei)型不(bu)同(tong)(tong)樣本(ben)之間沒有(you)差異,如(ru)固(gu)定版式(shi)的(de)信(xin)息采集表、申請文(wen)件等(deng)。半結(jie)構(gou)化文(wen)檔版式(shi)相(xiang)對固(gu)定,或稱為(wei)多版式(shi)文(wen)檔,同(tong)(tong)一類(lei)型不(bu)同(tong)(tong)樣本(ben)之間關(guan)鍵(jian)內(nei)容相(xiang)同(tong)(tong),但(dan)是往往內(nei)容出現的(de)位置卻不(bu)同(tong)(tong),如(ru)不(bu)同(tong)(tong)供應商(shang)采購(gou)的(de)送貨單(dan),每個供應商(shang)都(dou)不(bu)同(tong)(tong),但(dan)是其關(guan)鍵(jian)內(nei)容都(dou)包含(han)訂(ding)單(dan)號、商(shang)品信(xin)息等(deng)。
非結構化文(wen)檔(dang)又稱為開放版式文(wen)檔(dang),通(tong)常沒有顯著的(de)版式特(te)征,幾乎是純文(wen)本表(biao)達,雖(sui)然(ran)表(biao)達的(de)內容相同,但是表(biao)達方式卻差異(yi)很大。常見的(de)如合同、簡歷、招標文(wen)件等(deng)。
對(dui)于結構(gou)化和半結構(gou)化文檔(dang),由于版(ban)式相對(dui)固定(ding),當前行業內普遍的做法是通(tong)過(guo)模板或深度(du)學習模型(xing)的方法,完成分類(lei)和信息抽取等自(zi)動(dong)化處理(li),已(yi)經能夠解決大(da)多數應用場景的問題(ti)。但是,開放版(ban)式文檔(dang),由于其(qi)天然的諸(zhu)多難點,給(gei)智能文檔(dang)處理(li)帶來了(le)很大(da)的困難。如下(xia)表,是我們歸納(na)的開放版(ban)式文檔(dang)處理(li)的主要難點。


表1 開放版式(shi)文檔特點

智能文檔(dang)處理(li)核心(xin)技術
如表(biao)1,相(xiang)比于純文(wen)本或固定和(he)多版(ban)式文(wen)檔(dang),開(kai)放(fang)版(ban)式文(wen)檔(dang)處(chu)理具有(you)諸多難點。因此(ci),智(zhi)能(neng)文(wen)檔(dang)處(chu)理過程(cheng)必須綜(zong)合應用計算機視覺(CV)、光學(xue)字符處(chu)理(OCR)、文(wen)檔(dang)解析、自(zi)然語(yu)言處(chu)理(NLP)和(he)文(wen)檔(dang)信息抽取等關(guan)鍵技(ji)術(shu),才(cai)能(neng)更好地實現自(zi)動化(hua)和(he)智(zhi)能(neng)化(hua)處(chu)理。
計算機視覺(jue)(CV)技術(shu)

CV技術(shu)主要是(shi)對于(yu)文檔(dang)圖(tu)(tu)像(xiang)(xiang)進行(xing)各種(zhong)圖(tu)(tu)像(xiang)(xiang)處(chu)理(li),常見如(ru)圖(tu)(tu)像(xiang)(xiang)去噪聲(sheng)、去干擾、圖(tu)(tu)像(xiang)(xiang)增強、圖(tu)(tu)像(xiang)(xiang)壓縮、圖(tu)(tu)像(xiang)(xiang)分割等。其處(chu)理(li)目的(de)主要是(shi)為后續OCR環節提(ti)供高質量(liang)的(de)圖(tu)(tu)像(xiang)(xiang)輸入,以提(ti)升OCR的(de)性能。同(tong)時,利用圖(tu)(tu)像(xiang)(xiang)檢測和分割等技術(shu),可以實現文檔(dang)物理(li)版面解析(xi)。

  • 光學字符處理(OCR)技術

OCR是將紙質文(wen)(wen)檔、圖片等非數字(zi)(zi)(zi)化文(wen)(wen)件中的文(wen)(wen)字(zi)(zi)(zi)內容轉換為數字(zi)(zi)(zi)化格(ge)式的技術。當前主流實現(xian)上(shang),借助表格(ge)識(shi)(shi)別、印(yin)(yin)章識(shi)(shi)別、勾選(xuan)(xuan)和二維碼識(shi)(shi)別等技術,在OCR環節(jie)可以(yi)實現(xian)圖像中所有通用對象(xiang)(文(wen)(wen)字(zi)(zi)(zi)、表格(ge)、印(yin)(yin)章、勾選(xuan)(xuan)、二維碼、簽(qian)名等)的統一識(shi)(shi)別和輸出,作為后續智能化文(wen)(wen)檔處理環節(jie)的輸入。

  • 文檔解析技術

文(wen)(wen)(wen)檔解(jie)析(xi)(xi)是(shi)在文(wen)(wen)(wen)檔協議解(jie)析(xi)(xi)或OCR處理(li)的(de)結(jie)果(guo)上(shang),通(tong)過版面分析(xi)(xi)、表(biao)(biao)格(ge)解(jie)析(xi)(xi)等(deng)技術,實現文(wen)(wen)(wen)檔物理(li)和(he)(he)邏輯結(jie)構(gou)的(de)解(jie)析(xi)(xi),得(de)到文(wen)(wen)(wen)檔內容的(de)統(tong)(tong)一表(biao)(biao)示(shi)。以此(ci)作為進一步文(wen)(wen)(wen)檔分類(lei)、信息抽取和(he)(he)文(wen)(wen)(wen)檔比(bi)對(dui)等(deng)處理(li)的(de)輸入(ru)。IDP通(tong)常(chang)需要能夠支持所有格(ge)式的(de)文(wen)(wen)(wen)檔輸入(ru),包(bao)括圖片(pian)、PDF、Word、OFD等(deng),因(yin)此(ci),文(wen)(wen)(wen)檔解(jie)析(xi)(xi)環節(jie)需要能夠解(jie)析(xi)(xi)以上(shang)各種(zhong)格(ge)式的(de)輸入(ru)文(wen)(wen)(wen)件,將其轉換成統(tong)(tong)一的(de)表(biao)(biao)示(shi)形式,如JSON文(wen)(wen)(wen)件。

  • 自然語言處理(NLP)
NLP是一(yi)種利用計(ji)算機技(ji)術(shu)(shu)對自然語(yu)言(yan)進(jin)行分(fen)(fen)(fen)析(xi)和(he)處理的(de)(de)技(ji)術(shu)(shu),常(chang)見的(de)(de)NLP任務包(bao)括(kuo)分(fen)(fen)(fen)詞(ci)、詞(ci)性標注、句法(fa)分(fen)(fen)(fen)析(xi)、語(yu)義(yi)分(fen)(fen)(fen)析(xi)、文(wen)本(ben)(ben)(ben)分(fen)(fen)(fen)類、信息抽取、文(wen)檔摘要、情感(gan)分(fen)(fen)(fen)析(xi)等(deng)。IDP中主要使用的(de)(de)NLP技(ji)術(shu)(shu)包(bao)括(kuo)文(wen)本(ben)(ben)(ben)分(fen)(fen)(fen)類、文(wen)本(ben)(ben)(ben)信息抽取、語(yu)義(yi)理解等(deng)。通(tong)(tong)常(chang)的(de)(de)做法(fa)是將OCR輸出或(huo)文(wen)檔協(xie)議(yi)解析(xi)后的(de)(de)所有(you)文(wen)本(ben)(ben)(ben)塊進(jin)行拼接,得到文(wen)本(ben)(ben)(ben)序列,再通(tong)(tong)過文(wen)本(ben)(ben)(ben)分(fen)(fen)(fen)類、信息抽取等(deng)技(ji)術(shu)(shu),實(shi)現文(wen)檔的(de)(de)分(fen)(fen)(fen)類和(he)信息抽取。另外,通(tong)(tong)過NLP技(ji)術(shu)(shu),也可以對文(wen)檔進(jin)行自動(dong)摘要、情感(gan)分(fen)(fen)(fen)析(xi)和(he)智能問(wen)答等(deng)處理。
  • 文檔(dang)信(xin)息(xi)抽取
相比(bi)(bi)于(yu)純文(wen)(wen)本(ben),文(wen)(wen)檔的最(zui)大(da)(da)特(te)點是其(qi)富格(ge)式(shi)特(te)點。因(yin)此,文(wen)(wen)檔中信息(xi)(xi)抽取必須(xu)依賴于(yu)版(ban)面(mian)位置(zhi)等視覺特(te)征,比(bi)(bi)如從文(wen)(wen)檔中的圖表或表格(ge)中抽取信息(xi)(xi),或者從特(te)定版(ban)面(mian)位置(zhi)區域的結構(gou)化信息(xi)(xi)塊(kuai)中抽取信息(xi)(xi)。相比(bi)(bi)于(yu)簡單地從大(da)(da)段文(wen)(wen)本(ben)序(xu)列中做(zuo)信息(xi)(xi)抽取,文(wen)(wen)檔信息(xi)(xi)抽取技術(shu)難度(du)更大(da)(da)。
智能文檔處理流程(cheng)
如下圖,是智能文(wen)檔統(tong)一處(chu)理流程(cheng)。

圖1 智能(neng)文檔(dang)處(chu)理流程

主要包含以下環節:
  • 文檔預處理
該(gai)步驟(zou)主要針(zhen)對Word、PDF等文檔協議進行解析處理(li)。
  • OCR
通(tong)過通(tong)用OCR識別模型,對輸入(ru)的文檔圖像上的文字(zi)、印章、簽名、表格等通(tong)用要(yao)素進行識別,得到文本和位(wei)置,以及表格結構化數據。
  • 版面分(fen)析
利用(yong)版面分(fen)析技術,定(ding)位出文檔(dang)圖像上所有的標題(ti)、段(duan)落、表格(ge)、圖表、頁眉、頁腳等版面信息。再利用(yong)標題(ti)和段(duan)落等信息,做文檔(dang)邏(luo)輯(ji)結構分(fen)析,得(de)到(dao)文檔(dang)結構。
  • 信息抽取(qu)
基于版面和目錄分析(xi)的結(jie)(jie)果,結(jie)(jie)合文檔(dang)協(xie)議解析(xi)或OCR的結(jie)(jie)果,利用自然語言處(chu)理等技(ji)術,進行文檔(dang)關鍵信息抽取(qu)。
  • 信(xin)息校驗(yan)
利(li)用預(yu)(yu)設的(de)(de)規(gui)則,對(dui)抽取出的(de)(de)信息進(jin)行(xing)校(xiao)驗,包括數(shu)據(ju)格式檢查、預(yu)(yu)設的(de)(de)審閱規(gui)則檢查等。
智能文(wen)檔(dang)處理應用場景
主要的智能文(wen)檔處理應(ying)用場景包(bao)括(kuo):
  • 分類和標簽(qian)化
通過智能文檔處理技術,可以對大量文檔進行分類和標簽(qian)化,從而實現文檔的快速檢索、內容推薦和歸(gui)檔處理等功(gong)能。
  • 信息抽取(qu)
智能(neng)(neng)(neng)文檔(dang)(dang)處理可以(yi)幫(bang)助(zhu)從文檔(dang)(dang)中(zhong)抽取關(guan)鍵(jian)信息,如關(guan)鍵(jian)的短語(yu)、實體、事件等(deng)。這(zhe)些(xie)信息在知(zhi)識圖譜(pu)構建、智能(neng)(neng)(neng)搜(sou)索、智能(neng)(neng)(neng)比對、智能(neng)(neng)(neng)問答等(deng)應用(yong)場景中(zhong)具有(you)重要的價值。
  • 摘(zhai)要(yao)與生成(cheng)
利用智(zhi)能文(wen)檔(dang)處理技術,可以對文(wen)檔(dang)進行自動摘(zhai)要(yao)(yao),生(sheng)成(cheng)(cheng)簡潔(jie)、精煉的摘(zhai)要(yao)(yao)內容。此外,還可以根據用戶(hu)輸入的關鍵詞或短語生(sheng)成(cheng)(cheng)特(te)定主(zhu)題的文(wen)章,以滿足用戶(hu)需求。
  • 問答與對(dui)話
通過(guo)智能文(wen)(wen)檔處理技術,可以構建智能問答(da)系統,為用戶提供及時準確的文(wen)(wen)檔內容信息。
未(wei)來(lai)隨(sui)著大(da)模型等人工智(zhi)能技術的不(bu)斷(duan)發(fa)展,智(zhi)能文檔處理將(jiang)會在(zai)各個行業的應用(yong)場景中不(bu)斷(duan)普(pu)及化。
賽博智能學習平臺智能文檔處理(li)
賽博智能學習平臺(tai)定(ding)位(wei)于一體(ti)化(hua)機(ji)器學習訓練平臺(tai),集成了對于結構化(hua)和非(fei)結構文檔(dang)的智能化(hua)處理功能,包括智能文檔(dang)分(fen)類、文檔(dang)解析和文檔(dang)信息(xi)抽取等。能夠支持合同、法(fa)律文書、招投標文件(jian)等各種開(kai)放(fang)版式(shi)長(chang)文檔(dang)的智能化(hua)處理。基于平臺(tai)自定(ding)義(yi)模(mo)(mo)板和自訓練模(mo)(mo)型能力,通(tong)過現(xian)場模(mo)(mo)板定(ding)制、模(mo)(mo)型標注訓練的方式(shi),能夠形成即(ji)時可(ke)用(yong)的文檔(dang)AI能力。
如下圖,是賽博智能學習平(ping)臺智能文檔處理的(de)基本(ben)流程。


圖2 賽博智能學習(xi)平臺智能文檔(dang)處理流(liu)程

未來,易道博識將繼續(xu)針對金(jin)融、能源、通信等行(xing)業(ye)客戶,在業(ye)務運營、審(shen)核(he)和監督管理(li)(li)、信息檢索和風險管理(li)(li)等場景(jing)下,圍(wei)繞數字化(hua)、自(zi)動化(hua)和智(zhi)能化(hua)需求(qiu),依托(tuo)賽博智(zhi)能學習平臺(tai),為企(qi)業(ye)打造強大(da)AI底座,助力企(qi)業(ye)建設基于AI模(mo)型(xing)全生命(ming)周期的標準化(hua)、一體化(hua)生產運營體系。
賽(sai)博智能學習(xi)平臺以(yi)私有化部署、現場訓練的(de)形式(shi)滿足客戶對數據安(an)全要求,通過(guo)與業務系統深度融合(he),滿足各業務場景(jing)在圖像處(chu)理、OCR、智能文檔(dang)處(chu)理和(he)NLP等方向需求。
賽博智能學(xue)習平臺(tai)持續將AI大模型(xing)等(deng)前沿(yan)技術(shu)與行業數據深度結合,在(zai)技術(shu)與業務場景(jing)之間搭橋(qiao)鋪路,讓AI技術(shu)快速在(zai)場景(jing)中落地,在(zai)應用場景(jing)中產生(sheng)價值,帶動產業發展和升(sheng)級。
在線留言