��޳�A��Ƭ��߹ۿ��ר��,Ϊ��ٸ�̶��

首頁動態資訊行業(ye)資訊

淺談智能文檔處理技術與應用

來源：易道博識發布時間：2023-04-26

智(zhi)能(neng)文檔處理介(jie)紹

智能文檔處理（IDP）是(shi)利用人(ren)工(gong)智能技(ji)術，自動(dong)從復雜的非結構(gou)化和半結構(gou)化文檔中抽取關鍵數(shu)(shu)據(ju)，并將(jiang)其(qi)轉換成結構(gou)化數(shu)(shu)據(ju)的技(ji)術。IDP又稱(cheng)為(wei)認(ren)知數(shu)(shu)據(ju)處理（Cognitive Data Processing）或智能數(shu)(shu)據(ju)捕獲（Intelligent Data Capturing）技(ji)術。

眾所周知，商業(ye)(ye)(ye)數(shu)據(ju)是(shi)企(qi)(qi)業(ye)(ye)(ye)數(shu)字化轉型的(de)(de)核(he)心。然而，現(xian)實中80%的(de)(de)商業(ye)(ye)(ye)數(shu)據(ju)都是(shi)非(fei)結構化格式，比如郵件、圖片和各種企(qi)(qi)業(ye)(ye)(ye)文(wen)檔，其中非(fei)結構化文(wen)檔占(zhan)據(ju)了絕大多數(shu)。據(ju)統計，到2025年，全球企(qi)(qi)業(ye)(ye)(ye)數(shu)據(ju)總量(liang)將達到175ZB。借助于IDP技術，企(qi)(qi)業(ye)(ye)(ye)能(neng)夠實現(xian)文(wen)檔自動化處(chu)理(li)、文(wen)檔語義理(li)解(jie)、智能(neng)審核(he)和數(shu)據(ju)智能(neng)分析等方面的(de)(de)功能(neng)，提(ti)升企(qi)(qi)業(ye)(ye)(ye)用戶文(wen)檔處(chu)理(li)的(de)(de)效率和質(zhi)量(liang)，為企(qi)(qi)業(ye)(ye)(ye)降本(ben)增(zeng)效。

智能文檔處理難點

從文檔的結(jie)構特(te)點上，我們(men)可以將現實世界的文檔劃分為結(jie)構化(hua)、半結(jie)構化(hua)和非結(jie)構化(hua)三(san)種(zhong)類型。對應到版(ban)式(shi)特(te)征(zheng)上，分別是固定版(ban)式(shi)、多(duo)版(ban)式(shi)和開放(fang)版(ban)式(shi)三(san)種(zhong)類型。

結(jie)構(gou)化文(wen)檔具有(you)版式(shi)固(gu)定的(de)特(te)點(dian)，同(tong)(tong)一類(lei)型不(bu)同(tong)(tong)樣本(ben)之間沒有(you)差異，如(ru)固(gu)定版式(shi)的(de)信(xin)息采集表、申請文(wen)件等(deng)。半結(jie)構(gou)化文(wen)檔版式(shi)相(xiang)對固(gu)定，或稱為(wei)多版式(shi)文(wen)檔，同(tong)(tong)一類(lei)型不(bu)同(tong)(tong)樣本(ben)之間關(guan)鍵(jian)內(nei)容相(xiang)同(tong)(tong)，但(dan)是往往內(nei)容出現的(de)位置卻不(bu)同(tong)(tong)，如(ru)不(bu)同(tong)(tong)供應商(shang)采購(gou)的(de)送貨單(dan)，每個供應商(shang)都(dou)不(bu)同(tong)(tong)，但(dan)是其關(guan)鍵(jian)內(nei)容都(dou)包含(han)訂(ding)單(dan)號、商(shang)品信(xin)息等(deng)。

非結構化文(wen)檔(dang)又稱為開放版式文(wen)檔(dang)，通(tong)常沒有顯著的(de)版式特(te)征，幾乎是純文(wen)本表(biao)達，雖(sui)然(ran)表(biao)達的(de)內容相同，但是表(biao)達方式卻差異(yi)很大。常見的(de)如合同、簡歷、招標文(wen)件等(deng)。

對(dui)于結構(gou)化和半結構(gou)化文檔(dang)，由于版(ban)式相對(dui)固定(ding)，當前行業內普遍的做法是通(tong)過(guo)模板或深度(du)學習模型(xing)的方法，完成分類(lei)和信息抽取等自(zi)動(dong)化處理(li)，已(yi)經能夠解決大(da)多數應用場景的問題(ti)。但是，開放版(ban)式文檔(dang)，由于其(qi)天然的諸(zhu)多難點，給(gei)智能文檔(dang)處理(li)帶來了(le)很大(da)的困難。如下(xia)表，是我們歸納(na)的開放版(ban)式文檔(dang)處理(li)的主要難點。

表1 開放版式(shi)文檔特點

智能文檔(dang)處理(li)核心(xin)技術

如表(biao)1，相(xiang)比于純文(wen)本或固定和(he)多版(ban)式文(wen)檔(dang)，開(kai)放(fang)版(ban)式文(wen)檔(dang)處(chu)理具有(you)諸多難點。因此(ci)，智(zhi)能(neng)文(wen)檔(dang)處(chu)理過程(cheng)必須綜(zong)合應用計算機視覺（CV）、光學(xue)字符處(chu)理（OCR）、文(wen)檔(dang)解析、自(zi)然語(yu)言處(chu)理（NLP）和(he)文(wen)檔(dang)信息抽取等關(guan)鍵技(ji)術(shu)，才(cai)能(neng)更好地實現自(zi)動化(hua)和(he)智(zhi)能(neng)化(hua)處(chu)理。

計算機視覺(jue)（CV）技術(shu)

CV技術(shu)主要是(shi)對于(yu)文檔(dang)圖(tu)(tu)像(xiang)(xiang)進行(xing)各種(zhong)圖(tu)(tu)像(xiang)(xiang)處(chu)理(li)，常見如(ru)圖(tu)(tu)像(xiang)(xiang)去噪聲(sheng)、去干擾、圖(tu)(tu)像(xiang)(xiang)增強、圖(tu)(tu)像(xiang)(xiang)壓縮、圖(tu)(tu)像(xiang)(xiang)分割等。其處(chu)理(li)目的(de)主要是(shi)為后續OCR環節提(ti)供高質量(liang)的(de)圖(tu)(tu)像(xiang)(xiang)輸入，以提(ti)升OCR的(de)性能。同(tong)時，利用圖(tu)(tu)像(xiang)(xiang)檢測和分割等技術(shu)，可以實現文檔(dang)物理(li)版面解析(xi)。

光學字符處理（OCR）技術

OCR是將紙質文(wen)(wen)檔、圖片等非數字(zi)(zi)(zi)化文(wen)(wen)件中的文(wen)(wen)字(zi)(zi)(zi)內容轉換為數字(zi)(zi)(zi)化格(ge)式的技術。當前主流實現(xian)上(shang)，借助表格(ge)識(shi)(shi)別、印(yin)(yin)章識(shi)(shi)別、勾選(xuan)(xuan)和二維碼識(shi)(shi)別等技術，在OCR環節(jie)可以(yi)實現(xian)圖像中所有通用對象(xiang)（文(wen)(wen)字(zi)(zi)(zi)、表格(ge)、印(yin)(yin)章、勾選(xuan)(xuan)、二維碼、簽(qian)名等）的統一識(shi)(shi)別和輸出，作為后續智能化文(wen)(wen)檔處理環節(jie)的輸入。

文檔解析技術

文(wen)(wen)(wen)檔解(jie)析(xi)(xi)是(shi)在文(wen)(wen)(wen)檔協議解(jie)析(xi)(xi)或OCR處理(li)的(de)結(jie)果(guo)上(shang)，通(tong)過版面分析(xi)(xi)、表(biao)(biao)格(ge)解(jie)析(xi)(xi)等(deng)技術，實現文(wen)(wen)(wen)檔物理(li)和(he)(he)邏輯結(jie)構(gou)的(de)解(jie)析(xi)(xi)，得(de)到文(wen)(wen)(wen)檔內容的(de)統(tong)(tong)一表(biao)(biao)示(shi)。以此(ci)作為進一步文(wen)(wen)(wen)檔分類(lei)、信息抽取和(he)(he)文(wen)(wen)(wen)檔比(bi)對(dui)等(deng)處理(li)的(de)輸入(ru)。IDP通(tong)常(chang)需要能夠支持所有格(ge)式的(de)文(wen)(wen)(wen)檔輸入(ru)，包(bao)括圖片(pian)、PDF、Word、OFD等(deng)，因(yin)此(ci)，文(wen)(wen)(wen)檔解(jie)析(xi)(xi)環節(jie)需要能夠解(jie)析(xi)(xi)以上(shang)各種(zhong)格(ge)式的(de)輸入(ru)文(wen)(wen)(wen)件，將其轉換成統(tong)(tong)一的(de)表(biao)(biao)示(shi)形式，如JSON文(wen)(wen)(wen)件。

自然語言處理（NLP）

NLP是一(yi)種利用計(ji)算機技(ji)術(shu)(shu)對自然語(yu)言(yan)進(jin)行分(fen)(fen)(fen)析(xi)和(he)處理的(de)(de)技(ji)術(shu)(shu)，常(chang)見的(de)(de)NLP任務包(bao)括(kuo)分(fen)(fen)(fen)詞(ci)、詞(ci)性標注、句法(fa)分(fen)(fen)(fen)析(xi)、語(yu)義(yi)分(fen)(fen)(fen)析(xi)、文(wen)本(ben)(ben)(ben)分(fen)(fen)(fen)類、信息抽取、文(wen)檔摘要、情感(gan)分(fen)(fen)(fen)析(xi)等(deng)。IDP中主要使用的(de)(de)NLP技(ji)術(shu)(shu)包(bao)括(kuo)文(wen)本(ben)(ben)(ben)分(fen)(fen)(fen)類、文(wen)本(ben)(ben)(ben)信息抽取、語(yu)義(yi)理解等(deng)。通(tong)(tong)常(chang)的(de)(de)做法(fa)是將OCR輸出或(huo)文(wen)檔協(xie)議(yi)解析(xi)后的(de)(de)所有(you)文(wen)本(ben)(ben)(ben)塊進(jin)行拼接，得到文(wen)本(ben)(ben)(ben)序列，再通(tong)(tong)過文(wen)本(ben)(ben)(ben)分(fen)(fen)(fen)類、信息抽取等(deng)技(ji)術(shu)(shu)，實(shi)現文(wen)檔的(de)(de)分(fen)(fen)(fen)類和(he)信息抽取。另外，通(tong)(tong)過NLP技(ji)術(shu)(shu)，也可以對文(wen)檔進(jin)行自動(dong)摘要、情感(gan)分(fen)(fen)(fen)析(xi)和(he)智能問(wen)答等(deng)處理。

文檔(dang)信(xin)息(xi)抽取

相比(bi)(bi)于(yu)純文(wen)(wen)本(ben)，文(wen)(wen)檔的最(zui)大(da)(da)特(te)點是其(qi)富格(ge)式(shi)特(te)點。因(yin)此，文(wen)(wen)檔中信息(xi)(xi)抽取必須(xu)依賴于(yu)版(ban)面(mian)位置(zhi)等視覺特(te)征，比(bi)(bi)如從文(wen)(wen)檔中的圖表或表格(ge)中抽取信息(xi)(xi)，或者從特(te)定版(ban)面(mian)位置(zhi)區域的結構(gou)化信息(xi)(xi)塊(kuai)中抽取信息(xi)(xi)。相比(bi)(bi)于(yu)簡單地從大(da)(da)段文(wen)(wen)本(ben)序(xu)列中做(zuo)信息(xi)(xi)抽取，文(wen)(wen)檔信息(xi)(xi)抽取技術(shu)難度(du)更大(da)(da)。

智能文檔處理流程(cheng)

如下圖，是智能文(wen)檔統(tong)一處(chu)理流程(cheng)。

圖1 智能(neng)文檔(dang)處(chu)理流程

主要包含以下環節：

文檔預處理

該(gai)步驟(zou)主要針(zhen)對Word、PDF等文檔協議進行解析處理(li)。

通(tong)過通(tong)用OCR識別模型，對輸入(ru)的文檔圖像上的文字(zi)、印章、簽名、表格等通(tong)用要(yao)素進行識別，得到文本和位(wei)置，以及表格結構化數據。

版面分(fen)析

利用(yong)版面分(fen)析技術，定(ding)位出文檔(dang)圖像上所有的標題(ti)、段(duan)落、表格(ge)、圖表、頁眉、頁腳等版面信息。再利用(yong)標題(ti)和段(duan)落等信息，做文檔(dang)邏(luo)輯(ji)結構分(fen)析，得(de)到(dao)文檔(dang)結構。

信息抽取(qu)

基于版面和目錄分析(xi)的結(jie)(jie)果，結(jie)(jie)合文檔(dang)協(xie)議解析(xi)或OCR的結(jie)(jie)果，利用自然語言處(chu)理等技(ji)術，進行文檔(dang)關鍵信息抽取(qu)。

信(xin)息校驗(yan)

利(li)用預(yu)(yu)設的(de)(de)規(gui)則，對(dui)抽取出的(de)(de)信息進(jin)行(xing)校(xiao)驗，包括數(shu)據(ju)格式檢查、預(yu)(yu)設的(de)(de)審閱規(gui)則檢查等。

智能文(wen)檔(dang)處理應用場景

主要的智能文(wen)檔處理應(ying)用場景包(bao)括(kuo)：

分類和標簽(qian)化

通過智能文檔處理技術，可以對大量文檔進行分類和標簽(qian)化，從而實現文檔的快速檢索、內容推薦和歸(gui)檔處理等功(gong)能。

信息抽取(qu)

智能(neng)(neng)(neng)文檔(dang)(dang)處理可以(yi)幫(bang)助(zhu)從文檔(dang)(dang)中(zhong)抽取關(guan)鍵(jian)信息，如關(guan)鍵(jian)的短語(yu)、實體、事件等(deng)。這(zhe)些(xie)信息在知(zhi)識圖譜(pu)構建、智能(neng)(neng)(neng)搜(sou)索、智能(neng)(neng)(neng)比對、智能(neng)(neng)(neng)問答等(deng)應用(yong)場景中(zhong)具有(you)重要的價值。

摘(zhai)要(yao)與生成(cheng)

利用智(zhi)能文(wen)檔(dang)處理技術，可以對文(wen)檔(dang)進行自動摘(zhai)要(yao)(yao)，生(sheng)成(cheng)(cheng)簡潔(jie)、精煉的摘(zhai)要(yao)(yao)內容。此外，還可以根據用戶(hu)輸入的關鍵詞或短語生(sheng)成(cheng)(cheng)特(te)定主(zhu)題的文(wen)章，以滿足用戶(hu)需求。

問答與對(dui)話

通過(guo)智能文(wen)(wen)檔處理技術，可以構建智能問答(da)系統，為用戶提供及時準確的文(wen)(wen)檔內容信息。

未(wei)來(lai)隨(sui)著大(da)模型等人工智(zhi)能技術的不(bu)斷(duan)發(fa)展，智(zhi)能文檔處理將(jiang)會在(zai)各個行業的應用(yong)場景中不(bu)斷(duan)普(pu)及化。

賽博智能學習平臺智能文檔處理(li)

賽博智能學習平臺(tai)定(ding)位(wei)于一體(ti)化(hua)機(ji)器學習訓練平臺(tai)，集成了對于結構化(hua)和非(fei)結構文檔(dang)的智能化(hua)處理功能，包括智能文檔(dang)分(fen)類、文檔(dang)解析和文檔(dang)信息(xi)抽取等。能夠支持合同、法(fa)律文書、招投標文件(jian)等各種開(kai)放(fang)版式(shi)長(chang)文檔(dang)的智能化(hua)處理。基于平臺(tai)自定(ding)義(yi)模(mo)(mo)板和自訓練模(mo)(mo)型能力，通(tong)過現(xian)場模(mo)(mo)板定(ding)制、模(mo)(mo)型標注訓練的方式(shi)，能夠形成即(ji)時可(ke)用(yong)的文檔(dang)AI能力。

如下圖，是賽博智能學習平(ping)臺智能文檔處理的(de)基本(ben)流程。

圖2 賽博智能學習(xi)平臺智能文檔(dang)處理流(liu)程

未來，易道博識將繼續(xu)針對金(jin)融、能源、通信等行(xing)業(ye)客戶，在業(ye)務運營、審(shen)核(he)和監督管理(li)(li)、信息檢索和風險管理(li)(li)等場景(jing)下，圍(wei)繞數字化(hua)、自(zi)動化(hua)和智(zhi)能化(hua)需求(qiu)，依托(tuo)賽博智(zhi)能學習平臺(tai)，為企(qi)業(ye)打造強大(da)AI底座，助力企(qi)業(ye)建設基于AI模(mo)型(xing)全生命(ming)周期的標準化(hua)、一體化(hua)生產運營體系。

賽(sai)博智能學習(xi)平臺以(yi)私有化部署、現場訓練的(de)形式(shi)滿足客戶對數據安(an)全要求，通過(guo)與業務系統深度融合(he)，滿足各業務場景(jing)在圖像處(chu)理、OCR、智能文檔(dang)處(chu)理和(he)NLP等方向需求。

賽博智能學(xue)習平臺(tai)持續將AI大模型(xing)等(deng)前沿(yan)技術(shu)與行業數據深度結合，在(zai)技術(shu)與業務場景(jing)之間搭橋(qiao)鋪路，讓AI技術(shu)快速在(zai)場景(jing)中落地，在(zai)應用場景(jing)中產生(sheng)價值，帶動產業發展和升(sheng)級。

上一篇：金融領域數智化轉型創新應用和實踐——賽博智能學習平臺

下一篇：易道博識榮獲第二屆光合組織AI解決方案大賽一等獎

返回列表

更多資訊

易道博識OCR智能識別方案，助力金融(rong)業(ye)降本增效

熱門標簽

人工智能 OCR識別證券 IT 計算機視覺訓練平臺銀行駕駛證識別財務識別保險

永久免费a∨片在线观看_日韩人妻精品无码一区二区三区_精品久久久久久无码人妻热_日日噜噜夜夜狠狠久久蜜桃

搜索

淺談智能文檔處理技術與應用

國內統一咨詢服務熱線

（早09:00 - 晚18:00）