�þþ�Ʒ��AV��鶹,��AV��֮��Ʒ��ַ

首頁動態資訊行(xing)業資訊

淺談智能文檔處理技術與應用

來源(yuan)：易道博識發布(bu)時間：2023-04-26

智(zhi)能文檔(dang)處理介紹

智(zhi)能(neng)文檔處理（IDP）是(shi)利用(yong)人工智(zhi)能(neng)技術(shu)，自動從復雜的非結構(gou)化(hua)(hua)和半結構(gou)化(hua)(hua)文檔中(zhong)抽取關鍵數(shu)(shu)據(ju)，并(bing)將其轉換成結構(gou)化(hua)(hua)數(shu)(shu)據(ju)的技術(shu)。IDP又稱為(wei)認知數(shu)(shu)據(ju)處理（Cognitive Data Processing）或智(zhi)能(neng)數(shu)(shu)據(ju)捕獲（Intelligent Data Capturing）技術(shu)。

眾所周知，商業(ye)(ye)數(shu)據(ju)是企(qi)業(ye)(ye)數(shu)字化(hua)(hua)轉型的(de)核心。然而，現實中80%的(de)商業(ye)(ye)數(shu)據(ju)都是非(fei)結(jie)構化(hua)(hua)格式，比(bi)如郵件、圖片和各種(zhong)企(qi)業(ye)(ye)文(wen)檔，其中非(fei)結(jie)構化(hua)(hua)文(wen)檔占據(ju)了絕大(da)多數(shu)。據(ju)統計，到(dao)2025年(nian)，全球企(qi)業(ye)(ye)數(shu)據(ju)總量將(jiang)達到(dao)175ZB。借助于IDP技術(shu)，企(qi)業(ye)(ye)能夠實現文(wen)檔自動化(hua)(hua)處理、文(wen)檔語義(yi)理解、智(zhi)能審核和數(shu)據(ju)智(zhi)能分析等方面的(de)功能，提升企(qi)業(ye)(ye)用戶文(wen)檔處理的(de)效(xiao)率和質量，為企(qi)業(ye)(ye)降本增效(xiao)。

智能文檔處理難點

從文檔的結(jie)(jie)(jie)構(gou)特點(dian)上，我(wo)們可以(yi)將現實世(shi)界的文檔劃分為結(jie)(jie)(jie)構(gou)化、半(ban)結(jie)(jie)(jie)構(gou)化和非結(jie)(jie)(jie)構(gou)化三種類型。對應到(dao)版式特征(zheng)上，分別是(shi)固定版式、多版式和開(kai)放版式三種類型。

結構化文(wen)檔具有版(ban)(ban)式(shi)固(gu)(gu)定的(de)特點，同(tong)(tong)(tong)(tong)一類(lei)型不(bu)(bu)同(tong)(tong)(tong)(tong)樣本之(zhi)間沒有差異，如(ru)固(gu)(gu)定版(ban)(ban)式(shi)的(de)信息采集表、申(shen)請(qing)文(wen)件等。半(ban)結構化文(wen)檔版(ban)(ban)式(shi)相對(dui)固(gu)(gu)定，或(huo)稱為(wei)多版(ban)(ban)式(shi)文(wen)檔，同(tong)(tong)(tong)(tong)一類(lei)型不(bu)(bu)同(tong)(tong)(tong)(tong)樣本之(zhi)間關(guan)鍵內容相同(tong)(tong)(tong)(tong)，但是往(wang)往(wang)內容出現的(de)位置(zhi)卻不(bu)(bu)同(tong)(tong)(tong)(tong)，如(ru)不(bu)(bu)同(tong)(tong)(tong)(tong)供應(ying)商(shang)(shang)采購的(de)送貨單，每(mei)個(ge)供應(ying)商(shang)(shang)都不(bu)(bu)同(tong)(tong)(tong)(tong)，但是其關(guan)鍵內容都包含訂(ding)單號、商(shang)(shang)品信息等。

非(fei)結構(gou)化文(wen)(wen)(wen)檔又稱為開放版式文(wen)(wen)(wen)檔，通常沒有顯著(zhu)的(de)版式特征，幾乎是純文(wen)(wen)(wen)本(ben)表達，雖然(ran)表達的(de)內容相(xiang)同(tong)，但是表達方式卻差(cha)異很(hen)大(da)。常見的(de)如合同(tong)、簡歷、招(zhao)標文(wen)(wen)(wen)件等(deng)。

對于(yu)結構化(hua)(hua)和半結構化(hua)(hua)文(wen)檔(dang)，由(you)于(yu)版式(shi)相(xiang)對固(gu)定，當前行業內普遍的(de)(de)(de)做(zuo)法(fa)是通(tong)過模(mo)板或深度學習(xi)模(mo)型的(de)(de)(de)方法(fa)，完成分類和信息抽取等自動化(hua)(hua)處理(li)，已經能夠解決大多數應用場景的(de)(de)(de)問題。但是，開放(fang)版式(shi)文(wen)檔(dang)，由(you)于(yu)其天然的(de)(de)(de)諸(zhu)多難點，給智能文(wen)檔(dang)處理(li)帶來(lai)了很大的(de)(de)(de)困難。如下表，是我們歸納的(de)(de)(de)開放(fang)版式(shi)文(wen)檔(dang)處理(li)的(de)(de)(de)主要(yao)難點。

表1 開放版式(shi)文檔特點

智能文檔處理核心技(ji)術

如表1，相比于純文(wen)(wen)本或固定(ding)和(he)多版(ban)式文(wen)(wen)檔，開放版(ban)式文(wen)(wen)檔處(chu)理(li)具有諸多難點。因此，智能(neng)文(wen)(wen)檔處(chu)理(li)過程必(bi)須綜合應用(yong)計算(suan)機視覺（CV）、光學字符(fu)處(chu)理(li)（OCR）、文(wen)(wen)檔解析、自然(ran)語言處(chu)理(li)（NLP）和(he)文(wen)(wen)檔信息抽取等(deng)關鍵(jian)技術，才(cai)能(neng)更好地實現自動(dong)化和(he)智能(neng)化處(chu)理(li)。

計算(suan)機視覺(jue)（CV）技術

CV技(ji)術主要是(shi)對于文(wen)(wen)檔圖(tu)(tu)像(xiang)(xiang)(xiang)(xiang)進(jin)行(xing)各種(zhong)圖(tu)(tu)像(xiang)(xiang)(xiang)(xiang)處(chu)理，常見(jian)如(ru)圖(tu)(tu)像(xiang)(xiang)(xiang)(xiang)去(qu)噪(zao)聲(sheng)、去(qu)干擾(rao)、圖(tu)(tu)像(xiang)(xiang)(xiang)(xiang)增(zeng)強、圖(tu)(tu)像(xiang)(xiang)(xiang)(xiang)壓縮、圖(tu)(tu)像(xiang)(xiang)(xiang)(xiang)分(fen)割(ge)等(deng)。其處(chu)理目的(de)主要是(shi)為后續OCR環(huan)節提(ti)供高質量的(de)圖(tu)(tu)像(xiang)(xiang)(xiang)(xiang)輸入，以提(ti)升OCR的(de)性能。同時(shi)，利(li)用圖(tu)(tu)像(xiang)(xiang)(xiang)(xiang)檢測和分(fen)割(ge)等(deng)技(ji)術，可(ke)以實(shi)現文(wen)(wen)檔物理版面解析(xi)。

光學字(zi)符處理（OCR）技(ji)術

OCR是將紙質(zhi)文(wen)檔、圖片等非數字化文(wen)件(jian)中(zhong)的(de)文(wen)字內容轉(zhuan)換為(wei)數字化格(ge)式的(de)技術(shu)。當(dang)前(qian)主(zhu)流實現上，借助表(biao)格(ge)識(shi)別、印(yin)章(zhang)識(shi)別、勾選和二(er)維(wei)(wei)碼識(shi)別等技術(shu)，在OCR環節可以實現圖像中(zhong)所有通用對象（文(wen)字、表(biao)格(ge)、印(yin)章(zhang)、勾選、二(er)維(wei)(wei)碼、簽名(ming)等）的(de)統一識(shi)別和輸出，作為(wei)后續智能化文(wen)檔處理(li)環節的(de)輸入。

文檔解析技(ji)術

文(wen)(wen)(wen)(wen)檔(dang)解(jie)(jie)析(xi)(xi)是在文(wen)(wen)(wen)(wen)檔(dang)協議解(jie)(jie)析(xi)(xi)或OCR處理的(de)(de)(de)結(jie)果上，通(tong)過(guo)版面分析(xi)(xi)、表格解(jie)(jie)析(xi)(xi)等技術，實現文(wen)(wen)(wen)(wen)檔(dang)物理和邏輯結(jie)構的(de)(de)(de)解(jie)(jie)析(xi)(xi)，得到文(wen)(wen)(wen)(wen)檔(dang)內(nei)容的(de)(de)(de)統(tong)一表示。以此作為進一步(bu)文(wen)(wen)(wen)(wen)檔(dang)分類(lei)、信息(xi)抽取和文(wen)(wen)(wen)(wen)檔(dang)比對(dui)等處理的(de)(de)(de)輸入。IDP通(tong)常需要能夠支持(chi)所有格式(shi)(shi)的(de)(de)(de)文(wen)(wen)(wen)(wen)檔(dang)輸入，包(bao)括圖片、PDF、Word、OFD等，因此，文(wen)(wen)(wen)(wen)檔(dang)解(jie)(jie)析(xi)(xi)環節需要能夠解(jie)(jie)析(xi)(xi)以上各種格式(shi)(shi)的(de)(de)(de)輸入文(wen)(wen)(wen)(wen)件(jian)，將(jiang)其轉換成統(tong)一的(de)(de)(de)表示形式(shi)(shi)，如JSON文(wen)(wen)(wen)(wen)件(jian)。

自然語言處理（NLP）

NLP是一種利用(yong)計算機技(ji)(ji)術(shu)(shu)對(dui)自(zi)(zi)然語(yu)言進行分(fen)(fen)析(xi)(xi)和(he)處理(li)的(de)(de)技(ji)(ji)術(shu)(shu)，常(chang)見的(de)(de)NLP任務包括(kuo)分(fen)(fen)詞、詞性(xing)標(biao)注、句法分(fen)(fen)析(xi)(xi)、語(yu)義分(fen)(fen)析(xi)(xi)、文(wen)(wen)(wen)本(ben)分(fen)(fen)類(lei)、信息抽(chou)取、文(wen)(wen)(wen)檔(dang)(dang)摘(zhai)要(yao)、情感(gan)分(fen)(fen)析(xi)(xi)等。IDP中主要(yao)使用(yong)的(de)(de)NLP技(ji)(ji)術(shu)(shu)包括(kuo)文(wen)(wen)(wen)本(ben)分(fen)(fen)類(lei)、文(wen)(wen)(wen)本(ben)信息抽(chou)取、語(yu)義理(li)解(jie)等。通常(chang)的(de)(de)做法是將(jiang)OCR輸出或文(wen)(wen)(wen)檔(dang)(dang)協議解(jie)析(xi)(xi)后的(de)(de)所(suo)有文(wen)(wen)(wen)本(ben)塊(kuai)進行拼(pin)接(jie)，得到文(wen)(wen)(wen)本(ben)序列，再(zai)通過文(wen)(wen)(wen)本(ben)分(fen)(fen)類(lei)、信息抽(chou)取等技(ji)(ji)術(shu)(shu)，實(shi)現(xian)文(wen)(wen)(wen)檔(dang)(dang)的(de)(de)分(fen)(fen)類(lei)和(he)信息抽(chou)取。另外，通過NLP技(ji)(ji)術(shu)(shu)，也可以對(dui)文(wen)(wen)(wen)檔(dang)(dang)進行自(zi)(zi)動摘(zhai)要(yao)、情感(gan)分(fen)(fen)析(xi)(xi)和(he)智能問答(da)等處理(li)。

文(wen)檔信息抽取(qu)

相比于純文(wen)(wen)(wen)本(ben)，文(wen)(wen)(wen)檔的(de)最大特(te)點(dian)是其富格式特(te)點(dian)。因此，文(wen)(wen)(wen)檔中信(xin)(xin)息(xi)抽取(qu)必須依賴(lai)于版面位置等(deng)視覺(jue)特(te)征，比如(ru)從(cong)文(wen)(wen)(wen)檔中的(de)圖(tu)表或(huo)表格中抽取(qu)信(xin)(xin)息(xi)，或(huo)者(zhe)從(cong)特(te)定(ding)版面位置區域的(de)結(jie)構化信(xin)(xin)息(xi)塊中抽取(qu)信(xin)(xin)息(xi)。相比于簡單(dan)地從(cong)大段文(wen)(wen)(wen)本(ben)序列中做(zuo)信(xin)(xin)息(xi)抽取(qu)，文(wen)(wen)(wen)檔信(xin)(xin)息(xi)抽取(qu)技(ji)術難度更大。

智(zhi)能文檔處理(li)流程

如下圖，是智能文檔統一處理流程。

圖1 智能文檔處理(li)流程

主要包含(han)以下環節：

文(wen)檔預處(chu)理(li)

該步驟主要針對Word、PDF等文檔協議進行解析處(chu)理(li)。

通過通用(yong)OCR識別模型，對(dui)輸(shu)入的(de)文檔圖像上的(de)文字(zi)、印(yin)章、簽(qian)名、表格等通用(yong)要素進行(xing)識別，得到文本(ben)和位置(zhi)，以及表格結構(gou)化(hua)數據。

版面分析

利(li)用版面(mian)分析技術，定位出文(wen)檔圖像(xiang)上所有(you)的標(biao)題、段落(luo)、表格(ge)、圖表、頁(ye)眉(mei)、頁(ye)腳等版面(mian)信息。再(zai)利(li)用標(biao)題和段落(luo)等信息，做文(wen)檔邏(luo)輯結構分析，得到(dao)文(wen)檔結構。

信(xin)息抽取

基于版面和目錄(lu)分(fen)析(xi)的結果(guo)，結合文檔協議解析(xi)或OCR的結果(guo)，利用(yong)自(zi)然(ran)語言處(chu)理等(deng)技(ji)術，進行文檔關鍵(jian)信息抽取。

信息校驗

利(li)用(yong)預設(she)的(de)規(gui)則，對抽取(qu)出的(de)信(xin)息進行校驗，包括數據格式檢查、預設(she)的(de)審閱規(gui)則檢查等。

智(zhi)能(neng)文檔處理應用(yong)場景

主要的智能文(wen)檔(dang)處理應(ying)用場景包(bao)括：

分類(lei)和標簽化

通過智能文(wen)檔(dang)處理(li)技術，可以對大(da)量文(wen)檔(dang)進(jin)行分類(lei)和標(biao)簽(qian)化，從而實(shi)現文(wen)檔(dang)的快速檢索、內容(rong)推薦和歸(gui)檔(dang)處理(li)等(deng)功能。

信(xin)息抽取(qu)

智(zhi)(zhi)能文檔處理可以(yi)幫助從文檔中(zhong)抽(chou)取(qu)關鍵(jian)信息，如(ru)關鍵(jian)的(de)短語、實(shi)體(ti)、事件等。這些信息在(zai)知識圖(tu)譜構建、智(zhi)(zhi)能搜(sou)索、智(zhi)(zhi)能比對、智(zhi)(zhi)能問答(da)等應(ying)用場景(jing)中(zhong)具有重要的(de)價值。

摘要與生(sheng)成

利(li)用(yong)智能(neng)文(wen)檔處理技(ji)術(shu)，可以對文(wen)檔進行自動摘要，生(sheng)成(cheng)簡(jian)潔(jie)、精煉的(de)摘要內容。此外，還可以根據用(yong)戶(hu)輸入的(de)關(guan)鍵詞或短語生(sheng)成(cheng)特定(ding)主(zhu)題的(de)文(wen)章(zhang)，以滿(man)足用(yong)戶(hu)需求。

問答與對話

通過智(zhi)能文(wen)檔處理技術(shu)，可以構建(jian)智(zhi)能問(wen)答系統，為用戶提供及時準確的文(wen)檔內容信(xin)息。

未來(lai)隨著大模型等人工智能(neng)技術的不(bu)斷發展，智能(neng)文(wen)檔(dang)處(chu)理將會在各個行業的應用場景中不(bu)斷普及(ji)化(hua)。

賽(sai)博智能學習(xi)平臺(tai)智能文檔處理

賽博智(zhi)(zhi)能(neng)(neng)學習平(ping)臺(tai)定位于(yu)(yu)一體化(hua)機器學習訓(xun)練(lian)平(ping)臺(tai)，集(ji)成了對于(yu)(yu)結構化(hua)和非(fei)結構文(wen)(wen)(wen)(wen)檔(dang)(dang)的智(zhi)(zhi)能(neng)(neng)化(hua)處(chu)理功(gong)能(neng)(neng)，包括智(zhi)(zhi)能(neng)(neng)文(wen)(wen)(wen)(wen)檔(dang)(dang)分類、文(wen)(wen)(wen)(wen)檔(dang)(dang)解析和文(wen)(wen)(wen)(wen)檔(dang)(dang)信息抽取等(deng)。能(neng)(neng)夠支持合同、法律文(wen)(wen)(wen)(wen)書、招投標文(wen)(wen)(wen)(wen)件等(deng)各種開放版式(shi)(shi)長文(wen)(wen)(wen)(wen)檔(dang)(dang)的智(zhi)(zhi)能(neng)(neng)化(hua)處(chu)理。基于(yu)(yu)平(ping)臺(tai)自定義模(mo)板(ban)和自訓(xun)練(lian)模(mo)型能(neng)(neng)力，通過現場模(mo)板(ban)定制、模(mo)型標注(zhu)訓(xun)練(lian)的方式(shi)(shi)，能(neng)(neng)夠形(xing)成即時可用的文(wen)(wen)(wen)(wen)檔(dang)(dang)AI能(neng)(neng)力。

如下圖(tu)，是賽博智能(neng)學習平臺智能(neng)文檔處理的基本(ben)流(liu)程。

圖(tu)2 賽博(bo)智能學習平臺(tai)智能文(wen)檔處(chu)理流程

未來，易道博(bo)識(shi)將繼續針對(dui)金(jin)融、能源、通信等(deng)行(xing)業(ye)客戶，在業(ye)務運(yun)營、審核(he)和監督管(guan)理、信息檢索和風險(xian)管(guan)理等(deng)場景下，圍(wei)繞數字化、自動化和智能化需求(qiu)，依托賽博(bo)智能學(xue)習平臺，為(wei)企(qi)業(ye)打造強大AI底座(zuo)，助力企(qi)業(ye)建(jian)設基于(yu)AI模型全生(sheng)命周(zhou)期的標(biao)準化、一體(ti)化生(sheng)產運(yun)營體(ti)系(xi)。

賽博智能(neng)學(xue)習平臺以(yi)私有化部署、現(xian)場訓練的形式(shi)滿(man)足客戶對數據安全要(yao)求(qiu)，通過(guo)與業(ye)務系統深度融合，滿(man)足各業(ye)務場景(jing)在圖像處理、OCR、智能(neng)文檔處理和NLP等(deng)方向需求(qiu)。

賽博(bo)智(zhi)能學習(xi)平(ping)臺持續將(jiang)AI大模(mo)型(xing)等前沿技術與行業數(shu)據深度結(jie)合，在(zai)(zai)技術與業務場(chang)(chang)景(jing)(jing)之(zhi)間搭橋鋪路，讓(rang)AI技術快速在(zai)(zai)場(chang)(chang)景(jing)(jing)中落地，在(zai)(zai)應用場(chang)(chang)景(jing)(jing)中產生價值，帶動產業發展和(he)升級(ji)。

上一篇：金融領域數智化轉型創新應用和實踐——賽博智能學習平臺

下一篇：易道博識榮獲第二屆光合組織AI解決方案大賽一等獎

返回列表

更多資訊

易(yi)道博識OCR智能(neng)識別方案，助力金融(rong)業降(jiang)本增效(xiao)

熱門標簽

人工智能 OCR識別證券 IT 計算機視覺訓練平臺銀行駕駛證識別財務識別保險

永久免费a∨片在线观看_日韩人妻精品无码一区二区三区_精品久久久久久无码人妻热_日日噜噜夜夜狠狠久久蜜桃

搜索

淺談智能文檔處理技術與應用

國內統一咨詢服務熱線

（早09:00 - 晚18:00）