永久免费a∨片在线观看_日韩人妻精品无码一区二区三区_精品久久久久久无码人妻热_日日噜噜夜夜狠狠久久蜜桃

首頁
核心技術
產品體系
解決方案
動態資訊
關于我們
搜索
首頁 動態資訊 行(xing)業資訊

淺談智能文檔處理技術與應用

來源(yuan):易道博識 發布(bu)時間:2023-04-26
智(zhi)能文檔(dang)處理介紹
智(zhi)能(neng)文檔處理(IDP)是(shi)利用(yong)人工智(zhi)能(neng)技術(shu),自動從復雜的非結構(gou)化(hua)(hua)和半結構(gou)化(hua)(hua)文檔中(zhong)抽取關鍵數(shu)(shu)據(ju),并(bing)將其轉換成結構(gou)化(hua)(hua)數(shu)(shu)據(ju)的技術(shu)。IDP又稱為(wei)認知數(shu)(shu)據(ju)處理(Cognitive Data Processing)或智(zhi)能(neng)數(shu)(shu)據(ju)捕獲(Intelligent Data Capturing)技術(shu)。
眾所周知,商業(ye)(ye)數(shu)據(ju)是企(qi)業(ye)(ye)數(shu)字化(hua)(hua)轉型的(de)核心。然而,現實中80%的(de)商業(ye)(ye)數(shu)據(ju)都是非(fei)結(jie)構化(hua)(hua)格式,比(bi)如郵件、圖片和各種(zhong)企(qi)業(ye)(ye)文(wen)檔,其中非(fei)結(jie)構化(hua)(hua)文(wen)檔占據(ju)了絕大(da)多數(shu)。據(ju)統計,到(dao)2025年(nian),全球企(qi)業(ye)(ye)數(shu)據(ju)總量將(jiang)達到(dao)175ZB。借助于IDP技術(shu),企(qi)業(ye)(ye)能夠實現文(wen)檔自動化(hua)(hua)處理、文(wen)檔語義(yi)理解、智(zhi)能審核和數(shu)據(ju)智(zhi)能分析等方面的(de)功能,提升企(qi)業(ye)(ye)用戶文(wen)檔處理的(de)效(xiao)率和質量,為企(qi)業(ye)(ye)降本增效(xiao)。
智能文檔處理難點
從文檔的結(jie)(jie)(jie)構(gou)特點(dian)上,我(wo)們可以(yi)將現實世(shi)界的文檔劃分為結(jie)(jie)(jie)構(gou)化、半(ban)結(jie)(jie)(jie)構(gou)化和非結(jie)(jie)(jie)構(gou)化三種類型。對應到(dao)版式特征(zheng)上,分別是(shi)固定版式、多版式和開(kai)放版式三種類型。
結構化文(wen)檔具有版(ban)(ban)式(shi)固(gu)(gu)定的(de)特點,同(tong)(tong)(tong)(tong)一類(lei)型不(bu)(bu)同(tong)(tong)(tong)(tong)樣本之(zhi)間沒有差異,如(ru)固(gu)(gu)定版(ban)(ban)式(shi)的(de)信息采集表、申(shen)請(qing)文(wen)件等。半(ban)結構化文(wen)檔版(ban)(ban)式(shi)相對(dui)固(gu)(gu)定,或(huo)稱為(wei)多版(ban)(ban)式(shi)文(wen)檔,同(tong)(tong)(tong)(tong)一類(lei)型不(bu)(bu)同(tong)(tong)(tong)(tong)樣本之(zhi)間關(guan)鍵內容相同(tong)(tong)(tong)(tong),但是往(wang)往(wang)內容出現的(de)位置(zhi)卻不(bu)(bu)同(tong)(tong)(tong)(tong),如(ru)不(bu)(bu)同(tong)(tong)(tong)(tong)供應(ying)商(shang)(shang)采購的(de)送貨單,每(mei)個(ge)供應(ying)商(shang)(shang)都不(bu)(bu)同(tong)(tong)(tong)(tong),但是其關(guan)鍵內容都包含訂(ding)單號、商(shang)(shang)品信息等。
非(fei)結構(gou)化文(wen)(wen)(wen)檔又稱為開放版式文(wen)(wen)(wen)檔,通常沒有顯著(zhu)的(de)版式特征,幾乎是純文(wen)(wen)(wen)本(ben)表達,雖然(ran)表達的(de)內容相(xiang)同(tong),但是表達方式卻差(cha)異很(hen)大(da)。常見的(de)如合同(tong)、簡歷、招(zhao)標文(wen)(wen)(wen)件等(deng)。
對于(yu)結構化(hua)(hua)和半結構化(hua)(hua)文(wen)檔(dang),由(you)于(yu)版式(shi)相(xiang)對固(gu)定,當前行業內普遍的(de)(de)(de)做(zuo)法(fa)是通(tong)過模(mo)板或深度學習(xi)模(mo)型的(de)(de)(de)方法(fa),完成分類和信息抽取等自動化(hua)(hua)處理(li),已經能夠解決大多數應用場景的(de)(de)(de)問題。但是,開放(fang)版式(shi)文(wen)檔(dang),由(you)于(yu)其天然的(de)(de)(de)諸(zhu)多難點,給智能文(wen)檔(dang)處理(li)帶來(lai)了很大的(de)(de)(de)困難。如下表,是我們歸納的(de)(de)(de)開放(fang)版式(shi)文(wen)檔(dang)處理(li)的(de)(de)(de)主要(yao)難點。


表1 開放版式(shi)文檔特點

智能文檔處理核心技(ji)術
如表1,相比于純文(wen)(wen)本或固定(ding)和(he)多版(ban)式文(wen)(wen)檔,開放版(ban)式文(wen)(wen)檔處(chu)理(li)具有諸多難點。因此,智能(neng)文(wen)(wen)檔處(chu)理(li)過程必(bi)須綜合應用(yong)計算(suan)機視覺(CV)、光學字符(fu)處(chu)理(li)(OCR)、文(wen)(wen)檔解析、自然(ran)語言處(chu)理(li)(NLP)和(he)文(wen)(wen)檔信息抽取等(deng)關鍵(jian)技術,才(cai)能(neng)更好地實現自動(dong)化和(he)智能(neng)化處(chu)理(li)。
計算(suan)機視覺(jue)(CV)技術

CV技(ji)術主要是(shi)對于文(wen)(wen)檔圖(tu)(tu)像(xiang)(xiang)(xiang)(xiang)進(jin)行(xing)各種(zhong)圖(tu)(tu)像(xiang)(xiang)(xiang)(xiang)處(chu)理,常見(jian)如(ru)圖(tu)(tu)像(xiang)(xiang)(xiang)(xiang)去(qu)噪(zao)聲(sheng)、去(qu)干擾(rao)、圖(tu)(tu)像(xiang)(xiang)(xiang)(xiang)增(zeng)強、圖(tu)(tu)像(xiang)(xiang)(xiang)(xiang)壓縮、圖(tu)(tu)像(xiang)(xiang)(xiang)(xiang)分(fen)割(ge)等(deng)。其處(chu)理目的(de)主要是(shi)為后續OCR環(huan)節提(ti)供高質量的(de)圖(tu)(tu)像(xiang)(xiang)(xiang)(xiang)輸入,以提(ti)升OCR的(de)性能。同時(shi),利(li)用圖(tu)(tu)像(xiang)(xiang)(xiang)(xiang)檢測和分(fen)割(ge)等(deng)技(ji)術,可(ke)以實(shi)現文(wen)(wen)檔物理版面解析(xi)。

  • 光學字(zi)符處理(OCR)技(ji)術

OCR是將紙質(zhi)文(wen)檔、圖片等非數字化文(wen)件(jian)中(zhong)的(de)文(wen)字內容轉(zhuan)換為(wei)數字化格(ge)式的(de)技術(shu)。當(dang)前(qian)主(zhu)流實現上,借助表(biao)格(ge)識(shi)別、印(yin)章(zhang)識(shi)別、勾選和二(er)維(wei)(wei)碼識(shi)別等技術(shu),在OCR環節可以實現圖像中(zhong)所有通用對象(文(wen)字、表(biao)格(ge)、印(yin)章(zhang)、勾選、二(er)維(wei)(wei)碼、簽名(ming)等)的(de)統一識(shi)別和輸出,作為(wei)后續智能化文(wen)檔處理(li)環節的(de)輸入。

  • 文檔解析技(ji)術

文(wen)(wen)(wen)(wen)檔(dang)解(jie)(jie)析(xi)(xi)是在文(wen)(wen)(wen)(wen)檔(dang)協議解(jie)(jie)析(xi)(xi)或OCR處理的(de)(de)(de)結(jie)果上,通(tong)過(guo)版面分析(xi)(xi)、表格解(jie)(jie)析(xi)(xi)等技術,實現文(wen)(wen)(wen)(wen)檔(dang)物理和邏輯結(jie)構的(de)(de)(de)解(jie)(jie)析(xi)(xi),得到文(wen)(wen)(wen)(wen)檔(dang)內(nei)容的(de)(de)(de)統(tong)一表示。以此作為進一步(bu)文(wen)(wen)(wen)(wen)檔(dang)分類(lei)、信息(xi)抽取和文(wen)(wen)(wen)(wen)檔(dang)比對(dui)等處理的(de)(de)(de)輸入。IDP通(tong)常需要能夠支持(chi)所有格式(shi)(shi)的(de)(de)(de)文(wen)(wen)(wen)(wen)檔(dang)輸入,包(bao)括圖片、PDF、Word、OFD等,因此,文(wen)(wen)(wen)(wen)檔(dang)解(jie)(jie)析(xi)(xi)環節需要能夠解(jie)(jie)析(xi)(xi)以上各種格式(shi)(shi)的(de)(de)(de)輸入文(wen)(wen)(wen)(wen)件(jian),將(jiang)其轉換成統(tong)一的(de)(de)(de)表示形式(shi)(shi),如JSON文(wen)(wen)(wen)(wen)件(jian)。

  • 自然語言處理(NLP)
NLP是一種利用(yong)計算機技(ji)(ji)術(shu)(shu)對(dui)自(zi)(zi)然語(yu)言進行分(fen)(fen)析(xi)(xi)和(he)處理(li)的(de)(de)技(ji)(ji)術(shu)(shu),常(chang)見的(de)(de)NLP任務包括(kuo)分(fen)(fen)詞、詞性(xing)標(biao)注、句法分(fen)(fen)析(xi)(xi)、語(yu)義分(fen)(fen)析(xi)(xi)、文(wen)(wen)(wen)本(ben)分(fen)(fen)類(lei)、信息抽(chou)取、文(wen)(wen)(wen)檔(dang)(dang)摘(zhai)要(yao)、情感(gan)分(fen)(fen)析(xi)(xi)等。IDP中主要(yao)使用(yong)的(de)(de)NLP技(ji)(ji)術(shu)(shu)包括(kuo)文(wen)(wen)(wen)本(ben)分(fen)(fen)類(lei)、文(wen)(wen)(wen)本(ben)信息抽(chou)取、語(yu)義理(li)解(jie)等。通常(chang)的(de)(de)做法是將(jiang)OCR輸出或文(wen)(wen)(wen)檔(dang)(dang)協議解(jie)析(xi)(xi)后的(de)(de)所(suo)有文(wen)(wen)(wen)本(ben)塊(kuai)進行拼(pin)接(jie),得到文(wen)(wen)(wen)本(ben)序列,再(zai)通過文(wen)(wen)(wen)本(ben)分(fen)(fen)類(lei)、信息抽(chou)取等技(ji)(ji)術(shu)(shu),實(shi)現(xian)文(wen)(wen)(wen)檔(dang)(dang)的(de)(de)分(fen)(fen)類(lei)和(he)信息抽(chou)取。另外,通過NLP技(ji)(ji)術(shu)(shu),也可以對(dui)文(wen)(wen)(wen)檔(dang)(dang)進行自(zi)(zi)動摘(zhai)要(yao)、情感(gan)分(fen)(fen)析(xi)(xi)和(he)智能問答(da)等處理(li)。
  • 文(wen)檔信息抽取(qu)
相比于純文(wen)(wen)(wen)本(ben),文(wen)(wen)(wen)檔的(de)最大特(te)點(dian)是其富格式特(te)點(dian)。因此,文(wen)(wen)(wen)檔中信(xin)(xin)息(xi)抽取(qu)必須依賴(lai)于版面位置等(deng)視覺(jue)特(te)征,比如(ru)從(cong)文(wen)(wen)(wen)檔中的(de)圖(tu)表或(huo)表格中抽取(qu)信(xin)(xin)息(xi),或(huo)者(zhe)從(cong)特(te)定(ding)版面位置區域的(de)結(jie)構化信(xin)(xin)息(xi)塊中抽取(qu)信(xin)(xin)息(xi)。相比于簡單(dan)地從(cong)大段文(wen)(wen)(wen)本(ben)序列中做(zuo)信(xin)(xin)息(xi)抽取(qu),文(wen)(wen)(wen)檔信(xin)(xin)息(xi)抽取(qu)技(ji)術難度更大。
智(zhi)能文檔處理(li)流程
如下圖,是智能文檔統一處理流程。

圖1 智能文檔處理(li)流程

主要包含(han)以下環節:
  • 文(wen)檔預處(chu)理(li)
該步驟主要針對Word、PDF等文檔協議進行解析處(chu)理(li)。
  • OCR
通過通用(yong)OCR識別模型,對(dui)輸(shu)入的(de)文檔圖像上的(de)文字(zi)、印(yin)章、簽(qian)名、表格等通用(yong)要素進行(xing)識別,得到文本(ben)和位置(zhi),以及表格結構(gou)化(hua)數據。
  • 版面分析
利(li)用版面(mian)分析技術,定位出文(wen)檔圖像(xiang)上所有(you)的標(biao)題、段落(luo)、表格(ge)、圖表、頁(ye)眉(mei)、頁(ye)腳等版面(mian)信息。再(zai)利(li)用標(biao)題和段落(luo)等信息,做文(wen)檔邏(luo)輯結構分析,得到(dao)文(wen)檔結構。
  • 信(xin)息抽取
基于版面和目錄(lu)分(fen)析(xi)的結果(guo),結合文檔協議解析(xi)或OCR的結果(guo),利用(yong)自(zi)然(ran)語言處(chu)理等(deng)技(ji)術,進行文檔關鍵(jian)信息抽取。
  • 信息校驗
利(li)用(yong)預設(she)的(de)規(gui)則,對抽取(qu)出的(de)信(xin)息進行校驗,包括數據格式檢查、預設(she)的(de)審閱規(gui)則檢查等。
智(zhi)能(neng)文檔處理應用(yong)場景
主要的智能文(wen)檔(dang)處理應(ying)用場景包(bao)括:
  • 分類(lei)和標簽化
通過智能文(wen)檔(dang)處理(li)技術,可以對大(da)量文(wen)檔(dang)進(jin)行分類(lei)和標(biao)簽(qian)化,從而實(shi)現文(wen)檔(dang)的快速檢索、內容(rong)推薦和歸(gui)檔(dang)處理(li)等(deng)功能。
  • 信(xin)息抽取(qu)
智(zhi)(zhi)能文檔處理可以(yi)幫助從文檔中(zhong)抽(chou)取(qu)關鍵(jian)信息,如(ru)關鍵(jian)的(de)短語、實(shi)體(ti)、事件等。這些信息在(zai)知識圖(tu)譜構建、智(zhi)(zhi)能搜(sou)索、智(zhi)(zhi)能比對、智(zhi)(zhi)能問答(da)等應(ying)用場景(jing)中(zhong)具有重要的(de)價值。
  • 摘要與生(sheng)成
利(li)用(yong)智能(neng)文(wen)檔處理技(ji)術(shu),可以對文(wen)檔進行自動摘要,生(sheng)成(cheng)簡(jian)潔(jie)、精煉的(de)摘要內容。此外,還可以根據用(yong)戶(hu)輸入的(de)關(guan)鍵詞或短語生(sheng)成(cheng)特定(ding)主(zhu)題的(de)文(wen)章(zhang),以滿(man)足用(yong)戶(hu)需求。
  • 問答與對話
通過智(zhi)能文(wen)檔處理技術(shu),可以構建(jian)智(zhi)能問(wen)答系統,為用戶提供及時準確的文(wen)檔內容信(xin)息。
未來(lai)隨著大模型等人工智能(neng)技術的不(bu)斷發展,智能(neng)文(wen)檔(dang)處(chu)理將會在各個行業的應用場景中不(bu)斷普及(ji)化(hua)。
賽(sai)博智能學習(xi)平臺(tai)智能文檔處理
賽博智(zhi)(zhi)能(neng)(neng)學習平(ping)臺(tai)定位于(yu)(yu)一體化(hua)機器學習訓(xun)練(lian)平(ping)臺(tai),集(ji)成了對于(yu)(yu)結構化(hua)和非(fei)結構文(wen)(wen)(wen)(wen)檔(dang)(dang)的智(zhi)(zhi)能(neng)(neng)化(hua)處(chu)理功(gong)能(neng)(neng),包括智(zhi)(zhi)能(neng)(neng)文(wen)(wen)(wen)(wen)檔(dang)(dang)分類、文(wen)(wen)(wen)(wen)檔(dang)(dang)解析和文(wen)(wen)(wen)(wen)檔(dang)(dang)信息抽取等(deng)。能(neng)(neng)夠支持合同、法律文(wen)(wen)(wen)(wen)書、招投標文(wen)(wen)(wen)(wen)件等(deng)各種開放版式(shi)(shi)長文(wen)(wen)(wen)(wen)檔(dang)(dang)的智(zhi)(zhi)能(neng)(neng)化(hua)處(chu)理。基于(yu)(yu)平(ping)臺(tai)自定義模(mo)板(ban)和自訓(xun)練(lian)模(mo)型能(neng)(neng)力,通過現場模(mo)板(ban)定制、模(mo)型標注(zhu)訓(xun)練(lian)的方式(shi)(shi),能(neng)(neng)夠形(xing)成即時可用的文(wen)(wen)(wen)(wen)檔(dang)(dang)AI能(neng)(neng)力。
如下圖(tu),是賽博智能(neng)學習平臺智能(neng)文檔處理的基本(ben)流(liu)程。


圖(tu)2 賽博(bo)智能學習平臺(tai)智能文(wen)檔處(chu)理流程

未來,易道博(bo)識(shi)將繼續針對(dui)金(jin)融、能源、通信等(deng)行(xing)業(ye)客戶,在業(ye)務運(yun)營、審核(he)和監督管(guan)理、信息檢索和風險(xian)管(guan)理等(deng)場景下,圍(wei)繞數字化、自動化和智能化需求(qiu),依托賽博(bo)智能學(xue)習平臺,為(wei)企(qi)業(ye)打造強大AI底座(zuo),助力企(qi)業(ye)建(jian)設基于(yu)AI模型全生(sheng)命周(zhou)期的標(biao)準化、一體(ti)化生(sheng)產運(yun)營體(ti)系(xi)。
賽博智能(neng)學(xue)習平臺以(yi)私有化部署、現(xian)場訓練的形式(shi)滿(man)足客戶對數據安全要(yao)求(qiu),通過(guo)與業(ye)務系統深度融合,滿(man)足各業(ye)務場景(jing)在圖像處理、OCR、智能(neng)文檔處理和NLP等(deng)方向需求(qiu)。
賽博(bo)智(zhi)能學習(xi)平(ping)臺持續將(jiang)AI大模(mo)型(xing)等前沿技術與行業數(shu)據深度結(jie)合,在(zai)(zai)技術與業務場(chang)(chang)景(jing)(jing)之(zhi)間搭橋鋪路,讓(rang)AI技術快速在(zai)(zai)場(chang)(chang)景(jing)(jing)中落地,在(zai)(zai)應用場(chang)(chang)景(jing)(jing)中產生價值,帶動產業發展和(he)升級(ji)。
在線留言