�þþù��Ʒva�鶹,��ѹۿ�a��ëƬ

首頁動態資訊行業資訊(xun)

大模型技術在智能文檔處理中的應用（下篇）

來源(yuan)：易道(dao)博識發布時間：2023-06-15

一個專(zhuan)業的IDP系統(tong)至少需(xu)要具備如下兩方面的能(neng)力，才能(neng)夠滿(man)足富格(ge)式文檔的智(zhi)能(neng)化處理(li)需(xu)求。

具(ju)備(bei)多模(mo)態信息處理(li)能力

由于(yu)文檔本身多(duo)模態的特(te)點(dian)，決定了IDP系統必須能夠綜合應(ying)用計算機(ji)視覺和自然語言(yan)處理(li)等技(ji)術，包括圖像處理(li)、OCR、表(biao)格(ge)識別、文(wen)檔解析、文(wen)本分(fen)析、文(wen)本理解等，對(dui)于文(wen)檔中(zhong)的(de)標(biao)題(ti)、段落、表(biao)格(ge)、圖表(biao)、印章、簽名等多模態信息進行識別、提取(qu)和進一(yi)步的(de)理解和分(fen)析。

具(ju)備領域樣本高效學習能(neng)力(li)

由于不同領(ling)(ling)域(yu)的(de)文檔特征差(cha)異(yi)很大(da)，為了在領(ling)(ling)域(yu)數據上達到(dao)業務可用的(de)精度要求，IDP系統必須具備領域樣本高效學習能(neng)力，能(neng)夠生成(cheng)優化后的(de)模型(xing)，滿足業務(wu)場景應用需求(qiu)，為(wei)實際(ji)業務(wu)創造價值。

多模(mo)(mo)態(tai)能力和領域學習(xi)能力等方面的(de)要求(qiu)，決(jue)定了(le)通用IDP系(xi)統(tong)是一(yi)個復雜的(de)綜合性軟件系(xi)統(tong)，對于技術(shu)架(jia)構和系(xi)統(tong)設計提(ti)出了(le)很高的(de)要求(qiu)。架(jia)構上，IDP系(xi)統(tong)需要能夠兼容各種(zhong)深(shen)度(du)學習(xi)框架(jia)，并(bing)能夠對于各種(zhong)預(yu)(yu)訓練大模(mo)(mo)型、多模(mo)(mo)態(tai)預(yu)(yu)置模(mo)(mo)型和用戶(hu)自訓練的(de)領域模(mo)(mo)型實現(xian)有效的(de)模(mo)(mo)型治理。并(bing)且，能夠以(yi)統(tong)一(yi)的(de)模(mo)(mo)型能力層(ceng)，向文檔應用層(ceng)提(ti)供接(jie)口，滿足(zu)上層(ceng)智能化(hua)應用的(de)調用需求(qiu)。

大語言模型(xing)在智能文檔處理(li)中(zhong)的價值與挑戰(zhan)

如下圖，是一個常(chang)見的(de)IDP系(xi)統模型(xing)技術棧。可以看出，LLMs僅(jin)僅(jin)是在自然語(yu)言文本這個模(mo)態上，作為預訓練基礎模(mo)型(xing)（如紅色高亮部分(fen)）。相比于文(wen)本(ben)領域的處理能(neng)力，IDP系統(tong)中更加核心的功能(neng)在于文(wen)檔(dang)圖(tu)像和(he)多模態(tai)信息的綜合處理能(neng)力，包括OCR、表格識(shi)(shi)別、印章識(shi)(shi)別，以及文(wen)檔(dang)分類、信息檢索和(he)文(wen)檔(dang)抽取等。

圖2 IDP模(mo)型技術(shu)棧

因(yin)此，對于IDP系統(tong)，大語(yu)言模型主要作用是幫助提升文(wen)檔文(wen)本的理解(jie)和生成能力(li)，尚無法完(wan)全替(ti)代IDP模型技(ji)術棧。

大語(yu)言模型(xing)在IDP系統的(de)主要應用包括：

提(ti)升文檔分類精度

利用大(da)語言模型強大(da)的(de)文(wen)(wen)本理解能力，提升(sheng)文(wen)(wen)檔(dang)中(zhong)文(wen)(wen)本信息的(de)分(fen)類能力，如段落和條款，進而提升(sheng)文(wen)(wen)檔(dang)信息檢索和文(wen)(wen)檔(dang)分(fen)類的(de)效果。

提供文(wen)檔知識問(wen)答(da)能力

相比(bi)于BERT等大語(yu)言(yan)模型，GPT大模型具備生成式(shi)的(de)特點，能夠(gou)更好滿(man)足文檔知識實時問答的(de)應用，幫助實現諸(zhu)如“與你的(de)文檔聊(liao)天”等應用功能。

提升(sheng)信息抽取精度

大語言模型(xing)在文本(ben)信息(xi)抽取方(fang)面具備強大的(de)能力(li)，如從特定條款或段落中抽取實體、關(guan)系和事(shi)件(jian)，幫助提升文檔關(guan)鍵信息(xi)抽取能力(li)。

提升條款和段落比對精(jing)度

利(li)用大語言模(mo)型強(qiang)大的(de)理(li)解能(neng)力，能(neng)夠提升文(wen)檔中不(bu)同條款(kuan)、段落之間，以及與(yu)標準條款(kuan)和段落的(de)比對(dui)精度，改善文(wen)檔比對(dui)效果。

大語(yu)言模型在幫助提升IDP文本處理能力的同(tong)時，也面臨諸多挑戰和風險(xian)，主要包括：

模型輸入長度(du)有限(xian)，長文檔(dang)處(chu)理能力(li)受限(xian)

GPT-4具(ju)有最大32K Token輸入和25K Word輸入的(de)要求，限制了對于長文檔(dang)的(de)處理能力，如幾十(shi)上百頁的(de)合同(tong)和報告文件。這(zhe)就(jiu)要求必須通過前置的(de)信息(xi)檢索(suo)或段落抽取(qu)等預(yu)處理，提取(qu)出(chu)大(da)篇幅文檔(dang)中的(de)相關(guan)部分，再輸入大(da)模型進行后續(xu)任務處理。

生成式(shi)特(te)點，導致模(mo)型輸出無(wu)法(fa)溯源，準確性(xing)差

不同于(yu)BERT等大模型，GPT(Generative Pre-trained Tranformer)模(mo)(mo)型(xing)屬于生成式(shi)語言模(mo)(mo)型(xing)，對于模(mo)(mo)型(xing)輸出(chu)的(de)信(xin)息無(wu)法進行精(jing)準溯源，即很多(duo)情(qing)況下(xia)無(wu)法準確獲得輸出(chu)內容在文(wen)檔(dang)中的(de)具體位置，這就(jiu)增加(jia)了(le)輸出(chu)的(de)風險性。在對于模(mo)(mo)型(xing)精(jing)準度要求高的(de)場(chang)景下(xia)，如(ru)金融業務(wu)場(chang)景，往往極小概(gai)率的(de)風險也會帶來巨(ju)大的(de)損失。因此，就(jiu)需要通過模(mo)(mo)型(xing)優化和后處理等方法進行有效規避(bi)(bi)，避(bi)(bi)免非法輸出(chu)問題。

領域知識匱乏，影響模型效果(guo)

上文提到，文檔的(de)一大特征在于其領域信(xin)息的(de)多樣性和(he)差異(yi)性。通用大語言模型通常基(ji)于公(gong)開的(de)互聯網語料訓(xun)練(lian)獲得，包(bao)括維基(ji)百(bai)科、新聞文章、社交(jiao)媒體(ti)等，因此，缺乏對(dui)于(yu)領域(yu)知識的(de)深度學(xue)習(xi)和理(li)解。實(shi)際應用(yong)中，必(bi)須結合領域(yu)數據基于(yu)預訓(xun)練語言(yan)模(mo)型進行(xing)學(xue)習(xi)和調(diao)優，以(yi)達到實(shi)際業務(wu)場景的(de)使(shi)用(yong)要求，這也是IDP系(xi)統必(bi)須具備高效學(xue)習(xi)能力的(de)根本原因。

模型參數量巨大，對算力要求高

大模(mo)型通常具備較(jiao)大的參數規模(mo)，如(ru)GPT-3.5有1750億參數，對于本地(di)(di)化和私有(you)化部署場(chang)景下(xia)的算力成本具有(you)很高的要求。因此，這些場(chang)景下(xia)，必須進行模型輕(qing)量化處理才能真正落地(di)(di)使用，如通過知(zhi)識蒸餾(liu)和模型量化等技術。

賽博結合大(da)模型技術打(da)造(zao)高效(xiao)學習能力(li)，提(ti)供(gong)IDP全(quan)新解決方案

賽博智(zhi)能(neng)學(xue)(xue)習平臺(tai)定(ding)位于(yu)一站式機器學(xue)(xue)習平臺(tai)，基于(yu)預置的多(duo)模態能(neng)力和(he)高效的領(ling)域數據學(xue)(xue)習能(neng)力，支(zhi)持對于(yu)圖片和(he)文檔(dang)等非結構化數據的智(zhi)能(neng)化處理。在(zai)預(yu)置多模態(tai)能(neng)力的基礎上(shang)，提供高(gao)效的領域數據學(xue)習能(neng)力，是賽博平臺(tai)智能(neng)文檔處理的核心優勢。如下圖，是關于賽(sai)博平臺(tai)智能(neng)文檔處理(li)的核心能(neng)力介紹。

圖3 賽博平臺智(zhi)能(neng)文檔(dang)處理核(he)心能(neng)力(li)

主(zhu)要(yao)的(de)預置多(duo)模態(tai)能力包括：

圖像處(chu)理

提(ti)供通用文檔(dang)圖像檢(jian)測、區域分割和矯(jiao)正、文檔(dang)圖像質量(liang)檢(jian)測（模(mo)糊、反光、遮擋(dang)、拍屏、水印、復印、篡改、變形(xing)、切邊和距離遠(yuan)等）、干擾和噪聲去除等預置(zhi)能力。

OCR

提供通用(yong)和(he)場(chang)景(jing)OCR功能(neng)。通用(yong)OCR支持對(dui)于常見的(de)文檔圖(tu)像要素(su)的(de)識別(bie)，包括文本（打印、手寫(xie)、多語言）、表(biao)格、印章、勾選和(he)簽名等。場(chang)景(jing)OCR功能(neng)支持超過50種場景文檔(dang)圖像的識別能(neng)力，涵蓋標(biao)準卡證、票(piao)據、表單和憑(ping)證。

文檔處(chu)理

提供通用的文(wen)檔處理能力，包括文(wen)檔格式(shi)轉換、協議解析(xi)、版(ban)面分析(xi)、文(wen)檔解析(xi)等(deng)，以及合同等(deng)場景文(wen)檔抽取能力。

自然(ran)語言處理

提供基礎的(de)自然語(yu)言處(chu)理功(gong)能，包括文(wen)本分類、信息抽取、通用問答(da)、情感分析等。

如前節所述(shu)，文(wen)檔(dang)具有(you)領域特(te)征差異大的特(te)點(dian)，主要表現在(zai)(zai)不同領域文(wen)檔(dang)之間在(zai)(zai)種類、版式、語(yu)料和表達(da)方(fang)式等方(fang)面存在(zai)(zai)較大差異。因此，高效(xiao)的領域文(wen)檔(dang)學習能力(li)，是IDP系統必(bi)備(bei)的基本功(gong)能，這也是賽(sai)博平臺的核(he)心功(gong)能之一。如(ru)下(xia)圖(tu)是關于賽(sai)博平臺高效學習能力的原(yuan)理(li)介紹。

圖4 賽博學(xue)習能力

賽博平臺IDP學習能(neng)力(li)以(yi)大規(gui)模(mo)(mo)語言(yan)模(mo)(mo)型(xing)(xing)和文檔版式預訓練模(mo)(mo)型(xing)(xing)為基礎，通過下游任務中/小(xiao)模型算法設(she)計，結合領(ling)域數(shu)據，高(gao)效生成(cheng)場景模型，并通過一鍵式模型部署和API生成，輸出場景化(hua)AI能力，如(ru)文(wen)(wen)檔(dang)分類(lei)、信息檢索、文(wen)(wen)檔(dang)抽(chou)取、段落(luo)比對(dui)等。依(yi)托機器學習功(gong)能(neng)(neng)底座，賽博平臺能(neng)(neng)夠提供文(wen)(wen)檔(dang)數據集標注(zhu)、模型訓練、模型部署和(he)API應(ying)用等一體化操作(zuo)功(gong)能(neng)(neng)，支持用戶通過(guo)可(ke)視化頁面，高效完(wan)成領域文(wen)(wen)檔(dang)數據的學習和(he)模型能(neng)(neng)力的輸出(chu)與應(ying)用。

另外，為了更(geng)好地滿足業務場景需求，實現與業務深度融合(he)，賽博平(ping)臺支持模型輸(shu)出規則和API代碼補(bu)丁定制，能夠在線實現模型輸(shu)出格(ge)式轉換、字段拆分與合(he)并、噪聲剔除(chu)以及(ji)其他(ta)高級后(hou)處(chu)理(li)功能，有效解決(jue)模型輸(shu)出與業務需求之間“最后(hou)一公里”的問(wen)題。

未來，易道博(bo)(bo)識將繼續立足于金融、能(neng)源、通信等(deng)行業(ye)(ye)，圍(wei)繞企業(ye)(ye)在日常業(ye)(ye)務(wu)運營、審核和監督管理、信息檢索(suo)和風(feng)險管控等(deng)場景(jing)下的數智化轉型(xing)需(xu)求(qiu)，依托賽博(bo)(bo)智能(neng)學習(xi)平(ping)臺底(di)座，在滿足客戶(hu)數據安(an)全的前提下，通過(guo)(guo)高效學習(xi)能(neng)力(li)，將大(da)模型(xing)等(deng)前沿技術與客戶(hu)業(ye)(ye)務(wu)數據相(xiang)結合(he)，發揮巨(ju)大(da)效能(neng)，通過(guo)(guo)與業(ye)(ye)務(wu)場景(jing)的深度融合(he)，為(wei)業(ye)(ye)務(wu)賦能(neng)。

上一篇：易道博識入選“第六屆數字金融創新大賽——2023數字金融創新先鋒榜”

下一篇：大模型技術在智能文檔處理中的應用（上篇）

返回列表

更多資訊

易道博識OCR智能(neng)識別方案，助力金融業降本(ben)增效

熱門標簽

人工智能 OCR識別證券 IT 計算機視覺訓練平臺銀行駕駛證識別財務識別保險

永久免费a∨片在线观看_日韩人妻精品无码一区二区三区_精品久久久久久无码人妻热_日日噜噜夜夜狠狠久久蜜桃

搜索

大模型技術在智能文檔處理中的應用（下篇）

國內統一咨詢服務熱線

（早09:00 - 晚18:00）