��ɫ��WWW��վ,��Ļ��Ҿ�Ʒ

首頁動態資訊行業資訊

大模型技術在智能文檔處理中的應用（下篇）

來源：易道博識發布時(shi)間：2023-06-15

一個專(zhuan)業的IDP系統至少需要具備如(ru)下(xia)兩方面的能(neng)力，才能(neng)夠(gou)滿足富格式文(wen)檔(dang)的智(zhi)能(neng)化處理需求(qiu)。

具備(bei)多模態信息處理能力

由于文檔本(ben)身多模態的特(te)點，決定了IDP系統必須能夠(gou)綜(zong)合應用計算機視覺和(he)自然語言(yan)處理(li)等技(ji)術，包括圖像處理(li)、OCR、表格識別、文(wen)檔解(jie)析(xi)(xi)、文(wen)本(ben)分(fen)析(xi)(xi)、文(wen)本(ben)理(li)解(jie)等，對(dui)于文(wen)檔中的標題、段落、表格、圖表、印章、簽名等多模態信(xin)息進行(xing)識別、提取和進一步(bu)的理(li)解(jie)和分(fen)析(xi)(xi)。

具(ju)備(bei)領域樣本高(gao)效學習能力

由于不(bu)同領(ling)域(yu)的文檔特(te)征差異很大，為了在(zai)領(ling)域(yu)數據(ju)上(shang)達到業務可用的精(jing)度要求(qiu)，IDP系統(tong)必須具(ju)備領(ling)域樣本高效(xiao)學習能力，能夠(gou)生成優化后的模型，滿足業務場景應用需求，為實際業務創造價值。

多模(mo)態(tai)能(neng)(neng)(neng)力和(he)領域學習能(neng)(neng)(neng)力等(deng)方面(mian)的要求，決定了通用IDP系統(tong)是一個復(fu)雜的綜(zong)合性軟件系統(tong)，對(dui)于技(ji)術架(jia)構和(he)系統(tong)設計提出了很高的要求。架(jia)構上，IDP系統(tong)需(xu)要能(neng)(neng)(neng)夠兼容(rong)各(ge)種(zhong)深度學習框架(jia)，并能(neng)(neng)(neng)夠對(dui)于各(ge)種(zhong)預訓(xun)練(lian)大(da)模(mo)型、多模(mo)態(tai)預置模(mo)型和(he)用戶(hu)自訓(xun)練(lian)的領域模(mo)型實現有效的模(mo)型治理。并且，能(neng)(neng)(neng)夠以統(tong)一的模(mo)型能(neng)(neng)(neng)力層，向文檔應用層提供接口(kou)，滿足(zu)上層智能(neng)(neng)(neng)化應用的調用需(xu)求。

大(da)語言模(mo)型在智(zhi)能(neng)文檔處理中的價值與挑(tiao)戰

如下圖，是(shi)一個常見(jian)的IDP系統模型技術棧。可以看出(chu)，LLMs僅僅是在自(zi)然(ran)語言文本這個模(mo)態上，作為預訓練(lian)基礎模(mo)型（如紅(hong)色高亮(liang)部分(fen)）。相比于(yu)文(wen)本(ben)領域的(de)處理能(neng)力，IDP系(xi)統中更加核(he)心的(de)功能(neng)在(zai)于(yu)文(wen)檔圖像和多模態信(xin)(xin)息(xi)的(de)綜合(he)處理能(neng)力，包括OCR、表(biao)格識別、印章識別，以及(ji)文(wen)檔分類、信(xin)(xin)息(xi)檢索和文(wen)檔抽(chou)取等。

圖2 IDP模型技術(shu)棧

因此，對于IDP系統，大語言模(mo)型(xing)主要作用(yong)是幫(bang)助提升文檔文本的理解和(he)生成能力，尚(shang)無法完全替(ti)代(dai)IDP模(mo)型(xing)技術棧。

大(da)語(yu)言模型(xing)在IDP系統的主要應(ying)用包括：

提升文(wen)檔(dang)分類精度(du)

利用大語言模型強大的(de)文(wen)本理解能力(li)，提升(sheng)文(wen)檔中(zhong)文(wen)本信息的(de)分類(lei)能力(li)，如段落和條款，進(jin)而提升(sheng)文(wen)檔信息檢索和文(wen)檔分類(lei)的(de)效果。

提供文檔(dang)知識問答能(neng)力

相(xiang)比于BERT等大語言模(mo)型，GPT大模(mo)型具備生成(cheng)式的(de)特點，能夠更好滿足文檔知(zhi)識實時問(wen)答的(de)應(ying)用，幫助實現諸如“與你的(de)文檔聊天”等應(ying)用功能。

提升信息抽取精度

大語言模型在文(wen)本(ben)信息抽(chou)取方(fang)面具備強大的能(neng)(neng)力，如從特定(ding)條(tiao)款或段落(luo)中(zhong)抽(chou)取實體、關系和(he)事件(jian)，幫助提(ti)升文(wen)檔關鍵信息抽(chou)取能(neng)(neng)力。

提(ti)升(sheng)條款和段落比對精度(du)

利用大語(yu)言模型(xing)強大的(de)理解能(neng)力(li)，能(neng)夠提升(sheng)文(wen)檔(dang)中不同條款(kuan)、段(duan)落之間，以及與標準條款(kuan)和段(duan)落的(de)比對精度(du)，改善文(wen)檔(dang)比對效果。

大語言模型在幫助提升IDP文本(ben)處理能力的同(tong)時，也面臨(lin)諸多挑(tiao)戰(zhan)和風險，主要包括(kuo)：

模型輸入(ru)長度有限，長文(wen)檔處理能力(li)受限

GPT-4具有(you)最大32K Token輸入和25K Word輸入的要求，限制(zhi)了對于長文檔的處理能(neng)力，如幾十上(shang)百頁的合同(tong)和報告文件。這就要求必須通過前置的信息(xi)檢索或段落抽取等預(yu)處理，提取出(chu)大篇幅(fu)文檔中的相關部分，再(zai)輸入大模型進行(xing)后(hou)續任務處理。

生(sheng)成式特(te)點(dian)，導致模型輸出無法(fa)溯源(yuan)，準確性差

不(bu)同于BERT等大模型，GPT(Generative Pre-trained Tranformer)模型屬于(yu)生成式語言模型，對(dui)于(yu)模型輸出(chu)(chu)的(de)(de)(de)信息無(wu)法(fa)進行精準溯源，即很多情況(kuang)下無(wu)法(fa)準確獲得輸出(chu)(chu)內(nei)容在文檔中(zhong)的(de)(de)(de)具體(ti)位置，這(zhe)就增加了(le)輸出(chu)(chu)的(de)(de)(de)風(feng)(feng)險性(xing)。在對(dui)于(yu)模型精準度(du)要求高(gao)的(de)(de)(de)場景下，如(ru)金融業務(wu)場景，往往極(ji)小概(gai)率的(de)(de)(de)風(feng)(feng)險也(ye)會(hui)帶來巨大的(de)(de)(de)損失。因(yin)此，就需要通(tong)過模型優化和(he)后(hou)處(chu)理等方法(fa)進行有(you)效規(gui)避(bi)，避(bi)免非法(fa)輸出(chu)(chu)問題。

領域知識匱乏(fa)，影響模(mo)型效果(guo)

上文提到，文檔(dang)的一大特(te)征在于其領域信(xin)息的多樣性和(he)差異性。通用(yong)大語言模(mo)型通常基于公(gong)開的互聯(lian)網(wang)語料(liao)訓練(lian)獲得，包括維基百(bai)科、新(xin)聞文章、社(she)交媒體等，因此，缺乏對于領域(yu)知識的深度(du)學(xue)習和(he)理解。實際(ji)應用中(zhong)，必須(xu)結合領域(yu)數(shu)據基于預訓練語言模型(xing)進行學(xue)習和(he)調(diao)優，以達到實際(ji)業務場(chang)景的使用要求，這也是(shi)IDP系統必須(xu)具備(bei)高效學(xue)習能(neng)力的根(gen)本原因。

模型參數量(liang)巨大，對算力要求高

大模(mo)型通常具備較大的參數規(gui)模(mo)，如GPT-3.5有1750億參數，對于本地化(hua)和私有化(hua)部署場景(jing)下的(de)算力成(cheng)本具有很高(gao)的(de)要求。因此，這些(xie)場景(jing)下，必須進(jin)行模型(xing)輕(qing)量化(hua)處理(li)才能真正落地使用，如通(tong)過知識(shi)蒸餾和模型(xing)量化(hua)等技術。

賽博(bo)結合大模型技術打造高(gao)效學習(xi)能(neng)力，提供(gong)IDP全新(xin)解決方案

賽博智能(neng)學習(xi)(xi)平臺(tai)定(ding)位(wei)于一(yi)站式機器學習(xi)(xi)平臺(tai)，基于預置的(de)多模(mo)態能(neng)力和高效的(de)領域(yu)數據學習(xi)(xi)能(neng)力，支持對于圖片和文檔等(deng)非結(jie)構(gou)化數據的(de)智能(neng)化處(chu)理(li)。在(zai)預置多模態能(neng)力的基(ji)礎上(shang)，提供高效(xiao)的領域數據(ju)學習能(neng)力，是賽博平(ping)臺智能(neng)文檔處(chu)理的核心優勢。如下圖，是(shi)關于賽博平臺智能文檔處(chu)理的(de)核心(xin)能力介(jie)紹。

圖3 賽博(bo)平臺(tai)智能文檔處(chu)理核心(xin)能力

主(zhu)要的預置多模態(tai)能力包括：

圖(tu)像處理

提供通用文檔(dang)圖像檢測(ce)、區域分割和(he)矯(jiao)正、文檔(dang)圖像質(zhi)量(liang)檢測(ce)（模糊、反(fan)光、遮(zhe)擋、拍屏、水印(yin)、復印(yin)、篡改、變(bian)形、切(qie)邊和(he)距離遠等(deng)）、干(gan)擾和(he)噪聲(sheng)去(qu)除(chu)等(deng)預置能力。

OCR

提(ti)供通(tong)用(yong)和場(chang)景(jing)OCR功能。通(tong)用(yong)OCR支持對于常見(jian)的(de)文檔(dang)圖像要素(su)的(de)識別，包(bao)括文本(ben)（打印、手寫(xie)、多(duo)語言）、表格、印章(zhang)、勾(gou)選和簽名(ming)等。場(chang)景(jing)OCR功能支持超過50種場景文檔圖像的識別(bie)能力(li)，涵(han)蓋標準卡證、票據、表單和憑(ping)證。

文檔處理

提供通(tong)用的文檔(dang)(dang)處(chu)理(li)能力(li)，包括文檔(dang)(dang)格式轉換(huan)、協(xie)議解(jie)析、版面分(fen)析、文檔(dang)(dang)解(jie)析等(deng)(deng)，以及合(he)同等(deng)(deng)場景文檔(dang)(dang)抽取能力(li)。

自(zi)然語(yu)言處(chu)理

提(ti)供基礎的自然語(yu)言處(chu)理功能，包括文(wen)本分類、信息抽取、通用問答、情感分析等。

如前節所述，文(wen)檔具(ju)有領(ling)域(yu)特征(zheng)差(cha)異(yi)大(da)的特點，主要表現在不同領(ling)域(yu)文(wen)檔之間在種類、版式、語料和表達方(fang)(fang)式等(deng)方(fang)(fang)面(mian)存在較大(da)差(cha)異(yi)。因(yin)此(ci)，高效的領(ling)域(yu)文(wen)檔學習能力，是IDP系統必備的(de)基本(ben)功(gong)能，這也(ye)是(shi)賽(sai)博(bo)平臺(tai)的(de)核心功(gong)能之一。如(ru)下(xia)圖是(shi)關于賽(sai)博(bo)平臺(tai)高效學習(xi)能力的(de)原理介(jie)紹。

圖4 賽博(bo)學習能(neng)力(li)

賽博平臺IDP學習能力以大規模語言模型(xing)和(he)文(wen)檔版(ban)式(shi)預訓練(lian)模型(xing)為基礎，通過下游任(ren)務中/小模型算法設計(ji)，結合領域數據，高效生成場景(jing)模(mo)型，并(bing)通過一鍵式模型部署(shu)和(he)API生成，輸出場景化AI能(neng)力，如文檔(dang)分(fen)類、信息(xi)檢(jian)索、文檔(dang)抽取、段落比對等。依(yi)托機器學(xue)習功能底座，賽博平臺能夠提供文檔(dang)數據集標(biao)注、模(mo)型(xing)訓練、模(mo)型(xing)部署和API應(ying)用(yong)等一(yi)體(ti)化(hua)操(cao)作功能，支持(chi)用(yong)戶通過可視化(hua)頁(ye)面，高(gao)效完成領域文檔(dang)數據的學(xue)習和模(mo)型(xing)能力的輸出與應(ying)用(yong)。

另(ling)外，為了更好地滿(man)足業務場景(jing)需求，實(shi)現(xian)與(yu)業務深(shen)度融合(he)，賽博(bo)平臺支持模(mo)型(xing)輸(shu)出(chu)規則和API代碼補丁定制，能夠在(zai)線實(shi)現(xian)模(mo)型(xing)輸(shu)出(chu)格(ge)式轉換、字段拆分與(yu)合(he)并、噪聲剔除以及其他高級后(hou)(hou)處理(li)功能，有效解決模(mo)型(xing)輸(shu)出(chu)與(yu)業務需求之間“最(zui)后(hou)(hou)一公里”的問題。

未來(lai)，易道博(bo)識將繼續立(li)足于金融、能源、通(tong)信等行業(ye)，圍繞(rao)企(qi)業(ye)在(zai)日常業(ye)務運營、審(shen)核和監督管理、信息檢索(suo)和風險管控等場(chang)景下(xia)的(de)數(shu)(shu)智化(hua)轉型(xing)需求，依托賽博(bo)智能學習平臺底座，在(zai)滿足客(ke)戶(hu)數(shu)(shu)據(ju)安全的(de)前提(ti)下(xia)，通(tong)過高效學習能力，將大模型(xing)等前沿(yan)技術與客(ke)戶(hu)業(ye)務數(shu)(shu)據(ju)相(xiang)結合(he)，發揮巨(ju)大效能，通(tong)過與業(ye)務場(chang)景的(de)深度(du)融合(he)，為業(ye)務賦能。

上一篇：易道博識入選“第六屆數字金融創新大賽——2023數字金融創新先鋒榜”

下一篇：大模型技術在智能文檔處理中的應用（上篇）

返回列表

更多資訊

易道博識OCR智能識別方案，助力金融業(ye)降本增效

熱門標簽

人工智能 OCR識別證券 IT 計算機視覺訓練平臺銀行駕駛證識別財務識別保險

永久免费a∨片在线观看_日韩人妻精品无码一区二区三区_精品久久久久久无码人妻热_日日噜噜夜夜狠狠久久蜜桃

搜索

大模型技術在智能文檔處理中的應用（下篇）

國內統一咨詢服務熱線

（早09:00 - 晚18:00）