永久免费a∨片在线观看_日韩人妻精品无码一区二区三区_精品久久久久久无码人妻热_日日噜噜夜夜狠狠久久蜜桃

首頁
核心技術
產品體系
解決方案
動態資訊
關于我們
搜索
首頁 動態資訊 行業資訊(xun)

大模型技術在智能文檔處理中的應用(下篇)

來源(yuan):易道(dao)博識 發布時間:2023-06-15
一個專(zhuan)業的IDP系統(tong)至少需(xu)要具備如下兩方面的能(neng)力,才能(neng)夠滿(man)足富格(ge)式文檔的智(zhi)能(neng)化處理(li)需(xu)求。
  • 具(ju)備(bei)多模(mo)態信息處理(li)能力

由于(yu)文檔本身多(duo)模態的特(te)點(dian),決定了IDP系統必須能夠綜合應(ying)用計算機(ji)視覺和自然語言(yan)處理(li)等技(ji)術,包括圖像處理(li)、OCR、表(biao)格(ge)識別、文(wen)檔解析、文(wen)本分(fen)析、文(wen)本理解等,對(dui)于文(wen)檔中(zhong)的(de)標(biao)題(ti)、段落、表(biao)格(ge)、圖表(biao)、印章、簽名等多模態信息進行識別、提取(qu)和進一(yi)步的(de)理解和分(fen)析。

  • 具(ju)備領域樣本高效學習能(neng)力(li)

由于不同領(ling)(ling)域(yu)的(de)文檔特征差(cha)異(yi)很大(da),為了在領(ling)(ling)域(yu)數據上達到(dao)業務可用的(de)精度要求,IDP系統必須具備領域樣本高效學習能(neng)力,能(neng)夠生成(cheng)優化后的(de)模型(xing),滿足業務(wu)場景應用需求(qiu),為(wei)實際(ji)業務(wu)創造價值。

多模(mo)(mo)態(tai)能力和領域學習(xi)能力等方面的(de)要求(qiu),決(jue)定了(le)通用IDP系(xi)統(tong)是一(yi)個復雜的(de)綜合性軟件系(xi)統(tong),對于技術(shu)架(jia)構和系(xi)統(tong)設計提(ti)出了(le)很高的(de)要求(qiu)。架(jia)構上,IDP系(xi)統(tong)需要能夠兼容各種(zhong)深(shen)度(du)學習(xi)框架(jia),并(bing)能夠對于各種(zhong)預(yu)(yu)訓練大模(mo)(mo)型、多模(mo)(mo)態(tai)預(yu)(yu)置模(mo)(mo)型和用戶(hu)自訓練的(de)領域模(mo)(mo)型實現(xian)有效的(de)模(mo)(mo)型治理。并(bing)且,能夠以(yi)統(tong)一(yi)的(de)模(mo)(mo)型能力層(ceng),向文檔應用層(ceng)提(ti)供接(jie)口,滿足(zu)上層(ceng)智能化(hua)應用的(de)調用需求(qiu)。

大語言模型(xing)在智能文檔處理(li)中(zhong)的價值與挑戰(zhan)
如下圖,是一個常(chang)見的(de)IDP系(xi)統模型(xing)技術棧。可以看出,LLMs僅(jin)僅(jin)是在自然語(yu)言文本這個模(mo)態上,作為預訓練基礎模(mo)型(xing)(如紅色高亮部分(fen))。相比于文(wen)本(ben)領域的處理能(neng)力,IDP系統(tong)中更加核心的功能(neng)在于文(wen)檔(dang)圖(tu)像和(he)多模態(tai)信息的綜合處理能(neng)力,包括OCR、表格識(shi)(shi)別、印章識(shi)(shi)別,以及文(wen)檔(dang)分類、信息檢索和(he)文(wen)檔(dang)抽取等。

圖2 IDP模(mo)型技術(shu)棧

因(yin)此,對于IDP系統(tong),大語(yu)言模型主要作用是幫助提升文(wen)檔文(wen)本的理解(jie)和生成能力(li),尚無法完(wan)全替(ti)代IDP模型技(ji)術棧。
大語(yu)言模型(xing)在IDP系統的(de)主要應用包括:
  • 提(ti)升文檔分類精度

利用大(da)語言模型強大(da)的(de)文(wen)(wen)本理解能力,提升(sheng)文(wen)(wen)檔(dang)中(zhong)文(wen)(wen)本信息的(de)分(fen)類能力,如段落和條款,進而提升(sheng)文(wen)(wen)檔(dang)信息檢索和文(wen)(wen)檔(dang)分(fen)類的(de)效果。

  • 提供文(wen)檔知識問(wen)答(da)能力

相比(bi)于BERT等大語(yu)言(yan)模型,GPT大模型具備生成式(shi)的(de)特點,能夠(gou)更好滿(man)足文檔知識實時問答的(de)應用,幫助實現諸(zhu)如“與你的(de)文檔聊(liao)天”等應用功能。
  • 提升(sheng)信息抽取精度

大語言模型(xing)在文本(ben)信息(xi)抽取方(fang)面具備強大的(de)能力(li),如從特定條款或段落中抽取實體、關(guan)系和事(shi)件(jian),幫助提升文檔關(guan)鍵信息(xi)抽取能力(li)。
  • 提升條款和段落比對精(jing)度

利(li)用大語言模(mo)型強(qiang)大的(de)理(li)解能(neng)力,能(neng)夠提升文(wen)檔中不(bu)同條款(kuan)、段落之間,以及與(yu)標準條款(kuan)和段落的(de)比對(dui)精度,改善文(wen)檔比對(dui)效果。
大語(yu)言模型在幫助提升IDP文本處理能力的同(tong)時,也面臨諸多挑戰和風險(xian),主要包括:
  • 模型輸入長度(du)有限(xian),長文檔(dang)處(chu)理能力(li)受限(xian)

GPT-4具(ju)有最大32K Token輸入和25K Word輸入的(de)要求,限制了對于長文檔(dang)的(de)處理能力,如幾十(shi)上百頁的(de)合同(tong)和報告文件。這(zhe)就(jiu)要求必須通過前置的(de)信息(xi)檢索(suo)或段落抽取(qu)等預(yu)處理,提取(qu)出(chu)大(da)篇幅文檔(dang)中的(de)相關(guan)部分,再輸入大(da)模型進行后續(xu)任務處理。
  • 生成式(shi)特(te)點,導致模(mo)型輸出無(wu)法(fa)溯源,準確性(xing)差

不同于(yu)BERT等大模型,GPT(Generative Pre-trained Tranformer)模(mo)(mo)型(xing)屬于生成式(shi)語言模(mo)(mo)型(xing),對于模(mo)(mo)型(xing)輸出(chu)的(de)信(xin)息無(wu)法進行精(jing)準溯源,即很多(duo)情(qing)況下(xia)無(wu)法準確獲得輸出(chu)內容在文(wen)檔(dang)中的(de)具體位置,這就(jiu)增加(jia)了(le)輸出(chu)的(de)風險性。在對于模(mo)(mo)型(xing)精(jing)準度要求高的(de)場(chang)景下(xia),如(ru)金融業務(wu)場(chang)景,往往極小概(gai)率的(de)風險也會帶來巨(ju)大的(de)損失。因此,就(jiu)需要通過模(mo)(mo)型(xing)優化和后處理等方法進行有效規避(bi)(bi),避(bi)(bi)免非法輸出(chu)問題。
  • 領域知識匱乏,影響模型效果(guo)
上文提到,文檔的(de)一大特征在于其領域信(xin)息的(de)多樣性和(he)差異(yi)性。通用大語言模型通常基(ji)于公(gong)開的(de)互聯網語料訓(xun)練(lian)獲得,包(bao)括維基(ji)百(bai)科、新聞文章、社交(jiao)媒體(ti)等,因此,缺乏對(dui)于(yu)領域(yu)知識的(de)深度學(xue)習(xi)和理(li)解。實(shi)際應用(yong)中,必(bi)須結合領域(yu)數據基于(yu)預訓(xun)練語言(yan)模(mo)型進行(xing)學(xue)習(xi)和調(diao)優,以(yi)達到實(shi)際業務(wu)場景的(de)使(shi)用(yong)要求,這也是IDP系(xi)統必(bi)須具備高效學(xue)習(xi)能力的(de)根本原因。
  • 模型參數量巨大,對算力要求高
大模(mo)型通常具備較(jiao)大的參數規模(mo),如(ru)GPT-3.5有1750億參數,對于本地(di)(di)化和私有(you)化部署場(chang)景下(xia)的算力成本具有(you)很高的要求。因此,這些場(chang)景下(xia),必須進行模型輕(qing)量化處理才能真正落地(di)(di)使用,如通過知(zhi)識蒸餾(liu)和模型量化等技術。

賽博結合大(da)模型技術打(da)造(zao)高效(xiao)學習能力(li),提(ti)供(gong)IDP全(quan)新解決方案
賽博智(zhi)能(neng)學(xue)(xue)習平臺(tai)定(ding)位于(yu)一站式機器學(xue)(xue)習平臺(tai),基于(yu)預置的多(duo)模態能(neng)力和(he)高效的領(ling)域數據學(xue)(xue)習能(neng)力,支(zhi)持對于(yu)圖片和(he)文檔(dang)等非結構化數據的智(zhi)能(neng)化處理。在(zai)預(yu)置多模態(tai)能(neng)力的基礎上(shang),提供高(gao)效的領域數據學(xue)習能(neng)力,是賽博平臺(tai)智能(neng)文檔處理的核心優勢。如下圖,是關于賽(sai)博平臺(tai)智能(neng)文檔處理(li)的核心能(neng)力介紹。 

圖3 賽博平臺智(zhi)能(neng)文檔(dang)處理核(he)心能(neng)力(li)

主(zhu)要(yao)的(de)預置多(duo)模態(tai)能力包括:
  • 圖像處(chu)理

提(ti)供通用文檔(dang)圖像檢(jian)測、區域分割和矯(jiao)正、文檔(dang)圖像質量(liang)檢(jian)測(模(mo)糊、反光、遮擋(dang)、拍屏、水印、復印、篡改、變形(xing)、切邊和距離遠(yuan)等)、干擾和噪聲去除等預置(zhi)能力。
  • OCR
提供通用(yong)和(he)場(chang)景(jing)OCR功能(neng)。通用(yong)OCR支持對(dui)于常見的(de)文檔圖(tu)像要素(su)的(de)識別(bie),包括文本(打印、手寫(xie)、多語言)、表(biao)格、印章、勾選和(he)簽名等。場(chang)景(jing)OCR功能(neng)支持超過50種場景文檔(dang)圖像的識別能(neng)力,涵蓋標(biao)準卡證、票(piao)據、表單和憑(ping)證。
  • 文檔處(chu)理
提供通用的文(wen)檔處理能力,包括文(wen)檔格式(shi)轉換、協議解析(xi)、版(ban)面分析(xi)、文(wen)檔解析(xi)等(deng),以及合同等(deng)場景文(wen)檔抽取能力。
  • 自然(ran)語言處理

提供基礎的(de)自然語(yu)言處(chu)理功(gong)能,包括文(wen)本分類、信息抽取、通用問答(da)、情感分析等。

如前節所述(shu),文(wen)檔(dang)具有(you)領域特(te)征差異大的特(te)點(dian),主要表現在(zai)(zai)不同領域文(wen)檔(dang)之間在(zai)(zai)種類、版式、語(yu)料和表達(da)方(fang)式等方(fang)面存在(zai)(zai)較大差異。因此,高效(xiao)的領域文(wen)檔(dang)學習能力(li),是IDP系統必(bi)備(bei)的基本功(gong)能,這也是賽(sai)博平臺的核(he)心功(gong)能之一。如(ru)下(xia)圖(tu)是關于賽(sai)博平臺高效學習能力的原(yuan)理(li)介紹。

 圖4 賽博學(xue)習能力

賽博平臺IDP學習能(neng)力(li)以(yi)大規(gui)模(mo)(mo)語言(yan)模(mo)(mo)型(xing)(xing)和文檔版式預訓練模(mo)(mo)型(xing)(xing)為基礎,通過下游任務中/小(xiao)模型算法設(she)計,結合領(ling)域數(shu)據,高(gao)效生成(cheng)場景模型,并通過一鍵式模型部署和API生成,輸出場景化(hua)AI能力,如(ru)文(wen)(wen)檔(dang)分類(lei)、信息檢索、文(wen)(wen)檔(dang)抽(chou)取、段落(luo)比對(dui)等。依(yi)托機器學習功(gong)能(neng)(neng)底座,賽博平臺能(neng)(neng)夠提供文(wen)(wen)檔(dang)數據集標注(zhu)、模型訓練、模型部署和(he)API應(ying)用等一體化操作(zuo)功(gong)能(neng)(neng),支持用戶通過(guo)可(ke)視化頁面,高效完(wan)成領域文(wen)(wen)檔(dang)數據的學習和(he)模型能(neng)(neng)力的輸出(chu)與應(ying)用。
另外,為了更(geng)好地滿足業務場景需求,實現與業務深度融合(he),賽博平(ping)臺支持模型輸(shu)出規則和API代碼補(bu)丁定制,能夠在線實現模型輸(shu)出格(ge)式轉換、字段拆分與合(he)并、噪聲剔除(chu)以及(ji)其他(ta)高級后(hou)處(chu)理(li)功能,有效解決(jue)模型輸(shu)出與業務需求之間“最后(hou)一公里”的問(wen)題。
未來,易道博(bo)(bo)識將繼續立足于金融、能(neng)源、通信等(deng)行業(ye)(ye),圍(wei)繞企業(ye)(ye)在日常業(ye)(ye)務(wu)運營、審核和監督管理、信息檢索(suo)和風(feng)險管控等(deng)場景(jing)下的數智化轉型(xing)需(xu)求(qiu),依托賽博(bo)(bo)智能(neng)學習(xi)平(ping)臺底(di)座,在滿足客戶(hu)數據安(an)全的前提下,通過(guo)(guo)高效學習(xi)能(neng)力(li),將大(da)模型(xing)等(deng)前沿技術與客戶(hu)業(ye)(ye)務(wu)數據相(xiang)結合(he),發揮巨(ju)大(da)效能(neng),通過(guo)(guo)與業(ye)(ye)務(wu)場景(jing)的深度融合(he),為(wei)業(ye)(ye)務(wu)賦能(neng)。
在線留言