永久免费a∨片在线观看_日韩人妻精品无码一区二区三区_精品久久久久久无码人妻热_日日噜噜夜夜狠狠久久蜜桃

首頁
核心技術
產品體系
解決方案
動態資訊
關于我們
搜索
首頁 動態資訊 行業資訊

大模型技術在智能文檔處理中的應用(下篇)

來源:易道博識 發布時(shi)間:2023-06-15
一個專(zhuan)業的IDP系統至少需要具備如(ru)下(xia)兩方面的能(neng)力,才能(neng)夠(gou)滿足富格式文(wen)檔(dang)的智(zhi)能(neng)化處理需求(qiu)。
  • 具備(bei)多模態信息處理能力

由于文檔本(ben)身多模態的特(te)點,決定了IDP系統必須能夠(gou)綜(zong)合應用計算機視覺和(he)自然語言(yan)處理(li)等技(ji)術,包括圖像處理(li)、OCR、表格識別、文(wen)檔解(jie)析(xi)(xi)、文(wen)本(ben)分(fen)析(xi)(xi)、文(wen)本(ben)理(li)解(jie)等,對(dui)于文(wen)檔中的標題、段落、表格、圖表、印章、簽名等多模態信(xin)息進行(xing)識別、提取和進一步(bu)的理(li)解(jie)和分(fen)析(xi)(xi)。

  • 具(ju)備(bei)領域樣本高(gao)效學習能力

由于不(bu)同領(ling)域(yu)的文檔特(te)征差異很大,為了在(zai)領(ling)域(yu)數據(ju)上(shang)達到業務可用的精(jing)度要求(qiu),IDP系統(tong)必須具(ju)備領(ling)域樣本高效(xiao)學習能力,能夠(gou)生成優化后的模型,滿足業務場景應用需求,為實際業務創造價值。

多模(mo)態(tai)能(neng)(neng)(neng)力和(he)領域學習能(neng)(neng)(neng)力等(deng)方面(mian)的要求,決定了通用IDP系統(tong)是一個復(fu)雜的綜(zong)合性軟件系統(tong),對(dui)于技(ji)術架(jia)構和(he)系統(tong)設計提出了很高的要求。架(jia)構上,IDP系統(tong)需(xu)要能(neng)(neng)(neng)夠兼容(rong)各(ge)種(zhong)深度學習框架(jia),并能(neng)(neng)(neng)夠對(dui)于各(ge)種(zhong)預訓(xun)練(lian)大(da)模(mo)型、多模(mo)態(tai)預置模(mo)型和(he)用戶(hu)自訓(xun)練(lian)的領域模(mo)型實現有效的模(mo)型治理。并且,能(neng)(neng)(neng)夠以統(tong)一的模(mo)型能(neng)(neng)(neng)力層,向文檔應用層提供接口(kou),滿足(zu)上層智能(neng)(neng)(neng)化應用的調用需(xu)求。

大(da)語言模(mo)型在智(zhi)能(neng)文檔處理中的價值與挑(tiao)戰
如下圖,是(shi)一個常見(jian)的IDP系統模型技術棧。可以看出(chu),LLMs僅僅是在自(zi)然(ran)語言文本這個模(mo)態上,作為預訓練(lian)基礎模(mo)型(如紅(hong)色高亮(liang)部分(fen))。相比于(yu)文(wen)本(ben)領域的(de)處理能(neng)力,IDP系(xi)統中更加核(he)心的(de)功能(neng)在(zai)于(yu)文(wen)檔圖像和多模態信(xin)(xin)息(xi)的(de)綜合(he)處理能(neng)力,包括OCR、表(biao)格識別、印章識別,以及(ji)文(wen)檔分類、信(xin)(xin)息(xi)檢索和文(wen)檔抽(chou)取等。

圖2 IDP模型技術(shu)棧

因此,對于IDP系統,大語言模(mo)型(xing)主要作用(yong)是幫(bang)助提升文檔文本的理解和(he)生成能力,尚(shang)無法完全替(ti)代(dai)IDP模(mo)型(xing)技術棧。
大(da)語(yu)言模型(xing)在IDP系統的主要應(ying)用包括:
  • 提升文(wen)檔(dang)分類精度(du)

利用大語言模型強大的(de)文(wen)本理解能力(li),提升(sheng)文(wen)檔中(zhong)文(wen)本信息的(de)分類(lei)能力(li),如段落和條款,進(jin)而提升(sheng)文(wen)檔信息檢索和文(wen)檔分類(lei)的(de)效果。

  • 提供文檔(dang)知識問答能(neng)力

相(xiang)比于BERT等大語言模(mo)型,GPT大模(mo)型具備生成(cheng)式的(de)特點,能夠更好滿足文檔知(zhi)識實時問(wen)答的(de)應(ying)用,幫助實現諸如“與你的(de)文檔聊天”等應(ying)用功能。
  • 提升信息抽取精度

大語言模型在文(wen)本(ben)信息抽(chou)取方(fang)面具備強大的能(neng)(neng)力,如從特定(ding)條(tiao)款或段落(luo)中(zhong)抽(chou)取實體、關系和(he)事件(jian),幫助提(ti)升文(wen)檔關鍵信息抽(chou)取能(neng)(neng)力。
  • 提(ti)升(sheng)條款和段落比對精度(du)

利用大語(yu)言模型(xing)強大的(de)理解能(neng)力(li),能(neng)夠提升(sheng)文(wen)檔(dang)中不同條款(kuan)、段(duan)落之間,以及與標準條款(kuan)和段(duan)落的(de)比對精度(du),改善文(wen)檔(dang)比對效果。
大語言模型在幫助提升IDP文本(ben)處理能力的同(tong)時,也面臨(lin)諸多挑(tiao)戰(zhan)和風險,主要包括(kuo):
  • 模型輸入(ru)長度有限,長文(wen)檔處理能力(li)受限

GPT-4具有(you)最大32K Token輸入和25K Word輸入的要求,限制(zhi)了對于長文檔的處理能(neng)力,如幾十上(shang)百頁的合同(tong)和報告文件。這就要求必須通過前置的信息(xi)檢索或段落抽取等預(yu)處理,提取出(chu)大篇幅(fu)文檔中的相關部分,再(zai)輸入大模型進行(xing)后(hou)續任務處理。
  • 生(sheng)成式特(te)點(dian),導致模型輸出無法(fa)溯源(yuan),準確性差

不(bu)同于BERT等大模型,GPT(Generative Pre-trained Tranformer)模型屬于(yu)生成式語言模型,對(dui)于(yu)模型輸出(chu)(chu)的(de)(de)(de)信息無(wu)法(fa)進行精準溯源,即很多情況(kuang)下無(wu)法(fa)準確獲得輸出(chu)(chu)內(nei)容在文檔中(zhong)的(de)(de)(de)具體(ti)位置,這(zhe)就增加了(le)輸出(chu)(chu)的(de)(de)(de)風(feng)(feng)險性(xing)。在對(dui)于(yu)模型精準度(du)要求高(gao)的(de)(de)(de)場景下,如(ru)金融業務(wu)場景,往往極(ji)小概(gai)率的(de)(de)(de)風(feng)(feng)險也(ye)會(hui)帶來巨大的(de)(de)(de)損失。因(yin)此,就需要通(tong)過模型優化和(he)后(hou)處(chu)理等方法(fa)進行有(you)效規(gui)避(bi),避(bi)免非法(fa)輸出(chu)(chu)問題。
  • 領域知識匱乏(fa),影響模(mo)型效果(guo)
上文提到,文檔(dang)的一大特(te)征在于其領域信(xin)息的多樣性和(he)差異性。通用(yong)大語言模(mo)型通常基于公(gong)開的互聯(lian)網(wang)語料(liao)訓練(lian)獲得,包括維基百(bai)科、新(xin)聞文章、社(she)交媒體等,因此,缺乏對于領域(yu)知識的深度(du)學(xue)習和(he)理解。實際(ji)應用中(zhong),必須(xu)結合領域(yu)數(shu)據基于預訓練語言模型(xing)進行學(xue)習和(he)調(diao)優,以達到實際(ji)業務場(chang)景的使用要求,這也是(shi)IDP系統必須(xu)具備(bei)高效學(xue)習能(neng)力的根(gen)本原因。
  • 模型參數量(liang)巨大,對算力要求高
大模(mo)型通常具備較大的參數規(gui)模(mo),如GPT-3.5有1750億參數,對于本地化(hua)和私有化(hua)部署場景(jing)下的(de)算力成(cheng)本具有很高(gao)的(de)要求。因此,這些(xie)場景(jing)下,必須進(jin)行模型(xing)輕(qing)量化(hua)處理(li)才能真正落地使用,如通(tong)過知識(shi)蒸餾和模型(xing)量化(hua)等技術。

賽博(bo)結合大模型技術打造高(gao)效學習(xi)能(neng)力,提供(gong)IDP全新(xin)解決方案
賽博智能(neng)學習(xi)(xi)平臺(tai)定(ding)位(wei)于一(yi)站式機器學習(xi)(xi)平臺(tai),基于預置的(de)多模(mo)態能(neng)力和高效的(de)領域(yu)數據學習(xi)(xi)能(neng)力,支持對于圖片和文檔等(deng)非結(jie)構(gou)化數據的(de)智能(neng)化處(chu)理(li)。在(zai)預置多模態能(neng)力的基(ji)礎上(shang),提供高效(xiao)的領域數據(ju)學習能(neng)力,是賽博平(ping)臺智能(neng)文檔處(chu)理的核心優勢。如下圖,是(shi)關于賽博平臺智能文檔處(chu)理的(de)核心(xin)能力介(jie)紹。 

圖3 賽博(bo)平臺(tai)智能文檔處(chu)理核心(xin)能力

主(zhu)要的預置多模態(tai)能力包括:
  • 圖(tu)像處理

提供通用文檔(dang)圖像檢測(ce)、區域分割和(he)矯(jiao)正、文檔(dang)圖像質(zhi)量(liang)檢測(ce)(模糊、反(fan)光、遮(zhe)擋、拍屏、水印(yin)、復印(yin)、篡改、變(bian)形、切(qie)邊和(he)距離遠等(deng))、干(gan)擾和(he)噪聲(sheng)去(qu)除(chu)等(deng)預置能力。
  • OCR
提(ti)供通(tong)用(yong)和場(chang)景(jing)OCR功能。通(tong)用(yong)OCR支持對于常見(jian)的(de)文檔(dang)圖像要素(su)的(de)識別,包(bao)括文本(ben)(打印、手寫(xie)、多(duo)語言)、表格、印章(zhang)、勾(gou)選和簽名(ming)等。場(chang)景(jing)OCR功能支持超過50種場景文檔圖像的識別(bie)能力(li),涵(han)蓋標準卡證、票據、表單和憑(ping)證。
  • 文檔處理
提供通(tong)用的文檔(dang)(dang)處(chu)理(li)能力(li),包括文檔(dang)(dang)格式轉換(huan)、協(xie)議解(jie)析、版面分(fen)析、文檔(dang)(dang)解(jie)析等(deng)(deng),以及合(he)同等(deng)(deng)場景文檔(dang)(dang)抽取能力(li)。
  • 自(zi)然語(yu)言處(chu)理

提(ti)供基礎的自然語(yu)言處(chu)理功能,包括文(wen)本分類、信息抽取、通用問答、情感分析等。

如前節所述,文(wen)檔具(ju)有領(ling)域(yu)特征(zheng)差(cha)異(yi)大(da)的特點,主要表現在不同領(ling)域(yu)文(wen)檔之間在種類、版式、語料和表達方(fang)(fang)式等(deng)方(fang)(fang)面(mian)存在較大(da)差(cha)異(yi)。因(yin)此(ci),高效的領(ling)域(yu)文(wen)檔學習能力,是IDP系統必備的(de)基本(ben)功(gong)能,這也(ye)是(shi)賽(sai)博(bo)平臺(tai)的(de)核心功(gong)能之一。如(ru)下(xia)圖是(shi)關于賽(sai)博(bo)平臺(tai)高效學習(xi)能力的(de)原理介(jie)紹。

 圖4 賽博(bo)學習能(neng)力(li)

賽博平臺IDP學習能力以大規模語言模型(xing)和(he)文(wen)檔版(ban)式(shi)預訓練(lian)模型(xing)為基礎,通過下游任(ren)務中/小模型算法設計(ji),結合領域數據,高效生成場景(jing)模(mo)型,并(bing)通過一鍵式模型部署(shu)和(he)API生成,輸出場景化AI能(neng)力,如文檔(dang)分(fen)類、信息(xi)檢(jian)索、文檔(dang)抽取、段落比對等。依(yi)托機器學(xue)習功能底座,賽博平臺能夠提供文檔(dang)數據集標(biao)注、模(mo)型(xing)訓練、模(mo)型(xing)部署和API應(ying)用(yong)等一(yi)體(ti)化(hua)操(cao)作功能,支持(chi)用(yong)戶通過可視化(hua)頁(ye)面,高(gao)效完成領域文檔(dang)數據的學(xue)習和模(mo)型(xing)能力的輸出與應(ying)用(yong)。
另(ling)外,為了更好地滿(man)足業務場景(jing)需求,實(shi)現(xian)與(yu)業務深(shen)度融合(he),賽博(bo)平臺支持模(mo)型(xing)輸(shu)出(chu)規則和API代碼補丁定制,能夠在(zai)線實(shi)現(xian)模(mo)型(xing)輸(shu)出(chu)格(ge)式轉換、字段拆分與(yu)合(he)并、噪聲剔除以及其他高級后(hou)(hou)處理(li)功能,有效解決模(mo)型(xing)輸(shu)出(chu)與(yu)業務需求之間“最(zui)后(hou)(hou)一公里”的問題。
未來(lai),易道博(bo)識將繼續立(li)足于金融、能源、通(tong)信等行業(ye),圍繞(rao)企(qi)業(ye)在(zai)日常業(ye)務運營、審(shen)核和監督管理、信息檢索(suo)和風險管控等場(chang)景下(xia)的(de)數(shu)(shu)智化(hua)轉型(xing)需求,依托賽博(bo)智能學習平臺底座,在(zai)滿足客(ke)戶(hu)數(shu)(shu)據(ju)安全的(de)前提(ti)下(xia),通(tong)過高效學習能力,將大模型(xing)等前沿(yan)技術與客(ke)戶(hu)業(ye)務數(shu)(shu)據(ju)相(xiang)結合(he),發揮巨(ju)大效能,通(tong)過與業(ye)務場(chang)景的(de)深度(du)融合(he),為業(ye)務賦能。
在線留言