永久免费a∨片在线观看_日韩人妻精品无码一区二区三区_精品久久久久久无码人妻热_日日噜噜夜夜狠狠久久蜜桃

首頁
核心技術
產品體系
解決方案
動態資訊
關于我們
搜索
首頁 動態資訊 行業資訊

大模型技術在智能文檔處理中的應用(上篇)

來(lai)源:易道博識(shi) 發布時間:2023-06-15



ChatGPT爆火,大(da)語言模型技術廣受關注
ChatGPT是OpenAI公司基于大型(xing)預(yu)訓練語言模(mo)型(xing)(Large Language Models, LLM) GPT-3.5發布的(de)智能(neng)(neng)聊天機(ji)器人,因其驚(jing)艷(yan)的(de)語義理解、智能(neng)(neng)會(hui)話(hua)和(he)(he)文(wen)(wen)本生成(cheng)能(neng)(neng)力,獲(huo)得了全球1億月活用戶的(de)熱情追(zhui)捧。ChatGPT可以從海量未標注數據集中(zhong)獲(huo)得的(de)信(xin)息,自動識別、總結、翻譯、預(yu)測和(he)(he)生成(cheng)內容(rong)。3月15日(ri),OpenAI又發布了GPT-4多模(mo)態大模(mo)型(xing),該模(mo)型(xing)能(neng)(neng)夠支持文(wen)(wen)本和(he)(he)圖像(xiang)輸入,與(yu) GPT-3.5相比,其回(hui)答(da)準確度、文(wen)(wen)字輸入長度等各方面性(xing)能(neng)(neng)均有顯著提(ti)升。
ChatGPT的問(wen)世(shi),開(kai)啟了(le)新一輪的技術浪潮,標志著(zhu)人工智(zhi)能技術發展(zhan)(zhan)正式進入了(le)大(da)模型(xing)時代。模型(xing)的背(bei)后其實(shi)是“知識”。未來,“模型(xing)”將無處不在,人工智(zhi)能與行業應(ying)用(yong)的結(jie)合(he)會更加緊密(mi),以模型(xing)驅(qu)動的發展(zhan)(zhan)范式變革正在快速形(xing)成,整(zheng)個人工智能(neng)行業(ye)的生態(tai)會愈發完整(zheng)。
可以(yi)看出,ChatGPT驚(jing)艷效(xiao)果(guo)本質上來(lai)(lai)自(zi)于(yu)(yu)其背后的(de)(de)大語(yu)(yu)言(yan)(yan)(yan)模(mo)型(xing)技(ji)(ji)術。那么,究(jiu)竟什么是大語(yu)(yu)言(yan)(yan)(yan)模(mo)型(xing)?大語(yu)(yu)言(yan)(yan)(yan)模(mo)型(xing)是一種(zhong)基于(yu)(yu)深度學習(xi)算法(fa)的(de)(de)自(zi)然語(yu)(yu)言(yan)(yan)(yan)處理技(ji)(ji)術,旨(zhi)在讓計算機(ji)能夠(gou)理解(jie)和生成(cheng)自(zi)然語(yu)(yu)言(yan)(yan)(yan)文本。大語(yu)(yu)言(yan)(yan)(yan)模(mo)型(xing)的(de)(de)訓(xun)練(lian)(lian)通常(chang)需要海量的(de)(de)文本數據(如(ru)維基百科、新聞文章、社交媒體等)和強大的(de)(de)計算資源。在訓(xun)練(lian)(lian)過(guo)程中,大語(yu)(yu)言(yan)(yan)(yan)模(mo)型(xing)會(hui)通過(guo)學習(xi)這些(xie)數據中的(de)(de)模(mo)式和規律來(lai)(lai)調(diao)整自(zi)己的(de)(de)權重和參(can)數,從而提高自(zi)身對語(yu)(yu)言(yan)(yan)(yan)的(de)(de)理解(jie)和生成(cheng)能力(li)。大語(yu)(yu)言(yan)(yan)(yan)模(mo)型(xing)的(de)(de)應(ying)用非常(chang)廣泛,如(ru)語(yu)(yu)言(yan)(yan)(yan)翻譯、問答系統、語(yu)(yu)音識別(bie)和文本生成(cheng)等。

智能文檔處理難點(dian)解析
智能(neng)文檔(dang)處理(IDP,Intelligent Document Processing)是(shi)利(li)用人工智能技術(shu)(shu),自(zi)動從復雜的非(fei)結(jie)構化(hua)和半結(jie)構化(hua)文(wen)檔(dang)中抽取關鍵數據,并將其(qi)轉換成結(jie)構化(hua)數據的技術(shu)(shu)。常見的文(wen)檔(dang)包括純文(wen)本、帶格式文(wen)檔(dang)和富格式文(wen)檔(dang)三(san)種類型,如(ru)下圖示例。

圖1:常見文檔類型

  • 純(chun)文本

由大段純文字(zi)組成,內(nei)容形(xing)式比較單一。通常利(li)用自然語(yu)言(yan)處理(li)技術,即可以完成語(yu)義理(li)解(jie)和分析處理(li)工作。
  • 帶格式文檔(dang)

如Word等帶(dai)有格式(shi)的文檔(dang),其主要(yao)特點(dian)是包含有結(jie)(jie)構化的信息,可以直接解析出文檔(dang)的物理元素和邏輯結(jie)(jie)構,進而轉化為結(jie)(jie)構化數據。

  • 富格式文檔(dang)
相(xiang)較(jiao)于(yu)純文本(ben)和(he)帶格(ge)式(shi)(shi)文檔,富格(ge)式(shi)(shi)文檔更加(jia)復雜,除了(le)各(ge)種形式(shi)(shi)的(de)文本(ben)信息外,還包(bao)含有(you)(you)豐富的(de)多模態元(yuan)素,如表格(ge)和(he)圖(tu)片。富格(ge)式(shi)(shi)文檔具(ju)有(you)(you)如下幾個方面的(de)特(te)點:
· 多樣性
富格式(shi)(shi)文檔的多樣性(xing)主要體現在格式(shi)(shi)、種類、內容和版(ban)式(shi)(shi)等(deng)維度。常見的格式(shi)(shi)有(you)拍照圖像、掃描件、可(ke)解(jie)析格式(shi)(shi)(如PDF)等(deng),版(ban)式(shi)(shi)包括(kuo)有(you)固定(ding)、多版(ban)式(shi)(shi)和開放(fang)版(ban)式(shi)(shi)等(deng)類型。
· 多模(mo)態信息豐(feng)富性
富(fu)格式文檔(dang)包含(han)有豐富(fu)的元(yuan)素信息(xi),如文字、標題、段落、表(biao)格、圖表(biao)、印章、簽名、頁眉和頁腳。
· 領域差異性
不同(tong)領域的文檔(dang)通常在種類、版式、語料和表達方式方面(mian)差異很(hen)大,如金融、地產、教育和醫療等,實際中存在著大量(liang)領域特定(ding)文檔(dang)。
· 長(chang)短不一(yi)致性
從單張(zhang)圖片、單頁(ye)(ye)文檔(dang)到幾十上百(bai)頁(ye)(ye)的(de)長(chang)(chang)文檔(dang),文檔(dang)的(de)長(chang)(chang)度(du)通常跨度(du)很大。
以上富格(ge)式文檔特點,增加了通用IDP系統的處理難度。
關于更詳細的智能(neng)文檔處理難點介紹(shao),請參(can)見《淺談智能文檔處理技術和應用》文章。

在線留言