永久免费a∨片在线观看_日韩人妻精品无码一区二区三区_精品久久久久久无码人妻热_日日噜噜夜夜狠狠久久蜜桃

首頁
核心技術
產品體系
解決方案
動態資訊
關于我們
搜索
首頁 動態資訊 行業資訊(xun)

大模型技術在智能文檔處理中的應用(上篇)

來源:易道博識 發布時間:2023-06-15



ChatGPT爆火,大(da)語言模(mo)型技(ji)術廣受(shou)關注
ChatGPT是OpenAI公(gong)司基于大(da)型(xing)預訓練語言模(mo)(mo)型(xing)(Large Language Models, LLM) GPT-3.5發(fa)布的(de)智能聊天機器人,因其驚艷的(de)語義(yi)理解(jie)、智能會話和(he)文(wen)(wen)本生(sheng)成能力,獲得了全球1億月活(huo)用戶的(de)熱情(qing)追(zhui)捧(peng)。ChatGPT可以從海量未標注數據集中(zhong)獲得的(de)信息(xi),自動(dong)識(shi)別(bie)、總結、翻譯、預測和(he)生(sheng)成內(nei)容(rong)。3月15日,OpenAI又(you)發(fa)布了GPT-4多模(mo)(mo)態大(da)模(mo)(mo)型(xing),該模(mo)(mo)型(xing)能夠(gou)支持(chi)文(wen)(wen)本和(he)圖(tu)像輸(shu)入(ru),與 GPT-3.5相比,其回答準確度(du)、文(wen)(wen)字(zi)輸(shu)入(ru)長度(du)等各方面性能均有(you)顯(xian)著提升。
ChatGPT的(de)問世,開啟了新一輪的技術浪潮,標志著人工智能(neng)技術發展正(zheng)式進入了大模(mo)型(xing)時代(dai)。模(mo)型(xing)的背后(hou)其實(shi)是“知識”。未來,“模(mo)型(xing)”將(jiang)無處不在,人工智能(neng)與(yu)行(xing)業(ye)應用的結(jie)合會(hui)更加緊(jin)密(mi),以模(mo)型(xing)驅(qu)動的發展范式變(bian)革正(zheng)在快(kuai)速形成,整(zheng)個人工智能(neng)行業的(de)生態會愈發完整(zheng)。
可以看出,ChatGPT驚艷效果本質上來(lai)自(zi)于其背后的(de)(de)大(da)語(yu)(yu)(yu)言(yan)(yan)(yan)模(mo)(mo)型(xing)(xing)技術(shu)。那么(me),究(jiu)竟什么(me)是大(da)語(yu)(yu)(yu)言(yan)(yan)(yan)模(mo)(mo)型(xing)(xing)?大(da)語(yu)(yu)(yu)言(yan)(yan)(yan)模(mo)(mo)型(xing)(xing)是一種(zhong)基(ji)于深度學習算法的(de)(de)自(zi)然(ran)語(yu)(yu)(yu)言(yan)(yan)(yan)處理(li)技術(shu),旨在讓計(ji)算機(ji)能夠理(li)解和(he)生成(cheng)自(zi)然(ran)語(yu)(yu)(yu)言(yan)(yan)(yan)文(wen)(wen)本。大(da)語(yu)(yu)(yu)言(yan)(yan)(yan)模(mo)(mo)型(xing)(xing)的(de)(de)訓練(lian)通常(chang)(chang)需(xu)要(yao)海量的(de)(de)文(wen)(wen)本數(shu)據(如維(wei)基(ji)百科(ke)、新聞文(wen)(wen)章、社交媒體等)和(he)強大(da)的(de)(de)計(ji)算資源。在訓練(lian)過程中,大(da)語(yu)(yu)(yu)言(yan)(yan)(yan)模(mo)(mo)型(xing)(xing)會通過學習這些數(shu)據中的(de)(de)模(mo)(mo)式和(he)規律來(lai)調整自(zi)己的(de)(de)權重和(he)參數(shu),從而提高自(zi)身對語(yu)(yu)(yu)言(yan)(yan)(yan)的(de)(de)理(li)解和(he)生成(cheng)能力。大(da)語(yu)(yu)(yu)言(yan)(yan)(yan)模(mo)(mo)型(xing)(xing)的(de)(de)應用非常(chang)(chang)廣泛,如語(yu)(yu)(yu)言(yan)(yan)(yan)翻譯、問答(da)系統、語(yu)(yu)(yu)音識(shi)別和(he)文(wen)(wen)本生成(cheng)等。

智能文檔處理(li)難點解(jie)析
智(zhi)能文(wen)檔處理(IDP,Intelligent Document Processing)是利用人工智能(neng)技術,自(zi)動從復(fu)雜(za)的(de)非(fei)結(jie)構(gou)化和(he)半(ban)結(jie)構(gou)化文(wen)(wen)(wen)檔(dang)(dang)中抽取關鍵數(shu)據(ju),并(bing)將其轉換成結(jie)構(gou)化數(shu)據(ju)的(de)技術。常(chang)見的(de)文(wen)(wen)(wen)檔(dang)(dang)包括純(chun)文(wen)(wen)(wen)本、帶格(ge)式文(wen)(wen)(wen)檔(dang)(dang)和(he)富格(ge)式文(wen)(wen)(wen)檔(dang)(dang)三種類型,如下圖示(shi)例。

圖1:常見文檔類型(xing)

  • 純文本

由大段純文字組成,內容形式比較(jiao)單一(yi)。通常利用自(zi)然語(yu)(yu)言(yan)處(chu)理(li)技術,即可以完成語(yu)(yu)義理(li)解和分析處(chu)理(li)工作(zuo)。
  • 帶格式文檔

如(ru)Word等帶有格式的(de)文(wen)(wen)檔,其主要特點是包含有結(jie)構化(hua)的(de)信息,可以直接解析(xi)出文(wen)(wen)檔的(de)物理元素和邏輯結(jie)構,進而(er)轉化(hua)為結(jie)構化(hua)數據。

  • 富格(ge)式文檔
相(xiang)較于純文(wen)(wen)(wen)本和(he)帶格式(shi)文(wen)(wen)(wen)檔(dang),富(fu)(fu)格式(shi)文(wen)(wen)(wen)檔(dang)更(geng)加復(fu)雜,除(chu)了(le)各(ge)種形(xing)式(shi)的(de)文(wen)(wen)(wen)本信息外,還(huan)包含有豐富(fu)(fu)的(de)多模態元素,如表格和(he)圖(tu)片。富(fu)(fu)格式(shi)文(wen)(wen)(wen)檔(dang)具有如下(xia)幾個方面的(de)特點:
· 多樣性
富格式(shi)(shi)(shi)文檔的(de)多樣性主要體現在格式(shi)(shi)(shi)、種類(lei)、內容(rong)和版式(shi)(shi)(shi)等維度。常見的(de)格式(shi)(shi)(shi)有(you)拍照圖(tu)像、掃描件、可解析格式(shi)(shi)(shi)(如PDF)等,版式(shi)(shi)(shi)包括有(you)固定、多版式(shi)(shi)(shi)和開(kai)放版式(shi)(shi)(shi)等類(lei)型。
· 多模態信息豐富性
富格式文(wen)檔包含有(you)豐富的元素信息(xi),如文(wen)字、標題、段落(luo)、表(biao)格、圖表(biao)、印章(zhang)、簽(qian)名、頁眉(mei)和頁腳。
· 領域差異(yi)性
不同領(ling)域(yu)的文檔(dang)通常在種(zhong)類、版式、語料和表達方(fang)式方(fang)面(mian)差異很大,如金(jin)融、地產、教育和醫療等,實際中存在著大量領(ling)域(yu)特定文檔(dang)。
· 長(chang)短不一(yi)致性
從單張圖片(pian)、單頁文檔到幾十上百頁的長文檔,文檔的長度通(tong)常跨(kua)度很大。
以上富格式(shi)文檔(dang)特點,增(zeng)加了通用IDP系(xi)統的處理(li)難度(du)。
關于更詳細的智能(neng)文(wen)檔處理難點介紹,請參見《淺談智能文檔處理技術和應用》文章(zhang)。

在線留言