国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于大模型和知識圖譜的標準領(lǐng)域融合應(yīng)用方法研究

2023-12-19 19:58:18鄭佳明陳家賓胡杰鑫楊洪杰
中國標準化 2023年23期
關(guān)鍵詞:融合應(yīng)用知識圖譜標準

鄭佳明 陳家賓 胡杰鑫 楊洪杰

關(guān)鍵詞:標準,大模型,知識圖譜,智能應(yīng)用,融合應(yīng)用

0 引言

標準是為獲得最佳秩序、促進最佳社會效益,以科學(xué)、技術(shù)和實踐經(jīng)驗的綜合成果為基礎(chǔ)的重要文件。船舶行業(yè)標準更是覆蓋船舶海工裝備設(shè)計、建造、運維、保障全生命周期的重要數(shù)據(jù),在船舶海工裝備研制應(yīng)用過程中發(fā)揮著重要作用。然而現(xiàn)階段的標準編制及應(yīng)用主要存在著標準編制發(fā)布周期長、貫徹實施效率低等主要問題。高質(zhì)量裝備高效研制生產(chǎn)要求標準從業(yè)人員不斷創(chuàng)新標準化工作方式,進一步提升標準知識供給等方向的標準貫徹實施效率。

2022年底,OpenAI發(fā)布具有1750億參數(shù)的大規(guī)模預(yù)訓(xùn)練語言模型ChatGPT,因其表現(xiàn)出的卓越自然語言理解、自然語言生成與推理性能,引發(fā)了國際范圍內(nèi)對于大規(guī)模語言模型的研究及應(yīng)用熱潮。作為擁有超大規(guī)模參數(shù)化知識庫的通用人工智能知識底座,大模型能夠為標準的高效研制及智能化應(yīng)用提供卓有成效的解決方案,但囿于其訓(xùn)練數(shù)據(jù)的領(lǐng)域缺乏性及模型訓(xùn)練的不可解釋性,大模型并不能夠為垂直領(lǐng)域的專業(yè)應(yīng)用提供可信度足夠高、時效性足夠強的專業(yè)建議。標準知識圖譜能夠打破標準內(nèi)部原有組織結(jié)構(gòu),基于用戶需求重組標準內(nèi)部知識單元,建立標準內(nèi)部標準化對象與其技術(shù)要求、試驗方法、試驗流程、工藝準備等知識要素之間的關(guān)聯(lián)以及標準之間的引用、代替、共用技術(shù)指標、相同適用范圍等有效關(guān)聯(lián),使用戶擺脫標準查詢、翻閱等傳統(tǒng)標準知識獲取方式,滿足用戶進行標準知識精準檢索、關(guān)聯(lián)分析等智能化應(yīng)用需求。然而,標準知識圖譜由于構(gòu)建代價高昂,使得不少領(lǐng)域研究者“望而卻步”。因此,探索一套基于大模型和知識圖譜的標準領(lǐng)域融合應(yīng)用方法對標準化工作方式革新與標準貫徹實施效率提升具有重要意義。

1 開源大模型調(diào)研及應(yīng)用研究

(1)大模型介紹及應(yīng)用示意

模型的本質(zhì)是對現(xiàn)實世界中數(shù)據(jù)和規(guī)律的一種抽象和描述。模型的目的是為了從數(shù)據(jù)中找出一些規(guī)律和模式,并用這些規(guī)律和模式來預(yù)測未來的結(jié)果。而大模型是指具有非常大的參數(shù)數(shù)量的人工神經(jīng)網(wǎng)絡(luò)模型。在深度學(xué)習(xí)領(lǐng)域,大模型通常是指具有數(shù)億到數(shù)萬億參數(shù)的模型。

自2022年底OpenAI發(fā)布ChatGPT3.5之后,因其所表現(xiàn)出的卓越的自然語言理解能力與交互及推理能力,引起了全球范圍內(nèi)對于大模型的研究關(guān)注。在國內(nèi),百度率先發(fā)布了產(chǎn)業(yè)級的知識增強大模型“文心一言”,商湯科技在發(fā)布了具有320億參數(shù)的視覺大模型之后,又發(fā)布了“日日新 SenseNova”大模型體系,科大訊飛發(fā)布了“星火”認知大模型,具備了較強的內(nèi)容生成和邏輯推理能力;學(xué)術(shù)研究層面,清華大學(xué)發(fā)布了完全自研的、開源開放的中英文雙語預(yù)訓(xùn)練語言模型,并基于此模型經(jīng)由智譜AI發(fā)布了生成式對話語言模型ChatGLM[1]。在國外相關(guān)AI企業(yè)/機構(gòu)/高校中,以Google谷歌與Microsoft微軟兩大科技巨頭為競爭漩渦。兩大科技巨頭中不僅在通用大模型、行業(yè)大模型、垂直大模型與專屬大模型,更在模型層、應(yīng)用層與技術(shù)層均全面競爭并領(lǐng)先國內(nèi)。GoogleAI發(fā)布了具有改進的多語言、推理和編程能力的最新語言模型PaLM 2[2]、Meta(原FaceBook)分別發(fā)布了7B、13B、33B和65B四種規(guī)模的大模型LLaMa[3]、OpenAI又發(fā)布了具有多模態(tài)處理理解能力以及更強大創(chuàng)造性的GPT4.0。

國內(nèi)外的學(xué)術(shù)界及產(chǎn)業(yè)界都在集中優(yōu)勢資源、算力進行大模型領(lǐng)域的應(yīng)用及研究工作。同樣,為滿足船舶工業(yè)制造標準領(lǐng)域不斷提升的效率及質(zhì)量要求,標準領(lǐng)域也應(yīng)及時啟動相關(guān)探索及研究工作,以期“站在巨人的肩膀上”提升標準化工作效率及標準實施效能。表1為面向標準快速研制方向與ChatGPT3.5模型進行對話獲取信息的過程展示,可以看出大規(guī)模預(yù)訓(xùn)練語言模型具備較強的自然語言理解能力及交互能力,并且能夠在船舶工業(yè)制造及標準領(lǐng)域給予具有較高參考價值的建議。

(2)大模型應(yīng)用及研究進展

為了順利開展標準領(lǐng)域結(jié)合大模型的應(yīng)用研究,要進行針對于各個典型行業(yè)如醫(yī)療、金融等的開源微調(diào)大模型項目調(diào)研以及相關(guān)具有可復(fù)用或者可參考價值的工具接口及數(shù)據(jù)集,對相關(guān)性及可用性較強的項目進行標準領(lǐng)域的可用性驗證。表2列出了部分前期針對大模型微調(diào)的開源項目情況,表3為部分大模型指令、工具、數(shù)據(jù)調(diào)研情況,表4為現(xiàn)階段AIGC領(lǐng)域部分已面向大量用戶開放使用接口的應(yīng)用工具情況。

2 標準知識圖譜應(yīng)用研究

標準知識圖譜是打破標準內(nèi)部原有組織結(jié)構(gòu),面向標準知識高效供給、智能體系分析等需求,建模標準內(nèi)部知識關(guān)聯(lián)及標準之間相關(guān)性的新型標準知識庫。基于標準知識圖譜能使用戶擺脫傳統(tǒng)的知識供給方式、提供精準檢索、智能問答、關(guān)聯(lián)分析等主要功能。圖1為將標準內(nèi)部知識進行結(jié)構(gòu)化知識抽取,構(gòu)建圖譜知識單元以及問答應(yīng)用的示意。

要提升知識圖譜于標準領(lǐng)域的應(yīng)用效能,則要面向標準知識快速供給、標準編制智能輔助等應(yīng)用需求,進行標準智能應(yīng)用需求研究、標準知識建模研究、智能化應(yīng)用研究等。標準智能應(yīng)用需求研究指的是:通過電話調(diào)研、實地溝通等方式,發(fā)掘現(xiàn)階段標準貫徹實施中的應(yīng)用痛點,并提出解決方案建議。標準智能建模研究指的是系統(tǒng)分析產(chǎn)品標準、設(shè)計標準、工藝標準、試驗方法等不同類別標準內(nèi)容組織方式,探索研究離散數(shù)字化標準數(shù)據(jù)結(jié)構(gòu)。標準智能化應(yīng)用研究指的是:面向標準智能化應(yīng)用需求,基于知識圖譜等技術(shù)手段,進行知識檢索、知識對比、知識推薦、知識問答等應(yīng)用研究。

3 基于大模型和知識圖譜的標準領(lǐng)域融合應(yīng)用方法研究

3.1 大模型及知識圖譜構(gòu)建應(yīng)用的優(yōu)劣分析

(1)大模型構(gòu)建應(yīng)用的主要優(yōu)劣分析

與其他近年來的所發(fā)布的Bert、GPT2以及T5等預(yù)訓(xùn)練語言模型相比,ChatGPT等大模型具有以下幾個方面的優(yōu)勢:

1)訓(xùn)練數(shù)據(jù)規(guī)模更大,ChatGPT等大模型的訓(xùn)練數(shù)據(jù)規(guī)模是其他語言模型的數(shù)倍甚至數(shù)十倍,可以學(xué)習(xí)到更多的語言知識和語言規(guī)律,具備更強的用戶交互能力和語言生成能力。

2)模型參數(shù)更多,算力要求更高:ChatGPT等大模型使用了大量的模型參數(shù),并基于極高的算力,通過不斷優(yōu)化算法和模型結(jié)構(gòu),使得它在語言模型的各項任務(wù)上表現(xiàn)優(yōu)異。

3)語言生成能力更強:ChatGPT等大模型可以自動生成流暢、自然的文本,包括自然對話、見解文章,乃至于規(guī)范代碼等。

4)自然語言理解能力更強,對話交互性更好:ChatGPT等大模型可以進行對話交互,能夠理解用戶提出的問題并生成相應(yīng)的回答,且能生成長文本密集型答案。

雖然大模型于多個產(chǎn)業(yè)研究領(lǐng)域都表現(xiàn)出了卓越的性能,但其仍然有著不可忽視的弊端,表5所示為標準領(lǐng)域的大模型交互過程,可發(fā)現(xiàn)大模型所生成的答案具備著較強的不可靠性和不穩(wěn)定性。

在表5的第一次問答中,美國海岸警衛(wèi)隊發(fā)布國際海事組織(IMO)的標準基本是不可能的,且也并未在公開渠道查詢到《IMO標準規(guī)則和指南》這份文件。此外,在第二次問答中,大模型給出了一些標準參考建議,然而實際上GB/T 18997共有兩個標準,分別是GB/T 18997.1-2020《鋁塑復(fù)合壓力管 第1部分:鋁管搭接焊式鋁塑管》[4]和GB/T 18997.2-2020《鋁塑復(fù)合壓力管 第2部分:鋁管對接焊式鋁塑管》[5]。而GB/ T 15115指的是我國GB/ T 15115-2009《壓鑄鋁合金》[6]這項標準??梢姶竽P驮趯I(yè)領(lǐng)域性極強的垂直領(lǐng)域的生成內(nèi)容,具有較強不可靠性??傮w而言,大模型的弊端主要體現(xiàn)在時效性、可靠性、可解釋性、穩(wěn)定性等方面:

1)不及時性。以ChatGPT3.5為例,其所使用的訓(xùn)練數(shù)據(jù)的截止日期為2021年底,也就是說大模型并不能針對實時問題進行回答,并且由于其模型訓(xùn)練所需數(shù)據(jù)量極大,訓(xùn)練周期較長,所以模型更新速度較慢。

2)不可靠性。由于語言生成模型生成文本的模型特征,大模型可能寫出看似合理但不正確的答案。這既是因為生成模型的語言生成機制,也是因為訓(xùn)練時所用數(shù)據(jù)的專業(yè)性和真實性不夠。

3)不可解釋性。大模型采用的依然是深度學(xué)習(xí)的訓(xùn)練策略,其訓(xùn)練過程依然是不可解釋的“黑盒”,那么也就導(dǎo)致在船舶工業(yè)制造領(lǐng)域,大模型生成的結(jié)果不敢用、不可用。

4)不穩(wěn)定性。大模型對輸入文本的變化以及或多次嘗試相同的提示很敏感。當(dāng)給定一個問題的輸入后,模型可能聲稱不知道答案,但只要稍作改寫,就可以正?;卮?,或前后兩次相同用戶輸入的輸出不一樣。

大模型具備在通用領(lǐng)域的用戶交互能力,但其在專業(yè)領(lǐng)域的答案可解釋性、可靠性、穩(wěn)定性卻是在船舶工業(yè)制造領(lǐng)域必須解決的問題,為此應(yīng)考慮利用知識圖譜數(shù)據(jù)庫的可解釋、可推理、穩(wěn)定性強等諸多優(yōu)勢來彌補大模型帶來的諸多弊端。

(2)知識圖譜構(gòu)建應(yīng)用的優(yōu)劣分析

根據(jù)前期研究及應(yīng)用經(jīng)驗,可知知識圖譜在專業(yè)領(lǐng)域較強的垂直領(lǐng)域具有可沉淀、可解釋、可推理、高效率等主要優(yōu)勢。

1)可沉淀指的是知識圖譜能很好地沉淀積累領(lǐng)域知識,此外,知識圖譜的可拓展性能為用戶提供方便高效的知識拓展方式。

2)可解釋指的是知識庫系統(tǒng)為用戶提供的知識是來源領(lǐng)域數(shù)據(jù)中的可靠數(shù)據(jù),可以直接根據(jù)路徑溯源找到其知識供給路徑。

3)可推理性指的是知識圖譜通過建模知識單元之間的關(guān)聯(lián),使得海量知識單元之間構(gòu)建了大量不同類別的連接路徑,用戶可以基于深度知識圖譜嵌入的知識推理為結(jié)果找到合理可信的路徑解釋。

4)高效率指的是用戶可擺脫傳統(tǒng)的文檔關(guān)聯(lián)搜索、目錄段落查找、知識瀏覽獲取的方式,實現(xiàn)精準問答檢索,大幅度提高了用標人員的標準知識獲取效率。

然而在實際的工程應(yīng)用過程中,領(lǐng)域知識圖譜構(gòu)建及應(yīng)用的弊端也是顯而易見的,即成本高、代價大。具體而言,領(lǐng)域知識圖譜構(gòu)建的問題主要有以下方面:

1)整個產(chǎn)業(yè)圖譜生產(chǎn)流程過長,涉及到數(shù)據(jù)預(yù)處理、本體定義、實體抽取、關(guān)系抽取、圖譜融合、應(yīng)用算法研究、服務(wù)平臺研發(fā)等,多個流程之間容易發(fā)生錯誤累計,成本累積等。

2)在知識圖譜數(shù)據(jù)層構(gòu)建過程中,由于純?nèi)斯俗⒐ぷ髁窟^大,通常需要先進行有監(jiān)督數(shù)據(jù)集的構(gòu)造,而后進行相應(yīng)信息抽取算法的開發(fā),進而進行人機結(jié)合式的知識單元抽取,以構(gòu)建合理可信的領(lǐng)域知識圖譜數(shù)據(jù)層,然而這其中的每一個環(huán)節(jié)都是耗時耗力的。

3)知識圖譜的領(lǐng)域?qū)傩暂^強,一般需要領(lǐng)域?qū)<疫M行基于用戶需求的領(lǐng)域本體知識體系構(gòu)建,還需要參與到數(shù)據(jù)標注后期的知識校對工作中,這進一步導(dǎo)致了領(lǐng)域知識圖譜的構(gòu)建成本上升。

3.2 基于大模型和知識圖譜的融合應(yīng)用方法研究

為了充分利用大模型和知識圖譜二者的優(yōu)勢,使其優(yōu)劣相互彌補,不斷提升領(lǐng)域工程完成效率,需探索基于大模型和知識圖譜的標準領(lǐng)域融合應(yīng)用方法。通過系統(tǒng)調(diào)研及思考,主要有以下三個方向思路的融合應(yīng)用研究:一是大模型輔助知識圖譜構(gòu)建;二是知識圖譜輔助大模型訓(xùn)練并幫助提升大模型生成結(jié)果的可信性;三是在二者成熟平臺上互相調(diào)用交互接口,以達到互相增強的目的。

(1)大模型輔助知識圖譜構(gòu)建

大模型最大的魅力在于其通用能力,研究者可以利用大模型在諸多零樣本(zeroshot)或小樣本(fewshot)領(lǐng)域場景下,提升知識圖譜構(gòu)建過程中各個環(huán)節(jié)的完成效率,如本體構(gòu)建、信息抽取、知識融合、關(guān)系推理等。但大模型的通用性強也就意味著在很多領(lǐng)域中的專業(yè)性差,而專業(yè)性差的問題恰恰可通過高精度的領(lǐng)域小模型來解決。初步設(shè)定的主要技術(shù)路線如圖2所示,為領(lǐng)域知識圖譜構(gòu)建環(huán)節(jié)中的每個任務(wù)設(shè)計專用prompt(一種提示文本,可以指導(dǎo)語言模型生成更符合用戶意圖的相應(yīng))。將每個環(huán)節(jié)的任務(wù)利用特定prompt模型化為核心要素填充或多輪問答任務(wù),進而提高領(lǐng)域知識圖譜的構(gòu)建效率。

(2)知識圖譜輔助大模型研發(fā)

知識圖譜因其結(jié)構(gòu)化語義豐富、知識來源真實、可推理性更強等優(yōu)勢可以很好地彌補大模型因“黑盒”特點導(dǎo)致的不可解釋性和不可靠性等弊端,則應(yīng)使知識圖譜在大模型的訓(xùn)練前、訓(xùn)練中和訓(xùn)練后分別發(fā)揮作用。

1)大模型訓(xùn)練前

大模型需要規(guī)模極大的高質(zhì)量訓(xùn)練數(shù)據(jù),為縮短數(shù)據(jù)獲取及預(yù)處理周期,可以利用知識圖譜作為領(lǐng)域經(jīng)驗知識對語料數(shù)據(jù)進行錯誤檢測,可以很好地提升大模型訓(xùn)練數(shù)據(jù)的質(zhì)量和獲取效率;此外,還可以直接利用知識圖譜中大量已有的結(jié)構(gòu)化知識單元,直接顯式地進行形式化轉(zhuǎn)換,將其引入大模型的預(yù)訓(xùn)練語料,擴充大模型訓(xùn)練數(shù)據(jù)規(guī)模。

2)大模型訓(xùn)練過程中

大模型在訓(xùn)練過程中,其效果受數(shù)據(jù)質(zhì)量、模型架構(gòu)、訓(xùn)練優(yōu)化等因素影響,引入知識圖譜可以增強模型的有效性。采用知識嵌入模型加大模型聯(lián)合訓(xùn)練的模式,將知識圖譜隱式地加入到模型訓(xùn)練中,使大模型中的參數(shù)化語義與知識圖譜中的形式化語義產(chǎn)生深度融合,增強大模型的有效性和可信性;此外,還可以構(gòu)建以領(lǐng)域知識圖譜為中心的下游評測任務(wù),在大模型訓(xùn)練評估階段發(fā)揮作用。

3)訓(xùn)練后階段

大模型在訓(xùn)練之后,要結(jié)合實際場景,利用特定的prompt,更大地激發(fā)大模型的領(lǐng)域應(yīng)用能力。在構(gòu)造prompt時,利用知識圖譜作為先驗知識進行prompt前約束,增強結(jié)果可控性;為解決領(lǐng)域生成局限性現(xiàn)象,在構(gòu)造prompt時,引入涉及實體的上下文進行豐富,增強結(jié)果可用性;為解決生成結(jié)果不可靠問題,對模型生成后的結(jié)果進行后約束,減少模型事實性錯誤;為解決大模型實時性問題,通過query實體消歧和實體鏈接,優(yōu)化搜索引擎實時結(jié)果,增強生成準確性。

(3)大模型應(yīng)用平臺和知識圖譜智能應(yīng)用平臺的相互增強

知識圖譜平臺與大模型平臺利用雙知識平臺進行相互增強也是一種應(yīng)用方向。知識圖譜目前有相應(yīng)的知識圖譜平臺,具備網(wǎng)絡(luò)分析、圖數(shù)據(jù)庫查詢、可視化展示,推理鏈條可解釋形象化展示等功能。大模型目前通過系統(tǒng)接口、插件的方式又可以作為一個靈活的組件嵌入到知識圖譜平臺當(dāng)中,用于提升平臺效能。對于大模型平臺來說,知識圖譜平臺可以用來沉淀大模型平臺中任務(wù)驅(qū)動的關(guān)鍵知識,實現(xiàn)精確、可解釋的問答等智能化知識供給任務(wù)。

考慮到各領(lǐng)域標準智能化應(yīng)用研究現(xiàn)狀,以及大模型對于數(shù)據(jù)量以及算力的極高要求,單一行業(yè)標準化研究人員很難在有限條件下,利用已有知識圖譜數(shù)據(jù)來進行大模型的優(yōu)化和微調(diào)。此外現(xiàn)階段也并無成熟開源的大模型應(yīng)用平臺可以直接集成至內(nèi)部的知識圖譜應(yīng)用平臺中。因此標準領(lǐng)域智能化應(yīng)用研究人員應(yīng)持續(xù)對第二及第三種思路進行探索式方法研究,將主要精力側(cè)重于開源大模型輔助領(lǐng)域知識圖譜的構(gòu)建及應(yīng)用方向。

4 總結(jié)

《國家標準化發(fā)展綱要》提出將標準數(shù)字化程度不斷提高作為重要目標,提出發(fā)展機器可讀標準、開源標準、推動標準化工作向數(shù)字化、網(wǎng)絡(luò)化、智能化轉(zhuǎn)型。同時,為滿足型號研制單位對標準智能化應(yīng)用的建設(shè)需求,要積極探索領(lǐng)域大模型的研究及知識圖譜的領(lǐng)域應(yīng)用研究進展,系統(tǒng)分析大模型及知識圖譜在標準數(shù)字化建設(shè)上的應(yīng)用優(yōu)劣,探索出一條大模型與知識圖譜融合應(yīng)用、相互增強的標準智能化建設(shè)道路,為領(lǐng)域標準研究及應(yīng)用人員提供高可用性的智能化標準應(yīng)用服務(wù),為型號產(chǎn)品研制提供更強的標準支撐力量。

猜你喜歡
融合應(yīng)用知識圖譜標準
2022 年3 月實施的工程建設(shè)標準
忠誠的標準
美還是丑?
初中數(shù)學(xué)課堂與多媒體技術(shù)的融合
電氣自動化在電氣工程中的融合應(yīng)用
電氣工程中電氣和自動化的融合應(yīng)用分析
近十五年我國小學(xué)英語教學(xué)研究的熱點、問題及對策
基于知識圖譜的產(chǎn)業(yè)集群創(chuàng)新績效可視化分析
智富時代(2016年12期)2016-12-01 16:28:41
基于知識圖譜的智慧教育研究熱點與趨勢分析
從《ET&S》與《電化教育研究》對比分析中管窺教育技術(shù)發(fā)展
南溪县| 山丹县| 文化| 华池县| 江安县| 五河县| 芮城县| 卫辉市| 本溪市| 东方市| 延长县| 榆社县| 莲花县| 防城港市| 黄龙县| 海淀区| 张家界市| 巧家县| 普宁市| 桃江县| 盐城市| 手机| 改则县| 大冶市| 奉化市| 阿勒泰市| 汕尾市| 泰来县| 宁明县| 望都县| 海口市| 德化县| 独山县| 河间市| 沛县| 松溪县| 洱源县| 张家川| 奇台县| 鄯善县| 翁源县|