国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大語(yǔ)言模型在科技檔案管理中的應(yīng)用研究

2024-12-16 00:00王建品
檔案管理 2024年6期

摘 要:從剖析科技檔案管理的現(xiàn)狀及存在的問(wèn)題出發(fā),基于大語(yǔ)言模型在信息處理中的優(yōu)勢(shì),分析大語(yǔ)言模型在科技檔案管理中的三個(gè)應(yīng)用場(chǎng)景,分別為聚焦服務(wù)知識(shí)應(yīng)用的場(chǎng)景1.0,支持知識(shí)生產(chǎn)的場(chǎng)景2.0,激發(fā)科技行業(yè)新生態(tài)的場(chǎng)景3.0;最后指出了大語(yǔ)言模型應(yīng)用帶來(lái)的挑戰(zhàn),包括AI生成內(nèi)容的知識(shí)產(chǎn)權(quán)問(wèn)題、信息安全風(fēng)險(xiǎn)、內(nèi)容質(zhì)量控制及人員的人工智能素養(yǎng)要求等。為大語(yǔ)言模型賦能下的科技檔案管理智能化、高效化發(fā)展提供理論框架與實(shí)踐導(dǎo)向。

關(guān)鍵詞:大語(yǔ)言模型;科技檔案;檔案服務(wù);人工智能;知識(shí)產(chǎn)權(quán);個(gè)性化服務(wù);知識(shí)生產(chǎn);科技創(chuàng)新

科技檔案是國(guó)家機(jī)構(gòu)、社會(huì)組織及個(gè)人從事各項(xiàng)社會(huì)活動(dòng)形成的對(duì)國(guó)家、社會(huì)、本單位和個(gè)人具有保存價(jià)值的應(yīng)當(dāng)歸檔保存的科技文件,[1]是國(guó)家重要的戰(zhàn)略科技資源,具有豐富的經(jīng)濟(jì)和智力價(jià)值,具有促進(jìn)生產(chǎn)力發(fā)展、提高經(jīng)濟(jì)效益的作用。2023年國(guó)家檔案局啟動(dòng)了40年來(lái)《科技檔案工作條例》的首次修訂,科技檔案工作受到了前所未有的重視。[2]但是,目前我國(guó)科技檔案的管理和使用還存在很多問(wèn)題。

隨著大語(yǔ)言模型(Large Language Model,LLM)等人工智能技術(shù)的快速發(fā)展,信息管理和知識(shí)服務(wù)的格局正發(fā)生深刻變革,也為科技檔案工作帶來(lái)了前所未有的機(jī)遇和挑戰(zhàn)。相關(guān)部門也紛紛出臺(tái)相應(yīng)的政策,要求加強(qiáng)科技檔案的管理,建立符合并體現(xiàn)新質(zhì)生產(chǎn)力發(fā)展要求的科技檔案資源體系。

本文將從剖析科技檔案管理的現(xiàn)狀及存在的問(wèn)題出發(fā),基于LLM在信息處理中的優(yōu)勢(shì),探析LLM在科技檔案管理中的三個(gè)應(yīng)用場(chǎng)景,并指出應(yīng)用中所面臨的挑戰(zhàn),以期能夠促進(jìn)LLM技術(shù)與科技檔案工作的深度融合,為推動(dòng)科技檔案管理的現(xiàn)代化轉(zhuǎn)型提供理論依據(jù)和實(shí)踐參考。

1 科技檔案管理的現(xiàn)狀及問(wèn)題

1.1 數(shù)據(jù)資源海量化,數(shù)據(jù)類型多樣化。在科學(xué)研究“第四范式”和知識(shí)經(jīng)濟(jì)時(shí)代背景下,隨著科學(xué)技術(shù)迅速發(fā)展和科技研究的多學(xué)科交叉不斷增多,科技檔案數(shù)據(jù)的產(chǎn)生源也急劇增加,無(wú)論是基礎(chǔ)科學(xué)研究、工程技術(shù)實(shí)踐還是日常辦公活動(dòng),都產(chǎn)生了前所未有的大量數(shù)據(jù)。

在基礎(chǔ)科學(xué)研究領(lǐng)域,隨著實(shí)驗(yàn)技術(shù)和儀器的不斷進(jìn)步,研究人員能夠收集到更加精確和詳細(xì)的數(shù)據(jù);在工程技術(shù)實(shí)踐中,隨著物聯(lián)網(wǎng)技術(shù)的發(fā)展,各種監(jiān)測(cè)設(shè)備能夠?qū)崟r(shí)收集環(huán)境、設(shè)備狀態(tài)和操作過(guò)程的數(shù)據(jù);在日常辦公活動(dòng)中,隨著信息技術(shù)的普及,電子郵件、文檔、會(huì)議記錄等電子文件的數(shù)量急劇增加。[3-5]此外,科技檔案數(shù)據(jù)也不僅僅局限于科研報(bào)告、實(shí)驗(yàn)數(shù)據(jù)、專利文檔等可以被結(jié)構(gòu)化存儲(chǔ)和管理的文本信息,還包括大量的多媒體數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。例如,圖像、視頻、音頻、傳感器數(shù)據(jù)、社交媒體內(nèi)容等非結(jié)構(gòu)化數(shù)據(jù)急劇增加。

這些數(shù)據(jù)的積累不僅為科學(xué)研究提供了豐富的資源,也為科技檔案的管理、保存和利用帶來(lái)了新的挑戰(zhàn)。如何有效地管理和利用這些龐大的科技檔案數(shù)據(jù),成為了當(dāng)前科學(xué)研究和知識(shí)管理領(lǐng)域亟待解決的問(wèn)題。

1.2 開(kāi)放共享程度低,數(shù)據(jù)孤島化現(xiàn)象較嚴(yán)重。當(dāng)前,我國(guó)科技檔案開(kāi)放力度還比較小,共享程度還很低,究其原因,主要有以下三點(diǎn):一是科技檔案往往涉及知識(shí)產(chǎn)權(quán)、商業(yè)秘密或國(guó)家安全,因此,在沒(méi)有明確的共享規(guī)范和保障機(jī)制下,很多單位傾向于保守秘密,不愿意開(kāi)放共享。這種情況在科技領(lǐng)域尤為突出,因?yàn)榭蒲谐晒纳虡I(yè)價(jià)值和戰(zhàn)略意義往往與知識(shí)產(chǎn)權(quán)緊密相關(guān),單位和個(gè)人對(duì)于科研成果的保護(hù)意識(shí)較強(qiáng),擔(dān)心開(kāi)放共享可能會(huì)帶來(lái)信息泄露的風(fēng)險(xiǎn)。二是許多科研機(jī)構(gòu)、高校和企業(yè)內(nèi)部建立了各自的科技檔案管理系統(tǒng),但這些系統(tǒng)之間缺乏高效、安全的共享平臺(tái)和技術(shù)支持,缺乏有效的互聯(lián)互通機(jī)制,導(dǎo)致存在較嚴(yán)重的數(shù)據(jù)孤島障礙。科技檔案的分類和管理需要遵循一定的標(biāo)準(zhǔn)和規(guī)范,但由于不同領(lǐng)域和機(jī)構(gòu)之間的標(biāo)準(zhǔn)差異,導(dǎo)致檔案的統(tǒng)一管理和共享利用難度增加。三是科技檔案涉及專業(yè)領(lǐng)域眾多,分類、編碼、描述等標(biāo)準(zhǔn)不一,導(dǎo)致開(kāi)放審核面臨許多問(wèn)題,在跨機(jī)構(gòu)共享時(shí)也存在兼容性問(wèn)題,使得檔案的整合與交流變得困難。[6]

1.3 科技檔案開(kāi)發(fā)深度有限,服務(wù)質(zhì)量有待提高。當(dāng)前,我國(guó)科技檔案管理仍以保管為主,檔案信息資源的開(kāi)發(fā)停留在淺層,深加工成果較少,服務(wù)質(zhì)量有待進(jìn)一步提高,主要的表現(xiàn)有以下三點(diǎn):一是科技檔案的知識(shí)更新速度滯后,不能及時(shí)反映最新的科研成果和動(dòng)態(tài),降低了服務(wù)的時(shí)效性和實(shí)用性,無(wú)法滿足用戶對(duì)高效、智能化知識(shí)服務(wù)的需求,尤其是在數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)日益普及的今天,科研人員需要能夠快速訪問(wèn)到最新的科研數(shù)據(jù)和成果;二是科技檔案共享和開(kāi)發(fā)程度低,影響了檔案的組織和檢索效率,使得檔案信息的價(jià)值未能充分挖掘,限制了其在科研創(chuàng)新和決策支持中的作用;三是對(duì)科技檔案價(jià)值的認(rèn)識(shí)和利用方法的普及不足,使得許多潛在用戶不了解如何有效利用這些資源,限制了知識(shí)服務(wù)效能的發(fā)揮,而且知識(shí)服務(wù)的提供往往缺乏與用戶的互動(dòng)和反饋機(jī)制,難以精準(zhǔn)把握用戶需求,導(dǎo)致服務(wù)內(nèi)容和形式與實(shí)際需求脫節(jié)。

2 LLM在信息處理中的優(yōu)勢(shì)

LLM是利用大規(guī)模的語(yǔ)料數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練的語(yǔ)言模型,其核心目標(biāo)是使機(jī)器能夠像人類解釋語(yǔ)言一樣,準(zhǔn)確地學(xué)習(xí)和理解人類的語(yǔ)言,從而使機(jī)器解釋語(yǔ)言,這是自然語(yǔ)言處理的方式之一。LLM是人工智能(AI)領(lǐng)域的突破性發(fā)展,已成為一種強(qiáng)大的工具,主要用于智能客服、文本生成、情感分析、自動(dòng)摘要、機(jī)器翻譯、文檔分類等任務(wù)。

目前在國(guó)外,主要有由 OpenAI 推出的 ChatGPT、Google 推出的 Gopher 和 LaMDA,以及 Meta 推出的Lama。國(guó)內(nèi)“文心一言”由百度首發(fā),阿里推出了“通義千問(wèn)”,商湯發(fā)布了“商量”等?;诖竽P偷膹?qiáng)大性能和相關(guān)技術(shù)的逐步成熟,國(guó)內(nèi)外諸多企業(yè)已將大模型應(yīng)用在法律、醫(yī)療、電力等實(shí)際場(chǎng)景中。同樣,在信息與知識(shí)服務(wù)中,LLM也表現(xiàn)出強(qiáng)大的優(yōu)勢(shì)。

2.1 自然語(yǔ)言理解與生成能力。強(qiáng)大的自然語(yǔ)言理解和生成能力是LLM的顯著特征之一。隨著人工智能技術(shù)的快速發(fā)展,尤其是深度學(xué)習(xí)的進(jìn)步,LLM已經(jīng)成為自然語(yǔ)言處理(NLP)領(lǐng)域的一個(gè)重要突破。這些模型通過(guò)訓(xùn)練大量的文本數(shù)據(jù),學(xué)習(xí)語(yǔ)言的復(fù)雜結(jié)構(gòu)和模式,從而獲得了對(duì)自然語(yǔ)言的深刻理解。

隨著計(jì)算資源的不斷提升,大型神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練成為可能,這些模型包含數(shù)百萬(wàn)或數(shù)十億個(gè)參數(shù),這為語(yǔ)言生成和理解任務(wù)提供了強(qiáng)大的能力,使得它們能夠捕捉到語(yǔ)言中的細(xì)微差別,并生成流暢、連貫的文本。[7]同時(shí),LLM建立了自然語(yǔ)言形式的統(tǒng)一任務(wù)解決模式,這意味著,無(wú)論是復(fù)雜的查詢、指令還是簡(jiǎn)單的請(qǐng)求,都可以通過(guò)自然語(yǔ)言的形式輸入,模型能夠理解這些指令并生成相應(yīng)的輸出。

這種模式具備較好的人類指令遵循能力,能夠深度理解用戶的意圖,它允許用戶以最自然的方式與機(jī)器溝通,無(wú)需學(xué)習(xí)特定的命令或語(yǔ)法,這就為人機(jī)交互提供了一種自然的、通用的技術(shù)路徑,極大地簡(jiǎn)化了人機(jī)交互的過(guò)程。而且,LLM在遵循人類指令方面的能力也在不斷地得到顯著提升,它們不僅能夠理解用戶的直接請(qǐng)求,還能夠處理更復(fù)雜的任務(wù),如推理、規(guī)劃和創(chuàng)造性寫作。這種能力的背后是模型對(duì)語(yǔ)言的深層理解,包括語(yǔ)境、語(yǔ)義和語(yǔ)法等多個(gè)層面。

2.2 持續(xù)學(xué)習(xí)和優(yōu)化能力。隨著LLM在各個(gè)領(lǐng)域的應(yīng)用不斷擴(kuò)大,它們適應(yīng)數(shù)據(jù)、任務(wù)和用戶偏好的持續(xù)變化的能力變得至關(guān)重要。LLM通過(guò)自監(jiān)督學(xué)習(xí)(基于大規(guī)模的未標(biāo)注文本數(shù)據(jù)集進(jìn)行訓(xùn)練,來(lái)提高模型的性能)和遷移學(xué)習(xí)(根據(jù)用戶的新的查詢和反饋,通過(guò)對(duì)模型進(jìn)行微調(diào),實(shí)現(xiàn)在不同任務(wù)之間的遷移學(xué)習(xí))方式獲得了持續(xù)學(xué)習(xí)和優(yōu)化能力,這能夠使其在運(yùn)行生命周期內(nèi)持續(xù)學(xué)習(xí)和適應(yīng)、整合新知識(shí),同時(shí)保留先前學(xué)習(xí)的信息,從而不斷提升在特定領(lǐng)域內(nèi)的理解與服務(wù)能力,應(yīng)對(duì)現(xiàn)實(shí)世界信息的動(dòng)態(tài)特性。[8]

持續(xù)學(xué)習(xí)與優(yōu)化能力保證了LLM能夠?qū)I(yè)領(lǐng)域知識(shí)的理解更加豐富和準(zhǔn)確,從而適應(yīng)不斷變化的科技檔案服務(wù)需求。例如,通過(guò)External Augmentation,LLM可以從外部源檢索或調(diào)用領(lǐng)域特定信息來(lái)增強(qiáng)模型,無(wú)需微調(diào)模型參數(shù)。這種領(lǐng)域知識(shí)增強(qiáng)了特定領(lǐng)域內(nèi)的深度和準(zhǔn)確性,而領(lǐng)域工具增強(qiáng)則使模型能夠執(zhí)行超出其固有能力的任務(wù)。

2.3 多模態(tài)與跨語(yǔ)言處理能力。LLM可以同時(shí)處理文字、圖像、音頻和視頻等多種不同形式的信息,進(jìn)行跨模態(tài)的信息理解,比如通過(guò)與圖像識(shí)別模型的結(jié)合,進(jìn)行圖像的自然語(yǔ)言描述,進(jìn)行從文本到圖像或從圖像到文本的內(nèi)容生成等,完成圖像理解和自然語(yǔ)言生成的聯(lián)合任務(wù),從而實(shí)現(xiàn)更加全面和智能的語(yǔ)言處理。[9]這種聯(lián)合任務(wù)的完成,使得圖像理解和自然語(yǔ)言生成的能力得到了加強(qiáng)。例如,通過(guò)上下文學(xué)習(xí),LLM能夠在有圖像上下文輸入的情況下生成逼真的現(xiàn)實(shí)圖像,并且還能進(jìn)行圖像描述和視覺(jué)問(wèn)答。

另外,LLM還能夠理解和生成多種語(yǔ)言的文本,這使得其能夠跨越語(yǔ)言障礙,實(shí)現(xiàn)不同語(yǔ)言的無(wú)縫對(duì)接,這在跨語(yǔ)言檢索、多語(yǔ)言客戶服務(wù)及提高翻譯的準(zhǔn)確性和自然度方面優(yōu)勢(shì)更加明顯。而且,LLM的跨語(yǔ)言思維提示(XLT)還能夠激發(fā)跨語(yǔ)言和邏輯推理技能,提高跨語(yǔ)言任務(wù)的性能,縮小不同語(yǔ)言下任務(wù)性能的差距。LLM的多模態(tài)與跨語(yǔ)言信息處理能力在實(shí)際應(yīng)用中展現(xiàn)出了巨大的潛力,為用戶提供了更加豐富和直觀的交互體驗(yàn),同時(shí)也為多語(yǔ)言環(huán)境下的信息服務(wù)提供了強(qiáng)有力的支持。

3 LLM在科技檔案管理中的應(yīng)用場(chǎng)景

檔案管理工作的目標(biāo)與宗旨是進(jìn)行檔案資源的建設(shè)與開(kāi)發(fā)利用,滿足經(jīng)濟(jì)社會(huì)發(fā)展的需要。[10]當(dāng)前,檔案服務(wù)工作正面臨著由傳統(tǒng)信息服務(wù)向高階知識(shí)服務(wù)的轉(zhuǎn)型,而人工智能及LLM為此提供了技術(shù)支點(diǎn)。[11]目前,問(wèn)題驅(qū)動(dòng)的創(chuàng)新與場(chǎng)景驅(qū)動(dòng)的創(chuàng)新已成為國(guó)家重大發(fā)展戰(zhàn)略機(jī)制,[12]因此,本文基于當(dāng)前科技檔案管理中存在的問(wèn)題,提出了LLM在科技檔案應(yīng)用中的三個(gè)場(chǎng)景,分別是服務(wù)知識(shí)應(yīng)用的場(chǎng)景1.0、支持知識(shí)生產(chǎn)的場(chǎng)景2.0和激發(fā)科技行業(yè)新生態(tài)的場(chǎng)景3.0。

3.1 服務(wù)知識(shí)應(yīng)用的場(chǎng)景1.0??萍紮n案數(shù)據(jù)資源的開(kāi)發(fā)是檔案工作的起點(diǎn)和基礎(chǔ),對(duì)檔案數(shù)據(jù)進(jìn)行采集、存儲(chǔ)、檢索,從而方便用戶獲取和應(yīng)用知識(shí)是檔案管理的基礎(chǔ)工作。在場(chǎng)景1.0下,借助LLM技術(shù),這些工作將更加自動(dòng)化、智能化、人性化,真正滿足知識(shí)應(yīng)用服務(wù)的需要。在此場(chǎng)景下LLM的應(yīng)用主要體現(xiàn)在數(shù)字化、精細(xì)化、標(biāo)簽化、智能化、多模態(tài)和個(gè)性化等方面。

3.1.1 科技檔案的數(shù)字化、自動(dòng)精細(xì)分類與主題標(biāo)簽化。在科技檔案數(shù)據(jù)的采集和存儲(chǔ)工作中,LLM的自然語(yǔ)言處理和光學(xué)字符識(shí)別等技術(shù)能夠快速而準(zhǔn)確地將紙質(zhì)檔案數(shù)字化;[13]LLM可以采用文本識(shí)別技術(shù)構(gòu)建基于機(jī)器學(xué)習(xí)的智能分類與標(biāo)簽系統(tǒng),[14]如科技檔案中包含的技術(shù)標(biāo)準(zhǔn)和操作規(guī)范文檔,LLM能識(shí)別并標(biāo)注出關(guān)鍵條款、適用范圍、技術(shù)指標(biāo)等,有助于標(biāo)準(zhǔn)化管理和分類,確保技術(shù)文檔的準(zhǔn)確性和一致性;再如,科技檔案中包含大量專利文件,LLM能夠深入理解專利摘要、權(quán)利要求等內(nèi)容,自動(dòng)分類并標(biāo)記專利類型(如發(fā)明、實(shí)用新型)、技術(shù)領(lǐng)域(如電子、生物技術(shù))、關(guān)鍵詞等,從而優(yōu)化專利數(shù)據(jù)庫(kù)的構(gòu)建和檢索效率。

3.1.2 科技檔案的智能交互檢索。在傳統(tǒng)的檔案信息檢索中,用戶主要通過(guò)輸入檢索詞的方式進(jìn)行模糊檢索,這對(duì)于非專業(yè)利用者來(lái)說(shuō)具有一定的難度。采用LLM,用戶通過(guò)自然語(yǔ)言與檢索系統(tǒng)進(jìn)行對(duì)話,表達(dá)并可以不斷調(diào)整檢索需求,系統(tǒng)則可以理解用戶的需求,產(chǎn)生連貫、有邏輯的檢索響應(yīng),提供相應(yīng)的回答和檢索服務(wù)[15],而基于深度學(xué)習(xí)的搜索引擎可以通過(guò)對(duì)用戶的行為分析,向用戶推薦相關(guān)檔案資料和研究資源,使得搜索結(jié)果更加精準(zhǔn),實(shí)現(xiàn)從“模糊搜索”到“精準(zhǔn)推送”的轉(zhuǎn)變。

總之,采用LLM,可以實(shí)現(xiàn)科技檔案智能檢索交互的新轉(zhuǎn)變,實(shí)現(xiàn)AI答案、專家搜索和相關(guān)內(nèi)容推薦等功能,提高搜索的智能性和效率。

3.1.3 多模態(tài)與個(gè)性化服務(wù)??萍紮n案信息在以往采用傳文本的形式進(jìn)行輸出,而采用LLM的AIGC(人工智能生成內(nèi)容)技術(shù),可以實(shí)現(xiàn)文本信息與圖像視頻和音頻等其他模態(tài)信息的相互融合,使得檔案信息系統(tǒng)更加智能、生動(dòng)、貼近用戶需求。例如在檢索服務(wù)中,用戶可以通過(guò)文本、語(yǔ)音和圖像等形式進(jìn)行檢索,而系統(tǒng)也可以根據(jù)用戶需求以多模態(tài)形式輸出執(zhí)行結(jié)果。又如在科普?qǐng)鼍爸?,系統(tǒng)根據(jù)科技信息文本內(nèi)容生成配圖或視頻,以增強(qiáng)科普的內(nèi)容的可讀性和吸引力,體現(xiàn)知識(shí)應(yīng)用服務(wù)的便利性和對(duì)人文關(guān)懷性的重視。

另外,建立在LLM基礎(chǔ)上的智能問(wèn)答系統(tǒng),可以針對(duì)特定科技領(lǐng)域的問(wèn)題提供精確答案,解釋技術(shù)術(shù)語(yǔ)、回顧技術(shù)發(fā)展歷程、推薦相關(guān)論文或?qū)@瑸榭蒲腥藛T和工程師提供即時(shí)的技術(shù)支持和個(gè)性化服務(wù)。

3.2 支持知識(shí)生產(chǎn)的場(chǎng)景2.0??萍紮n案在科技知識(shí)生產(chǎn)過(guò)程中發(fā)揮著至關(guān)重要的作用,通過(guò)對(duì)檔案數(shù)據(jù)的深層次挖掘,從而幫助用戶產(chǎn)生新知識(shí),是科技檔案工作的又一重要任務(wù)。在場(chǎng)景2.0中,用戶不僅能夠獲取知識(shí),還能夠借助數(shù)據(jù)分析、文本挖掘等LLM技術(shù),通過(guò)對(duì)檔案數(shù)據(jù)進(jìn)行深層次的拓展,實(shí)現(xiàn)從文本梳理到知識(shí)鏈接、從信息檢索到知識(shí)發(fā)現(xiàn)的轉(zhuǎn)變,使得潛藏于海量科技檔案中的寶貴知識(shí)得以充分釋放與應(yīng)用,進(jìn)行知識(shí)的再生產(chǎn)。

3.2.1 科技檔案文本關(guān)鍵信息的提煉與自動(dòng)摘要的生成。LLM可實(shí)現(xiàn)科技報(bào)告等文本信息的抽取、關(guān)鍵信息的提煉,自動(dòng)摘要的生成,這對(duì)于快速瀏覽大量科技文件內(nèi)容、把握核心要點(diǎn)尤為關(guān)鍵,對(duì)于長(zhǎng)篇幅的檔案資料,這可以提供快速瀏覽內(nèi)容概要的能力,便于管理和開(kāi)放審核等。例如,一份冗長(zhǎng)的科技項(xiàng)目報(bào)告或政策文件,模型可以自動(dòng)生成簡(jiǎn)短的摘要,保留核心要點(diǎn),提高用戶的信息吸收效率。在科技研發(fā)過(guò)程中產(chǎn)生的實(shí)驗(yàn)報(bào)告、技術(shù)分析報(bào)告等文檔往往信息量大且專業(yè)性強(qiáng),LLM能夠自動(dòng)提煉報(bào)告的關(guān)鍵發(fā)現(xiàn)、實(shí)驗(yàn)結(jié)果、技術(shù)創(chuàng)新點(diǎn)等,生成易于理解的摘要,方便科研人員快速瀏覽和引用,同時(shí)也便于歸檔、后續(xù)檢索及審核。

3.2.2 語(yǔ)義知識(shí)圖譜的構(gòu)建及檔案數(shù)據(jù)的深度挖掘。傳統(tǒng)的信息組織是基于學(xué)科、主題、關(guān)鍵詞等所反映的少量特征信息,而LLM可將處于信息孤島的檔案數(shù)據(jù)組織成語(yǔ)義關(guān)聯(lián)的知識(shí)圖譜,從而更加高效地整合和利用科技檔案知識(shí)資源。

借助LLM的語(yǔ)義分析技術(shù),通過(guò)對(duì)內(nèi)容的語(yǔ)義理解,利用共現(xiàn)分析、聚類分析、社會(huì)網(wǎng)絡(luò)分析、地理位置分析、時(shí)序分析、情感分析等方法,AI可以構(gòu)建起科技檔案中同一學(xué)科不同主題之間、不同學(xué)科之間的復(fù)雜關(guān)系網(wǎng),形成知識(shí)網(wǎng)絡(luò)圖及知識(shí)圖譜等,對(duì)檔案資源進(jìn)行內(nèi)容層面的挖掘;此外,還可借助LLM構(gòu)建基于檔案知識(shí)的知識(shí)庫(kù),開(kāi)發(fā)基于智能問(wèn)答的專家系統(tǒng),模擬專家思維和決策過(guò)程,進(jìn)行問(wèn)答結(jié)果的結(jié)構(gòu)化展示和語(yǔ)義關(guān)聯(lián)推薦,為研究人員和公眾提供專業(yè)的檔案咨詢和建議服務(wù),形成豐富的檔案資源開(kāi)發(fā)成果,從而推動(dòng)檔案內(nèi)容信息的知識(shí)發(fā)現(xiàn)和價(jià)值洞察。

3.3 激發(fā)科技行業(yè)新生態(tài)的場(chǎng)景3.0。在場(chǎng)景3.0下,檔案機(jī)構(gòu)借助AI,通過(guò)與科研機(jī)構(gòu)、高校、公益機(jī)構(gòu)、文化創(chuàng)意行業(yè)等的合作,整合資源,共同開(kāi)發(fā)檔案信息的應(yīng)用場(chǎng)景,拓展檔案資源的應(yīng)用范圍,為社會(huì)公眾提供更多公共教育及文創(chuàng)開(kāi)發(fā)服務(wù),提升檔案信息的社會(huì)價(jià)值,為新質(zhì)生產(chǎn)力良性生態(tài)體系的形成及全社會(huì)創(chuàng)新效率的提高提供支持。

3.3.1 促進(jìn)科技交流與創(chuàng)新。通過(guò)互聯(lián)網(wǎng)和云計(jì)算技術(shù),可以建立開(kāi)放的檔案資源平臺(tái),這樣的平臺(tái)不僅推動(dòng)了檔案信息的共享,也為科學(xué)研究、企業(yè)創(chuàng)新等提供了高效的數(shù)據(jù)支持服務(wù),避免了重復(fù)研究,促進(jìn)了跨學(xué)科的知識(shí)整合。這種整合對(duì)于形成各種科研活動(dòng)群體至關(guān)重要,它加快了各領(lǐng)域的科研進(jìn)程和知識(shí)生產(chǎn),提升了科學(xué)研究的社會(huì)價(jià)值。

此外,還可以通過(guò)分析檔案資源的用戶的數(shù)量、網(wǎng)站訪問(wèn)記錄、收藏和下載頻次、訪問(wèn)時(shí)間等,來(lái)研究資源的使用狀況,預(yù)測(cè)和評(píng)估科學(xué)研究的社會(huì)效益和經(jīng)濟(jì)效益等。這種分析能力為檔案管理提供了新的視角,幫助相關(guān)部門優(yōu)化服務(wù),提高效率。

3.3.2 創(chuàng)新科普教育方式。通過(guò)與教育行業(yè)的合作,采用AI技術(shù),如可視化技術(shù)、虛擬現(xiàn)實(shí)技術(shù)、AIGC等,結(jié)合科技檔案資源,生成和豐富科技場(chǎng)景中的細(xì)節(jié),如人物、對(duì)話、聲音等,增強(qiáng)沉浸感,將工程、生物、信息技術(shù)等領(lǐng)域的科技知識(shí)以生動(dòng)有趣的方式進(jìn)行傳遞,增強(qiáng)教學(xué)的真實(shí)性和啟發(fā)性,激發(fā)青少年及公眾對(duì)科技探索的興趣和動(dòng)力。例如,通過(guò)AIGC技術(shù),可以自動(dòng)生成復(fù)雜的虛擬環(huán)境和內(nèi)容、虛擬的角色和故事情節(jié),使得用戶體驗(yàn)更加個(gè)性化;通過(guò)AIGC與VR的結(jié)合,使學(xué)生能夠探索火星,配合AIGC生成的講解,增強(qiáng)對(duì)太空科學(xué)的興趣。

3.3.3 豐富檔案開(kāi)發(fā)方式。通過(guò)與科技創(chuàng)意產(chǎn)業(yè)等的合作,利用新媒體、社交網(wǎng)絡(luò)、VR(虛擬現(xiàn)實(shí))和AR(增強(qiáng)現(xiàn)實(shí))混合現(xiàn)實(shí)、空間音頻等前沿技術(shù),開(kāi)發(fā)基于科技檔案的文化產(chǎn)品,如影視作品、文創(chuàng)產(chǎn)品、互動(dòng)式檔案游戲及科技成果虛擬重現(xiàn)展覽展示等,為實(shí)現(xiàn)仿真式、交互式沉浸體驗(yàn)創(chuàng)造條件,在挖掘內(nèi)容深度和強(qiáng)化知識(shí)屬性的同時(shí),兼顧形式的多樣性、互動(dòng)性和可體驗(yàn)性,推動(dòng)科技傳播場(chǎng)景創(chuàng)新能力持續(xù)釋放,促進(jìn)科學(xué)普及跨媒介融合發(fā)展,提升科學(xué)研究的社會(huì)價(jià)值,為檔案數(shù)據(jù)的服務(wù)方式注入新活力,支持科技服務(wù)業(yè)態(tài)的升級(jí),推動(dòng)科技文化的傳承和創(chuàng)新。

4 面臨的挑戰(zhàn)

LLM能夠帶來(lái)檔案工作模式的革新,但也使檔案管理機(jī)構(gòu)在知識(shí)產(chǎn)權(quán)、信息安全、內(nèi)容質(zhì)量、工作人員等方面面臨新的挑戰(zhàn)。

4.1 AI生成內(nèi)容的知識(shí)產(chǎn)權(quán)還存在爭(zhēng)議??萍紮n案中可能包含受版權(quán)保護(hù)的材料,LLM生成的內(nèi)容是在人類與AI系統(tǒng)的交互中產(chǎn)生的,其知識(shí)產(chǎn)權(quán)的歸屬問(wèn)題目前仍是一個(gè)復(fù)雜且存在爭(zhēng)議的法律議題,主要的觀點(diǎn)有:歸屬于人類研發(fā)者或使用者、歸屬于機(jī)器、視為合作作品、按合同約定。當(dāng)前實(shí)踐中,用戶既享有輸出內(nèi)容的利益權(quán)利,也承擔(dān)著相應(yīng)的法律責(zé)任。[16]隨著技術(shù)進(jìn)步和法律實(shí)踐的發(fā)展,這一領(lǐng)域的規(guī)則和理解可能會(huì)繼續(xù)演變。

4.2 信息安全風(fēng)險(xiǎn)加劇。LLM在訓(xùn)練過(guò)程中可能攝入大量敏感或?qū)S行畔?,包括科技檔案中的專利細(xì)節(jié)、研究成果、商業(yè)機(jī)密等,如果模型安全措施不足,模型可能在生成響應(yīng)時(shí)意外泄露這些敏感信息,或者被設(shè)計(jì)精巧的提示注入攻擊所利用,從而導(dǎo)致數(shù)據(jù)泄露。同時(shí),AIGC技術(shù)的引入增加了檔案信息的復(fù)雜性與多樣性,AIGC能夠自動(dòng)生成文本、圖像、音頻等多種格式的檔案資料,這既使得識(shí)別和管控潛在的安全威脅變得更加困難,也增加了數(shù)據(jù)泄露以及被攻擊或誤操作的風(fēng)險(xiǎn)。

4.3 內(nèi)容質(zhì)量的評(píng)估有待加強(qiáng)。LLM生成的內(nèi)容是基于對(duì)歷史數(shù)據(jù)的學(xué)習(xí),缺乏人類獨(dú)有的情感深度與創(chuàng)新思維,所以就有可能生成涉及版權(quán)侵權(quán)、敏感信息或誤導(dǎo)性的信息,[17]這對(duì)檔案管理的嚴(yán)謹(jǐn)性與合法性就會(huì)構(gòu)成挑戰(zhàn)。在科技檔案應(yīng)用場(chǎng)景中,這種不準(zhǔn)確性可能會(huì)對(duì)科研工作、技術(shù)傳承或決策制定造成負(fù)面影響。同時(shí),在借助LLM對(duì)檔案數(shù)據(jù)挖掘開(kāi)發(fā)時(shí),還需要對(duì)數(shù)據(jù)開(kāi)發(fā)的經(jīng)濟(jì)價(jià)值、社會(huì)價(jià)值、學(xué)術(shù)價(jià)值等進(jìn)行評(píng)估,以確保成果價(jià)值的最大化及導(dǎo)向的正確性,滿足社會(huì)的實(shí)際需求。

4.4 對(duì)人員的人工智能素養(yǎng)要求更高。當(dāng)前LLM的使用漸漸融入了各個(gè)工作流程,使用AI的能力即人工智能素養(yǎng)變得愈加重要,[18]科技檔案工作人員不僅要精通傳統(tǒng)檔案管理知識(shí),更需要不斷提升自身的人工智能素養(yǎng),理解AI的基本概念,并知曉AI的應(yīng)用范圍和潛力,具備與AI系統(tǒng)有效溝通和協(xié)作的能力、AI倫理意識(shí)等,充分發(fā)揮人類和機(jī)器各自的優(yōu)勢(shì),以適應(yīng)數(shù)字化、智能化的科技檔案服務(wù)需求,實(shí)現(xiàn)更高效的任務(wù)執(zhí)行和問(wèn)題解決。

5 結(jié)語(yǔ)

LLM通過(guò)模擬人類語(yǔ)言理解與生成機(jī)制,能夠在海量數(shù)據(jù)中進(jìn)行高效的信息提取、語(yǔ)義分析和知識(shí)組織,為科技檔案的智能檢索、內(nèi)容摘要、自動(dòng)分類與標(biāo)簽生成等任務(wù)提供了強(qiáng)大支持,推動(dòng)科技檔案數(shù)據(jù)挖掘的效率提升、深度凸顯,激活科技檔案數(shù)據(jù)的潛在價(jià)值,也為學(xué)術(shù)研究、公共教育乃至政策規(guī)劃開(kāi)辟全新的視野。檔案管理相關(guān)部門要順應(yīng)數(shù)字化、智能化的發(fā)展趨勢(shì),抓住LLM技術(shù)的機(jī)遇,不斷創(chuàng)新科技檔案工作的模式,積極應(yīng)對(duì)所面臨的挑戰(zhàn),為推動(dòng)檔案事業(yè)及全社會(huì)新質(zhì)生產(chǎn)力的發(fā)展提供有力支撐。

本文系國(guó)家社科基金一般項(xiàng)目“基于全文本計(jì)量分析的卓越學(xué)術(shù)論文早期識(shí)別研究”(項(xiàng)目編號(hào):23BTQ057)階段性研究成果。

參考文獻(xiàn):

[1]潘亞男.新時(shí)期科技檔案工作的新變化與新問(wèn)題:基于中國(guó)科學(xué)院科技檔案實(shí)踐的思考[J].圖書(shū)情報(bào)工作,2022,66(01):106-111.

[2]蔡盈芳.論新質(zhì)生產(chǎn)力與科技檔案工作[J].中國(guó)檔案,2024(04):8-9.

[3]牛力,金持,黎安潤(rùn)澤.大模型在檔案工作數(shù)智轉(zhuǎn)型中的應(yīng)用:新機(jī)遇、新模式和新轉(zhuǎn)變[J/OL].檔案學(xué)通訊:1-11.

[4]張丹.大語(yǔ)言模型與檔案資源開(kāi)發(fā):前景、挑戰(zhàn)與應(yīng)對(duì)[J].山西檔案,2023(05):108-111.

[5]王蘇軍,陳清云,蓋峻梅.基于大數(shù)據(jù)背景的醫(yī)院檔案工作探析[J].檔案與建設(shè),2019(07):61-62+56.

[6]加小雙,張斌.歐美科技檔案管理的經(jīng)驗(yàn)借鑒[J].檔案學(xué)研究,2016(01):25-31.

[7]韓旭,孫亞偉,趙璐.體系化人工智能與大語(yǔ)言模型在智能情報(bào)場(chǎng)景中的應(yīng)用[J/OL].北京郵電大學(xué)學(xué)報(bào):1-9.

[8]劉學(xué)博,戶保田,陳科海,等.大模型關(guān)鍵技術(shù)與未來(lái)發(fā)展方向:從ChatGPT談起[J].中國(guó)科學(xué)基金,2023,37(05):758-766.

[9]付永華,張文欣,司俊勇.ChatGPT影響下的人工智能檔案服務(wù):突破與挑戰(zhàn)[J].檔案管理,2023(03):58-61.

[10]孔媛媛,張舒,王愛(ài).大數(shù)據(jù)背景下檔案信息服務(wù)體系構(gòu)建方法探析[J].檔案與建設(shè),2021(05):59-62.

[11]周林興,殷名.知識(shí)發(fā)現(xiàn)、復(fù)用與再生產(chǎn):一種智慧檔案館的知識(shí)管理視角[J].檔案管理,2024(02):42-47.

[12]張曉林.Library-Inside:AI賦能圖書(shū)館新質(zhì)生產(chǎn)力的一種基礎(chǔ)模型[J].中國(guó)圖書(shū)館學(xué)報(bào),2024,50(03):4-16.

[13]陳嘉鈺.智慧檔案館數(shù)據(jù)化管理功能的實(shí)現(xiàn)[J].檔案管理,2021(01):57-58.

[14]伍薇.基于CNN卷積神經(jīng)網(wǎng)絡(luò)的企業(yè)電子檔案分類法研究[J].山西檔案,2018(05):83-85.

[15]楊晶晶.生成式人工智能在檔案數(shù)字場(chǎng)景中的應(yīng)用研究[J].浙江檔案,2024(01):45-47+54.

[16]王黎螢,趙春苗,王舉鐸,等.知識(shí)產(chǎn)權(quán)與標(biāo)準(zhǔn)協(xié)同推進(jìn)人工智能產(chǎn)業(yè)創(chuàng)新機(jī)制與路徑優(yōu)化[J].科學(xué)學(xué)與科學(xué)技術(shù)管理,2024,45(04):52-67.

[17]陳艷紅,李健.新一代人工智能生成內(nèi)容檔案身份的認(rèn)定風(fēng)險(xiǎn)及規(guī)制研究:基于對(duì)ChatGPT生成內(nèi)容的思考[J].檔案學(xué)研究,2023(05):4-12..

[18]WONG G,MA X,DILLENBOURG P,et al.Broadeningartificial intelligence education in K-12:Where tostart?[J].ACM Inroads,2020,(01):20-29.

(作者單位:商丘師范學(xué)院信息技術(shù)學(xué)院 王建品,博士,講師,電子商務(wù)系主任 來(lái)稿日期:2024-07-18)