国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

人工智能服務(wù)的科技情報(bào)信息收集與處理優(yōu)化研究

2024-07-17 00:00:00王倫
科技資訊 2024年10期

摘要:研究比較了循環(huán)神經(jīng)網(wǎng)絡(luò)系列算法以及自然語言處理等多個(gè)算法在PennTreebank數(shù)據(jù)集上的表現(xiàn),采用ROUGE得分作為評(píng)價(jià)指標(biāo)。結(jié)果顯示,自然語言處理模型在自動(dòng)摘要任務(wù)上表現(xiàn)最佳,能夠生成更準(zhǔn)確、更全面的摘要。此外,在不同類型的數(shù)據(jù)中,基于自然語言處理技術(shù)的人工智能抽取方法也表現(xiàn)出較高的抽取準(zhǔn)確率,優(yōu)于傳統(tǒng)方法。這表明自然語言處理在科技情報(bào)信息收集與處理領(lǐng)域具有顯著優(yōu)勢(shì)。

關(guān)鍵詞:人工智能科技情報(bào)收集與處理自然語言處理

ResearchontheOptimizationoftheCollectionandProcessingofScientificandTechnologicalIntelligenceInformationBasedonArtificialIntelligenceServices

WANGLun

NeijiangInstituteofScientificandTechnologicalInformationandNewTechnologyDevelopment,Neijiang,SichuanProvince,641000China

Abstract:Thispapercomparestheperformanceofmultiplealgorithmssuchastheserialalgorithmofrecurrentneuralnetworksandnaturallanguageprocessing(NLP)onthePennTreebankdataset,andusestheROUGEscoreastheevaluationindex.ResultsshowthattheNLPmodelperformsbestontheautomaticsummarytask,whichcangeneratemoreaccurateandcomprehensivesummaries.Inaddition,indifferenttypesofdata,theAIextractionmethodbasedonNLPtechnologyalsoshowshighextractionaccuracyandisbetterthantraditionalmethods,whichshowsthatNLPhassignificantadvantagesinthefieldofthecollectionandprocessingofscientificandtechnologicalintelligenceinformation.

KeyWords:Artificialintelligence;Scientificandtechnologicalintelligence;Collectionandprocessing;NaturalLanguageProcessing

近年來,隨著人工智能技術(shù)的迅猛發(fā)展,特別是自然語言處理(NaturalLanguageProcessing,NLP)技術(shù)的不斷創(chuàng)新,科技情報(bào)的收集與處理迎來了新的機(jī)遇[1]。當(dāng)前,研究者們正積極探索如何利用人工智能(ArtificialIntelligence,AI)技術(shù)優(yōu)化情報(bào)收集與處理流程。其中,基于NLP技術(shù)的AI抽取方法備受關(guān)注。該方法能夠自動(dòng)執(zhí)行數(shù)據(jù)清洗與標(biāo)準(zhǔn)化任務(wù),有效識(shí)別并鏈接文本中的關(guān)鍵實(shí)體至知識(shí)圖譜,進(jìn)而精準(zhǔn)抽取實(shí)體間的復(fù)雜關(guān)系[2]。研究旨在進(jìn)一步驗(yàn)證NLP技術(shù)在科技情報(bào)信息收集與處理優(yōu)化領(lǐng)域的顯著優(yōu)勢(shì)。通過引入循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)系列算法、正規(guī)化梯度下降算法(DescentRegularizedGradientDescent,DRGD)以及網(wǎng)絡(luò)的加權(quán)進(jìn)化算法(WeightedEvolutionaryAlgorithmforNetworks,WEAN)進(jìn)行對(duì)比試驗(yàn),并采用ROUGE得分作為評(píng)價(jià)指標(biāo),全面評(píng)估各算法在自動(dòng)摘要任務(wù)上的性能。同時(shí),本研究還將探討基于NLP技術(shù)的AI抽取方法在不同數(shù)據(jù)類型中的抽取準(zhǔn)確率變化情況。期望通過本研究,為科技情報(bào)信息收集與處理提供更高效、更準(zhǔn)確的解決方案,推動(dòng)情報(bào)工作的整體效率和質(zhì)量提升。

1基于AI技術(shù)的科技情報(bào)信息收集與處理

1.1AI在科技情報(bào)信息收集與處理中的優(yōu)勢(shì)

在科技情報(bào)收集過程中,信息分散且多樣化,源自新聞報(bào)道、學(xué)術(shù)期刊、專利數(shù)據(jù)庫、企業(yè)報(bào)告等不同渠道,其格式、質(zhì)量和詳細(xì)程度差異顯著,為情報(bào)分析帶來了顯著挑戰(zhàn)。然而,AI技術(shù)在此領(lǐng)域彰顯了其強(qiáng)大潛能。它能自動(dòng)執(zhí)行數(shù)據(jù)清洗與標(biāo)準(zhǔn)化任務(wù),有效剔除重復(fù)、錯(cuò)誤或無關(guān)數(shù)據(jù),并統(tǒng)一格式,優(yōu)化后續(xù)分析流程[3]。同時(shí),借助自然語言處理中的命名實(shí)體識(shí)別技術(shù),AI識(shí)別并鏈接文本中的關(guān)鍵實(shí)體至知識(shí)圖譜的相應(yīng)節(jié)點(diǎn),橋接不同信息源。AI還能精準(zhǔn)抽取并構(gòu)建實(shí)體間的復(fù)雜關(guān)系,如合作、競(jìng)爭(zhēng)和技術(shù)關(guān)聯(lián),甚至通過規(guī)則推理或機(jī)器學(xué)習(xí)揭示隱藏關(guān)系,從而顯著提升情報(bào)的豐富度和深度。在知識(shí)圖譜構(gòu)建與維護(hù)方面,AI可以構(gòu)建一個(gè)包含多個(gè)信息源知識(shí)的知識(shí)圖譜。

1.2基于NLP的知識(shí)圖譜關(guān)系型數(shù)據(jù)抽取與分類

完成RPA參數(shù)設(shè)定后,利用NLP模型對(duì)知識(shí)圖譜關(guān)系型數(shù)據(jù)進(jìn)行分類。關(guān)系型數(shù)據(jù)的分類可以更好地理解和組織知識(shí)圖譜中的關(guān)系,從而支持更精確地查詢和分析。抽取NLP知識(shí)圖譜數(shù)據(jù)的過程主要分為以下幾個(gè)步驟:首先,選擇中層鍵值與外鍵關(guān)系數(shù)據(jù)作為樣本,以獲取實(shí)體之間的關(guān)聯(lián)信息[4];其次,逐一抽取實(shí)體圖譜數(shù)據(jù),并從中提取構(gòu)成元素,如字節(jié)、區(qū)間、配置等;最后,通過建立外鍵列-主鍵列的緩存,抽取實(shí)體之間的關(guān)系數(shù)據(jù)。同時(shí),根據(jù)中層鍵值表中屬性特征、空間特征,時(shí)間特征等實(shí)體數(shù)據(jù)的特征,并檢索匹配的特征。此外,還需抽取字段配置數(shù)據(jù)。為了保證數(shù)據(jù)的完整性和準(zhǔn)確性,需要從實(shí)體關(guān)系中抽取對(duì)應(yīng)的字段。最后,對(duì)抽取的數(shù)據(jù)進(jìn)行驗(yàn)證與整合,確保數(shù)據(jù)符合要求。

知識(shí)圖譜關(guān)系型數(shù)據(jù)AI抽取結(jié)構(gòu)是一個(gè)復(fù)雜而精細(xì)的系統(tǒng),它涵蓋了多個(gè)關(guān)鍵組件,共同協(xié)作以實(shí)現(xiàn)從多源信息中高效、準(zhǔn)確地抽取和整合知識(shí)[5]。AI抽取是整個(gè)系統(tǒng)的動(dòng)力源泉,負(fù)責(zé)自動(dòng)化地從原始數(shù)據(jù)中識(shí)別和提取關(guān)鍵信息。它利用先進(jìn)的機(jī)器學(xué)習(xí)算法和自然語言處理技術(shù),能夠處理各種格式和類型的數(shù)據(jù),無論是結(jié)構(gòu)化,還是非結(jié)構(gòu)化的。實(shí)體數(shù)據(jù),這是知識(shí)圖譜的基礎(chǔ)構(gòu)建塊。實(shí)體可以是人、地點(diǎn)、組織、事件或其他任何可以被明確識(shí)別和定義的事物。AI抽取系統(tǒng)從文本中識(shí)別出這些實(shí)體,并為每個(gè)實(shí)體創(chuàng)建唯一的標(biāo)識(shí)符。外鍵實(shí)體,這些實(shí)體在知識(shí)圖譜中扮演連接不同數(shù)據(jù)點(diǎn)的橋梁角色。外鍵實(shí)體的存在使得知識(shí)圖譜能夠形成一個(gè)豐富而互聯(lián)的網(wǎng)絡(luò)。字段配置,是定義如何存儲(chǔ)和處理實(shí)體數(shù)據(jù)的關(guān)鍵環(huán)節(jié)。字段配置指定了每個(gè)實(shí)體屬性的數(shù)據(jù)類型、格式和約束條件,確保數(shù)據(jù)的一致性和準(zhǔn)確性。

2模型對(duì)比分析與性能測(cè)試

為了驗(yàn)證自然語言處理(NLP)在科技情報(bào)信息收集與處理優(yōu)化領(lǐng)域的顯著優(yōu)勢(shì),實(shí)驗(yàn)引入了循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrentneuralnetwork,RNN)系列算法、W型基于上下文的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN-context(W))、C型基于上下文的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN-context(C))、分布式隨機(jī)梯度下降(DistributedRandomGradientDescen,DRGD)以及網(wǎng)絡(luò)加權(quán)進(jìn)化算法(WeightedEvolutionaryAlgorithmforNetworks,WEAN),并將它們與NLP在PennTreebank(PTB)數(shù)據(jù)集上的表現(xiàn)進(jìn)行了全面比較。為確保評(píng)估的客觀性和準(zhǔn)確性,研究采用了ROUGE得分作為評(píng)價(jià)指標(biāo),這是一種基于召回率(Recall)的自動(dòng)摘要任務(wù)評(píng)估方法,實(shí)驗(yàn)結(jié)果如表1所示

表1展示了不同模型在ROUGE評(píng)價(jià)指標(biāo)下的得分情況,包括R-1、R-2和R-L指標(biāo)。這些模型分別是RNN、RNN-context(W)、RNN-context(C)、DRGD、WEAN和NLP。RNN作為基礎(chǔ)模型,其ROUGE得分相對(duì)較低。DRGD和WEAN算法相對(duì)于RNN算法在ROUGE得分上有較大提升,尤其是在R-1和R-L指標(biāo)上。這表明這兩種算法在自動(dòng)摘要任務(wù)上具有更好的性能,能夠生成更準(zhǔn)確的摘要。NLP模型在所有模型中取得了最高的ROUGE得分。此外,實(shí)驗(yàn)還在結(jié)構(gòu)化數(shù)據(jù)庫數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、三元組數(shù)據(jù)、本體和語義網(wǎng)數(shù)據(jù)中測(cè)試了NPL模型和表現(xiàn)較好的WEAN模型的抽取準(zhǔn)確率變化情況,實(shí)驗(yàn)結(jié)果如圖1所示。

從圖1展示的結(jié)構(gòu)化數(shù)據(jù)庫數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、三元組數(shù)據(jù)、本體和語義網(wǎng)數(shù)據(jù)4種條件下的知識(shí)圖譜關(guān)系型數(shù)據(jù)抽取效果來看,研究提出的采用NLP技術(shù)的AI抽取方法在各種數(shù)據(jù)類型中都表現(xiàn)出了較高的抽取準(zhǔn)確率。具體而言,在結(jié)構(gòu)化數(shù)據(jù)庫數(shù)據(jù)中,該方法的平均抽取準(zhǔn)確率達(dá)到了95.1%,比WEAN模型高出了10個(gè)百分點(diǎn)。這表明在處理結(jié)構(gòu)化數(shù)據(jù)時(shí),基于NLP技術(shù)的AI抽取方法能夠更準(zhǔn)確地識(shí)別和提取關(guān)鍵信息。在半結(jié)構(gòu)化數(shù)據(jù)中,雖然抽取準(zhǔn)確率出現(xiàn)了小幅度的波動(dòng),但平均仍然達(dá)到了93.2%,且相比WEAN模型波動(dòng)更小、準(zhǔn)確率更高。雖然WEAN抽取方法和本文提出的基于NLP技術(shù)的AI抽取方法在準(zhǔn)確性上都存在一定的波動(dòng),但整體上看,研究所提方法的抽取效果都優(yōu)于傳統(tǒng)方法。

3結(jié)論

AI技術(shù)在科技情報(bào)信息收集與處理優(yōu)化領(lǐng)域具有巨大的潛力和優(yōu)勢(shì)。實(shí)驗(yàn)結(jié)果表明,基于NLP技術(shù)的知識(shí)圖譜關(guān)系型數(shù)據(jù)抽取與分類方法能夠高準(zhǔn)確地提取關(guān)鍵信息和構(gòu)建實(shí)體之間的復(fù)雜關(guān)系,有助于理解和組織知識(shí)圖譜中的關(guān)系,支持精確的查詢和分析。AI抽取結(jié)構(gòu)涵蓋了多個(gè)關(guān)鍵組件,如AI抽取、實(shí)體數(shù)據(jù)、外鍵實(shí)體、字段配置和NLP知識(shí)圖譜庫等,共同協(xié)作以實(shí)現(xiàn)從多源信息中高效、準(zhǔn)確地抽取和整合知識(shí)。因此,AI技術(shù)在科技情報(bào)信息收集與處理中具有重要的應(yīng)用前景,對(duì)于應(yīng)對(duì)復(fù)雜多變的科技環(huán)境和信息時(shí)代的挑戰(zhàn)具有強(qiáng)有力的支持作用。

參考文獻(xiàn)

[1]范俊軍,沐華.我國低資源語言大規(guī)模數(shù)據(jù)建構(gòu)及語言田野實(shí)踐的數(shù)據(jù)轉(zhuǎn)向[J].云南師范大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2023,55(6):25-35.

[2]羅錦釗,孫玉龍,錢增志,等.人工智能大模型綜述及展望[J].無線電工程,2023,53(11):2461-2472.

[3]CHANGA,JESKEL,ULBRICHS,etal.theELIXIRcoredataresourcein2021:newdevelopmentsandupdates[J].NucleicAcidsResearch,2021,49(D1):D498-D508.

[4]紅彩.人工智能賦能的公安情報(bào)流程研究[D].北京:中國人民公安大學(xué),2023.

[5]陳婷婷.人工智能融入市域社會(huì)治理問題研究[D].南昌:南昌大學(xué),2022.

威远县| 鱼台县| 太白县| 晋城| 马公市| 黔西县| 宝丰县| 栾城县| 田阳县| 石渠县| 伊宁县| 建阳市| 巴中市| 阿勒泰市| 苏尼特左旗| 龙州县| 贵南县| 河北省| 牙克石市| 镇赉县| 邢台市| 昌吉市| 崇信县| 庆城县| 濮阳县| 襄樊市| 滁州市| 吉木乃县| 九江县| 城步| 公安县| 和田县| 德清县| 绵阳市| 阿鲁科尔沁旗| 基隆市| 新余市| 南澳县| 庆云县| 滨州市| 雷波县|