国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于高階神經(jīng)網(wǎng)絡(luò)的檔案排序檢索方法*

2022-08-26 07:45:04劉莎
山西檔案 2022年3期
關(guān)鍵詞:檔案文件信息檢索高階

劉莎

(晉中師范高等??茖W(xué)校 晉中 030600)

0 引言

信息檢索是將數(shù)據(jù)集中的信息以某種方式組織并按照用戶需求將相關(guān)信息查找出來的過程,其中相關(guān)性是一個核心研究課題[1][2][3],相關(guān)性是指用戶需求與檢索結(jié)果之間的匹配關(guān)系,這種匹配關(guān)系可能是多維的、動態(tài)的、復(fù)雜的、可度量的,信息檢索的實質(zhì)是信息過濾。檔案信息檢索是按照用戶需求在大量檔案中查找相關(guān)性較大的文件和相關(guān)信息,檔案描述及其索引是檔案信息檢索的基礎(chǔ)[4],檔案描述是在檔案中提取所需的索引信息并記錄它;檔案索引是在檔案描述過程中對檔案的語境和主題進行分析和選擇,并通過概念轉(zhuǎn)換提供標(biāo)準(zhǔn)化的語言,索引揭示了檔案的分類屬性和主題,為檔案檢索提供了一種途徑[5]。

在檢索方法方面,大量相關(guān)文獻集中在通過組織信息源的方式提高檢索性能,這些方法可以分為兩類,檢索工具的構(gòu)建和語義信息的擴展。在檢索工具的構(gòu)建方面,Silvia S.K.討論了以色列檔案館面臨的問題,包括檢索工具的構(gòu)建和綜合詞典的構(gòu)建[6],Silvia還研究了通過使用同義詞典索引從元數(shù)據(jù)和檔案的內(nèi)容中搜索信息。本文在Silvia研究基礎(chǔ)上,提出基于ISAD和ISAAR構(gòu)建檔案描述與信息檢索系統(tǒng)。Ushasi Chaudhuri尋求在某些機構(gòu),如文化遺產(chǎn)機構(gòu),促進信息目標(biāo)的檢索[7],牛金鳳基于事件的信息組織方法分析了事件與功能的區(qū)別,討論了使用事件作為組織和描述檔案信息的來源;并重新設(shè)計了兩種描述歸檔元數(shù)據(jù)的方法。

語義技術(shù)的擴展一直是信息檢索研究的熱點之一,馬仁杰等研究了檔案檢索上下文分類在門戶或內(nèi)部網(wǎng)絡(luò)發(fā)展中的適應(yīng)性,旨在整個信息產(chǎn)業(yè)中建立更強的跨學(xué)科關(guān)系,促進信息檢索學(xué)科的發(fā)展[8][9][10]。房小可等指出了電子檔案系統(tǒng)檔案分類的缺點,呼吁通過捕獲檔案來源的語義信息擴展來擴展檔案分類定義,打破基于紙張的檔案保留規(guī)則的約束,提高信息檢索的效率,實現(xiàn)檔案文件記錄、保存、檔案實踐轉(zhuǎn)換的項目級管理[11][12][13]。張海濤提出了一個基于可擴展標(biāo)記語言的檔案信息系統(tǒng)協(xié)作框架。該框架在EAC-CPF特性的基礎(chǔ)上,利用EAC-CPF共享上下文和權(quán)限記錄,促進用戶與互聯(lián)網(wǎng)的互動體驗;支持輔助導(dǎo)航和主題映射,并提供一個語義豐富的訪問層,以確保不同檔案的位置[14]。Cao xin等回顧本體論理論的內(nèi)容,包括該方法的采用、構(gòu)建、檢索及其在語義上下文中的應(yīng)用,提出的本體論方法對政府和機構(gòu)檔案工作具有很好的指導(dǎo)意義[15]。

信息檢索的目的是向信息用戶提供搜索結(jié)果。然而,在檔案信息化、數(shù)字化的背景下,檔案檢索結(jié)果內(nèi)容龐大,信息用戶難以遍歷所有的結(jié)果,其關(guān)鍵問題是檢索方法不好[16][17][18]。針對這個問題,本文構(gòu)建了一種用于檔案信息檢索的高階神經(jīng)網(wǎng)絡(luò)模型,可以有效地過濾影響檢索結(jié)果可讀性的冗余信息,提高檢索效率。此外,傳統(tǒng)檔案檢索方法中很少有對檢索結(jié)果進行重要性排序的設(shè)計思想,信息用戶仍需處理大量檢索結(jié)果,降低了工作效率,本文建立了符合高階神經(jīng)網(wǎng)絡(luò)模型并按照用戶檢索條件和要求對檢索結(jié)果自適應(yīng)排序的算法模型。本文共分為四個部分:第一部分闡述了檔案信息檢索發(fā)展的最新動態(tài)和現(xiàn)存方法存在的不足;第二部分介紹了高階神經(jīng)網(wǎng)絡(luò)模型的通用框架,并在此基礎(chǔ)上構(gòu)建了基于高階神經(jīng)網(wǎng)絡(luò)模型的檔案檢索算法;第三部分說明了數(shù)據(jù)來源和實驗方案,并將提出的方法與傳統(tǒng)方法進行了對比分析;第四部分對本文進行了總結(jié)。

1 模型與算法

1.1 高階神經(jīng)網(wǎng)絡(luò)模型

神經(jīng)網(wǎng)絡(luò)模型善于處理復(fù)雜的非線性問題,近年來得到了廣泛應(yīng)用,一般神經(jīng)網(wǎng)絡(luò)模型是通過增加神經(jīng)元個數(shù)滿足強線性化映射要求,神經(jīng)元的增加會提高網(wǎng)絡(luò)模型的訓(xùn)練成本,而且不利于改善泛化能力。為了突破一般神經(jīng)網(wǎng)絡(luò)模型中只能通過神經(jīng)元與神經(jīng)元之間相互連接表達映射關(guān)系的局限性,進一步提高神經(jīng)網(wǎng)絡(luò)性能,研究人員在網(wǎng)絡(luò)模型中加入了類似生物神經(jīng)系統(tǒng)的超微結(jié)構(gòu)并利用數(shù)學(xué)方法描述形成了高階神經(jīng)網(wǎng)絡(luò)模型。積單元高階神經(jīng)網(wǎng)絡(luò)是高階神經(jīng)網(wǎng)絡(luò)的一種,它可以被看作是帶有隱藏層的前饋神經(jīng)網(wǎng)絡(luò),隱藏層中的神經(jīng)元是輸入節(jié)點不同階數(shù)的積,這種結(jié)構(gòu)既保留了前饋神經(jīng)網(wǎng)絡(luò)收斂速度快的優(yōu)點,又具有較強的存儲能力和高度的非線性映射能力。積單元高階神經(jīng)網(wǎng)絡(luò)包含輸入層、隱藏層和輸出層,其中隱藏層由輸入層節(jié)點乘積組成,輸出層則由求和得到,其網(wǎng)絡(luò)模型結(jié)構(gòu)如圖1所示:

圖1 高階神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖

綜上所述,一般的高階神經(jīng)元網(wǎng)絡(luò)模型具有以下特點:

(1)輸入節(jié)點可以是多維的,網(wǎng)絡(luò)結(jié)構(gòu)是一個固定的三層網(wǎng)絡(luò)(包括輸入層)。

(2)高階神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元采用一般的計算公式,這個公式由代表不同含義的 參數(shù)組成;每個神經(jīng)元可以根據(jù)不同的需要選擇不同的參數(shù),在多維空間中顯示不同的超表面形狀。

(3)神經(jīng)網(wǎng)絡(luò)不再由單個神經(jīng)元模型組成,同一個神經(jīng)元可以形成特定的功能模塊來解決特定的問題,幾個功能模塊可以形成一個復(fù)雜的神經(jīng)網(wǎng)絡(luò)來解決復(fù)雜的問題,就像生物神經(jīng)細(xì)胞的不同形狀和功能,使得神經(jīng)網(wǎng)絡(luò)模型的構(gòu)建更加靈活和方便。

(4)高階神經(jīng)元通常只對輸入空間局部敏感。這意味著只有當(dāng)輸入向量落在輸入空間的特定區(qū)域時,高階神經(jīng)元才能產(chǎn)生非零響應(yīng)。

(5)高階神經(jīng)元對輸入與中心的廣義距離進行非線性變換,這種非線性變換是可調(diào)的。

1.2 檔案檢索的過濾策略

檔案信息檢索的實質(zhì)就是過濾掉相關(guān)性小的檔案文件,然而,對于檢索用戶來說,在數(shù)量巨大的檔案文件中檢索結(jié)果仍然太多,更重要的是,這些檢索結(jié)果中很多是冗余信息和重復(fù)文件。因此,需要設(shè)計二次過濾策略以進一步減少減少結(jié)果,提高檢索效率,提供價值密度更高的檢索服務(wù)。檔案文件檢索一般分為卷級檢索和文檔級檢索,本文以檔案文檔為例說明基于高階神經(jīng)網(wǎng)絡(luò)模型的二次過濾策略。

步驟1:檔案文件訓(xùn)練樣本作為高階神經(jīng)網(wǎng)絡(luò)模型的輸入,質(zhì)量受到檔案整理者的語言表達能力和專業(yè)技能等各種因素影響,其中專業(yè)技能包括檔案描述水平,檔案描述標(biāo)準(zhǔn),檔案分類知識,檔案信息與檔案文件的一致性等。根據(jù)樣本質(zhì)量設(shè)置相應(yīng)權(quán)重訓(xùn)練網(wǎng)絡(luò)模型,以提高模型精度。

步驟2:衡量模型優(yōu)劣的兩個指標(biāo)是泛化能力和訓(xùn)練實時性,為了提高泛化能力和檢索精準(zhǔn)度,要以最小信息損失為原則;為了提高訓(xùn)練實時性,模型要盡可能減小計算量,高階神經(jīng)網(wǎng)絡(luò)模型的計算量很大程度上取決于模型階數(shù),因此要最大程度降低模型階數(shù);只有在同時兼顧這兩方面的基礎(chǔ)上,才能設(shè)計出理想結(jié)構(gòu)的模型,并最終確定神經(jīng)元個數(shù)和模型階數(shù)。

步驟3:在檔案信息化和數(shù)字化背景下,檔案檢索對象往往具有較大的文件個數(shù)和內(nèi)容容量,二次過濾對檔案信息檢索質(zhì)量具有重要作用。本文利用高維空間上的廣義距離代表相關(guān)性,為輸出層不同神經(jīng)元分別設(shè)置相關(guān)性閾值和激勵函數(shù)。相關(guān)性很大代表信息冗余,相關(guān)性很小代表信息價值低;而不同閾值是根據(jù)檢索用戶需求確定,反映用戶實際需求。

1.3 檔案檢索的排序方法

2 實驗結(jié)果與分析

2.1 數(shù)據(jù)集與實驗方案

在學(xué)校網(wǎng)站采集近10年來共5000條各類通知公告和新聞稿等,按照業(yè)務(wù)類型分成教學(xué)類、科研類、招生就業(yè)類、交流合作類、綜合類等5類文檔,教學(xué)類關(guān)鍵詞包括“教師”和“課程“,科研類關(guān)鍵詞包括“項目”和“申報”,招生就業(yè)類關(guān)鍵詞包括“考試”和“招聘”,交流合作類關(guān)鍵詞為“講座”,綜合類關(guān)鍵詞包括“公示”、“通知”和“會議”,如表1所示。

表1 檔案文檔分類和關(guān)鍵詞情況

假設(shè)檔案文檔的方向權(quán)重值分別為:

其中W11和W12分別表示教學(xué)類關(guān)鍵詞“教師”和“課程“的方向權(quán)重值;W21,W22分別表示科研類關(guān)鍵詞“項目”和“申報”的方向權(quán)重值;W31,W32為招生就業(yè)類鍵詞“考試”和“招聘”的方向權(quán)重值;W41為交流合作類關(guān)鍵詞“講座”的方向權(quán)重值;W51,W52和W53為綜合類關(guān)鍵詞“公示”、“通知”和“會議”的方向權(quán)重值。

2.2 實驗結(jié)果

通過CG方法、DCG方法、NDCG方法和本文提出的高階神經(jīng)網(wǎng)絡(luò)方法對樣本數(shù)據(jù)集進行類別區(qū)分,得到的結(jié)果如表2所示。

從表2中可以看出,各種類別文檔的分類準(zhǔn)確率都是提出方法最高,NDCG方法次之,DCG方法再次之,CG方法最差,這是因為檔案文檔之間本身是由相關(guān)性的,這些相關(guān)性通過描述越多,分類準(zhǔn)確率越高,而提出的基于高階神經(jīng)網(wǎng)絡(luò)方法可以更好的表達各種層次的非線性關(guān)系,從而獲得了最高的準(zhǔn)確率??v向來看,教學(xué)類和交流合作類的準(zhǔn)確率高于其它類別,這是因為這兩類文檔跟其它類文檔的相關(guān)性小,相對獨立,更容易分類。

通過CG方法、DCG方法、NDCG方法和本文提出的高階神經(jīng)網(wǎng)絡(luò)方法對樣本數(shù)據(jù)集進行更為細(xì)致的關(guān)鍵詞和類別判斷,得到的結(jié)果如表3所示。

表3 類別和關(guān)鍵詞的分類準(zhǔn)確率

從表3中可以看出,分類準(zhǔn)確率基本是各類關(guān)鍵詞的平均值,說明這幾個關(guān)鍵詞較準(zhǔn)確表達檔案文本的特征,10類關(guān)鍵詞的分類準(zhǔn)確率依然是提出方法最高,NDCG方法次之,DCG方法再次之,CG方法最低,說明高階神經(jīng)網(wǎng)絡(luò)在關(guān)鍵詞分類上也具有良好的描述和表達能力。

3 總結(jié)

首先,對現(xiàn)有的檔案檢索技術(shù)進行了分析,并指出它們的優(yōu)缺點,通過對檢索技術(shù)的深入研究,發(fā)現(xiàn)關(guān)鍵詞的相關(guān)度對信息檢索結(jié)果的排名具有重要作用,提出基于高階神經(jīng)網(wǎng)絡(luò)的檔案文件檢索方法,豐富了一種檔案及信息檢索技術(shù)模型。該方法通過計算檔案文件的中心權(quán)值和方向權(quán)值并在高階神經(jīng)網(wǎng)絡(luò)模型中進行訓(xùn)練,有效解決了信息檢索的查詢結(jié)構(gòu)問題,優(yōu)化了檢索過程,提高了信息獲取效率和準(zhǔn)確率。然后,將關(guān)聯(lián)算法應(yīng)用到學(xué)校網(wǎng)站采集的5000份檔案文件中,提高了檔案檢索過程的智能化和高效性,為開展檔案信息管理的信息化建設(shè)提供了良好的范例。最后,將本文的檔案檢索算法與現(xiàn)有的三種檢索方法進行了比較,并對實驗結(jié)果進行了分析和評價,驗證了本文提出方法的有效性,本文提出的檔案信息檢索方法具有很高的實用價值,可推廣到其它信息檢索領(lǐng)域,具有很大的拓展空間。

猜你喜歡
檔案文件信息檢索高階
有限圖上高階Yamabe型方程的非平凡解
檔案文件的數(shù)字化管理在企業(yè)中的相對重要性
高階各向異性Cahn-Hilliard-Navier-Stokes系統(tǒng)的弱解
探析檔案文件資料收集工作面臨的問題及對策
卷宗(2020年25期)2020-12-15 06:58:15
滾動軸承壽命高階計算與應(yīng)用
哈爾濱軸承(2020年1期)2020-11-03 09:16:02
檔案信息化建設(shè)在醫(yī)院檔案文件管理中的積極影響
醫(yī)學(xué)期刊編輯中文獻信息檢索的應(yīng)用
新聞傳播(2016年18期)2016-07-19 10:12:06
基于神經(jīng)網(wǎng)絡(luò)的個性化信息檢索模型研究
基于Bernstein多項式的配點法解高階常微分方程
教學(xué)型大學(xué)《信息檢索》公選課的設(shè)計與實施
河南科技(2014年11期)2014-02-27 14:10:19
朝阳市| 克拉玛依市| 冀州市| 武城县| 黄龙县| 扎鲁特旗| 鹿邑县| 扎兰屯市| 曲水县| 葫芦岛市| 湄潭县| 福清市| 河北省| 黄梅县| 武鸣县| 阿拉尔市| 龙南县| 蓬莱市| 兴宁市| 万源市| 会东县| 津南区| 夏河县| 宜君县| 皮山县| 惠水县| 沾化县| 宁城县| 长武县| 莱芜市| 乌兰察布市| 长宁区| 台东县| 万载县| 仁布县| 二连浩特市| 巫溪县| 高雄市| 南丰县| 镇赉县| 新巴尔虎右旗|