国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于人機(jī)交互的數(shù)字圖書相關(guān)聯(lián)查詢系統(tǒng)設(shè)計(jì)

2022-02-13 10:00蘭小紅
現(xiàn)代電子技術(shù) 2022年2期
關(guān)鍵詞:數(shù)字圖書查全率文檔

張 鑫,蘭小紅

(1.江蘇科技大學(xué),江蘇 張家港 215600;2.江蘇科技大學(xué)蘇州理工學(xué)院,江蘇 張家港 215600)

0 引言

在圖書館數(shù)字化技術(shù)發(fā)展的推動(dòng)下,借書產(chǎn)生的數(shù)據(jù)量增大,數(shù)據(jù)種類越來越多,信息更新速度也越來越快,數(shù)字圖書資源呈現(xiàn)爆炸式增長趨勢(shì)。同時(shí),高??蒲腥藛T對(duì)圖書查詢信息的要求也越來越高,體現(xiàn)在其針對(duì)性和實(shí)時(shí)性較強(qiáng),需求種類較多。人們不再是僅需要了解圖書的基本信息,而是需要通過相關(guān)數(shù)據(jù),方便地獲得圖書目錄的權(quán)威分析,從而更準(zhǔn)確、快速地找到科研所需的相關(guān)資源。在實(shí)時(shí)性方面,要求在短時(shí)間內(nèi)滿足當(dāng)下最新的信息需求?,F(xiàn)代圖書館利用數(shù)字化技術(shù)為讀者提供查詢服務(wù),成為讀者與圖書館聯(lián)系的第一途徑。圖書查詢的目的是從大量的圖書資源庫中找到滿足用戶需求的圖書,這個(gè)概念類似于數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù)查詢。通過使用查詢系統(tǒng),用戶可以查詢圖書館的所有藏書并獲得有用的信息。因此,準(zhǔn)確把握用戶需求是圖書館提供優(yōu)質(zhì)服務(wù)的前提。與發(fā)達(dá)國家相比,中國數(shù)字圖書館的發(fā)展還處于起步階段,同時(shí)數(shù)字圖書館查詢系統(tǒng)的研究成果并不多見。目前最具代表性的查詢系統(tǒng)是:基于Access 的圖書查詢管理系統(tǒng)和基于語義關(guān)聯(lián)的查詢系統(tǒng)。但上述傳統(tǒng)查詢系統(tǒng)在數(shù)字圖書館服務(wù)的應(yīng)用中查詢速度較慢、查全率較低。

為此,本文采用人機(jī)交互技術(shù),解決上述傳統(tǒng)查詢系統(tǒng)在實(shí)際工作中存在的應(yīng)用問題。人?機(jī)互動(dòng)技術(shù)是數(shù)字圖書館與用戶溝通的唯一橋梁,具有個(gè)性化、智能化的人機(jī)交互功能,是實(shí)現(xiàn)有效查詢信息的關(guān)鍵。文中運(yùn)用人機(jī)交互技術(shù)為查詢系統(tǒng)設(shè)計(jì)友好、直觀、方便、人性化和智能化的人機(jī)交互界面,以確保查詢結(jié)果與用戶需求相一致。實(shí)驗(yàn)結(jié)果表明,設(shè)計(jì)系統(tǒng)數(shù)字圖書查詢耗時(shí)較短且查全率較高,為實(shí)際應(yīng)用提供了一定參考。

1 數(shù)字圖書相關(guān)聯(lián)查詢硬件系統(tǒng)設(shè)計(jì)

根據(jù)數(shù)字圖書館建設(shè)的實(shí)際需要,采用成熟的技術(shù)方案,保證系統(tǒng)的可用性及不斷升級(jí)。本文根據(jù)穩(wěn)定性、開放性和兼容性的原則,從硬件、數(shù)據(jù)庫和軟件三個(gè)方面對(duì)查詢系統(tǒng)進(jìn)行了優(yōu)化。

1.1 Solr 服務(wù)器

Solr 為索引服務(wù)器,支持多種輸出格式,比如XML/XSLT,且主要提供級(jí)別搜索和高亮度顯示。Solr 易于安裝和配置,并且具有基于HTTP 的管理界面。當(dāng)前Solr服務(wù)器已經(jīng)發(fā)展得比較成熟,同時(shí)Lucene 的相關(guān)術(shù)語包也得到了擴(kuò)展,二者完全相容。使用簡單的Solr 配置可與其他Lucene 應(yīng)用程序內(nèi)建的索引相兼容;在某些特殊情況下,使用Solr 服務(wù)器還可以在部分Lucene 工具中實(shí)現(xiàn)索引創(chuàng)建,只需進(jìn)行額外的編碼即可。

1.2 文本掃描機(jī)

文本類型檢索系統(tǒng)還必須線性掃描文本,以確定其中是否存在特定的短語或查詢模式。掃描程序的基本結(jié)構(gòu)包括磁盤控制器、項(xiàng)目檢測(cè)器、檢索控制器以及問題解答器四個(gè)特殊的單元,如圖1 所示。

圖1 圖書文本掃描機(jī)結(jié)構(gòu)

項(xiàng)目檢測(cè)器是一種高性能硬件單元,用于對(duì)磁盤上的文本進(jìn)行掃描,可以在接收到文本源時(shí)從多個(gè)項(xiàng)目中識(shí)別任意一個(gè)項(xiàng)目。在項(xiàng)目檢測(cè)和查詢解答器之間,檢索控制器進(jìn)行數(shù)據(jù)傳輸操作和通信。查詢解答器是一個(gè)決策處理程序,確定項(xiàng)目檢測(cè)找到的項(xiàng)目列是否匹配用戶的查詢項(xiàng)。此外,在圖1 設(shè)備中,只使用一個(gè)搜索模塊時(shí),掃描文本的速度可以達(dá)到每秒100 萬字符。

1.3 單片機(jī)控制模塊

圖2 單片機(jī)控制器

圖2 中,單片機(jī)控制器可以單獨(dú)執(zhí)行一個(gè)程序,但是需要根據(jù)關(guān)聯(lián)規(guī)則將該程序預(yù)裝在控制器的某一區(qū)域,根據(jù)動(dòng)作執(zhí)行相應(yīng)指令。

1.4 指令接收與發(fā)送模塊

指令收發(fā)模塊可以設(shè)計(jì)為手持收發(fā)模塊,通過單片機(jī)與傳輸芯片接口相連,實(shí)現(xiàn)信號(hào)的收發(fā);然后處理反饋信號(hào),利用內(nèi)部的語音模塊向主機(jī)發(fā)出提示。指令接收與發(fā)送模塊連接電路圖如圖3 所示。

圖3 指令接收與發(fā)送模塊連接電路圖

RXD 和TXD 引腳可分別與NRF401 的DOUT 和DIN引腳連接,并收發(fā)數(shù)據(jù)。當(dāng)“T0.2”為“接收數(shù)據(jù)”時(shí),終端將進(jìn)入“發(fā)送數(shù)據(jù)”狀態(tài);當(dāng)“發(fā)送數(shù)據(jù)”為“輸出”時(shí),將進(jìn)入“XEN”狀態(tài)。P.0 控制端可以從高跳到低。

1.5 檢索處理機(jī)

從整體上講,檢索處理機(jī)可分為并行和聯(lián)接兩部分,其中并行處理機(jī)可通過兩個(gè)不同的處理器分別檢索一個(gè)數(shù)據(jù)庫的不同部分,或每個(gè)處理器對(duì)同一個(gè)數(shù)據(jù)庫執(zhí)行不同的操作,從而使處理時(shí)間隨著處理器數(shù)量的增加而減少。第二種多處理器的設(shè)計(jì)包含多個(gè)相聯(lián)處理器,各處理器都相同,在每一個(gè)時(shí)刻執(zhí)行相同的任務(wù)。也就是每一行相聯(lián)處理機(jī)陣列都設(shè)計(jì)為接收信息項(xiàng),并且所有行的內(nèi)容都是同步處理的。在保證系統(tǒng)查詢速度和精度的同時(shí),本文設(shè)計(jì)系統(tǒng)還安裝了兩種處理器設(shè)備。

2 數(shù)字圖書相關(guān)聯(lián)查詢系統(tǒng)數(shù)據(jù)庫設(shè)計(jì)

數(shù)字圖書相關(guān)聯(lián)查詢系統(tǒng)是以O(shè)RACLLOG 為后臺(tái)數(shù)據(jù)庫,利用ADO JSP 程序與數(shù)據(jù)庫連接,進(jìn)行數(shù)據(jù)庫查詢、添加、修改、刪除等操作的應(yīng)用系統(tǒng)。利用數(shù)據(jù)關(guān)系進(jìn)行數(shù)據(jù)庫設(shè)計(jì)的關(guān)鍵在于數(shù)據(jù)庫表中列的設(shè)計(jì)。在設(shè)計(jì)數(shù)據(jù)庫表時(shí),本文根據(jù)各功能模塊建立數(shù)據(jù)表,對(duì)各功能模塊的功能數(shù)據(jù)進(jìn)行分類,生成數(shù)據(jù)庫表中的列。該關(guān)系數(shù)據(jù)庫對(duì)數(shù)據(jù)表進(jìn)行了合理的分類,更有利于操作管理、維護(hù)和升級(jí)。然后,根據(jù)概念模式設(shè)計(jì)相應(yīng)的關(guān)系模式,確定查詢系統(tǒng)中關(guān)系模式表的結(jié)構(gòu)。圖書屬性表是存儲(chǔ)圖書館藏書相關(guān)信息的表格,主要包括書名、條碼、作者、譯者、價(jià)格、出版者、出版日期、圖書類型、供應(yīng)商、ISBN、館藏圖書數(shù)量、借閱金額、保存時(shí)間等內(nèi)容。圖書屬性表的結(jié)構(gòu)如表1 所示。

沒有完善的程序,檢察機(jī)關(guān)就可能既要面對(duì)對(duì)“檢察優(yōu)勢(shì)”的憂慮又要面對(duì)對(duì)監(jiān)督效果不彰的質(zhì)疑。前文的論述主要是對(duì)民事訴訟法律監(jiān)督程序的方向性預(yù)測(cè)。整合現(xiàn)有制度、以最小社會(huì)成本發(fā)揮法律監(jiān)督作用的程序細(xì)節(jié)尚待思考??梢灶A(yù)見的是,制度的整合與過程的透明,將是程序設(shè)計(jì)的重心。

表1 數(shù)字圖書屬性表

同理可以將數(shù)字圖書的應(yīng)用與查詢歷史信息按照時(shí)間順序存儲(chǔ)在數(shù)據(jù)庫中。數(shù)據(jù)庫安全分為保障與保密性兩部分,保障是指資料庫的可靠與穩(wěn)定;保密性包括數(shù)據(jù)加密和數(shù)據(jù)權(quán)限控制。數(shù)據(jù)庫定期對(duì)系統(tǒng)數(shù)據(jù)進(jìn)行備份,并將數(shù)據(jù)文件和日志文件分別備份到不同的物理設(shè)備上,從而保證數(shù)據(jù)的可靠性。如出現(xiàn)數(shù)據(jù)問題,可保證恢復(fù)數(shù)據(jù)。本文系統(tǒng)的數(shù)據(jù)庫進(jìn)行分級(jí)設(shè)置權(quán)限,不同的管理員有不同的訪問權(quán)限,既可保障數(shù)據(jù)庫的安全性,還保證數(shù)據(jù)訪問權(quán)不會(huì)被非法使用。

3 數(shù)字圖書相關(guān)聯(lián)查詢系統(tǒng)軟件功能設(shè)計(jì)

3.1 人機(jī)交互功能模塊

在系統(tǒng)環(huán)境中建立可視化界面,方便操作人員以及用戶直接操作,以此來了解系統(tǒng)內(nèi)部功能的變化情況,并實(shí)現(xiàn)對(duì)系統(tǒng)功能的運(yùn)行控制。本文利用多媒體平臺(tái)開發(fā)軟件功能,豐富系統(tǒng)的視覺界面,確定常用功能并控制其進(jìn)入操作界面。建立的工作界面人機(jī)交互模塊功能向?qū)Э蚣苋鐖D4 所示。

圖4 人機(jī)交互模塊功能向?qū)Э蚣?/p>

3.2 數(shù)字圖書相關(guān)聯(lián)查詢功能模塊

3.2.1 收集數(shù)字圖書信息

數(shù)字圖書信息包括圖書目錄信息、書目信息和書目數(shù)據(jù)信息。先給出圖書目錄的入口地址,然后下載該頁面,在目標(biāo)內(nèi)容段中使用正則表達(dá)式匹配,可得到圖書目錄各個(gè)層次上的基本信息。例如:當(dāng)前目錄下的圖書數(shù)包含分類號(hào)和書目數(shù)量等,而層次上的信息包含分類號(hào)、類名以及不同層次之間的關(guān)系等,若目前目錄的子目錄仍包含目錄,則繼續(xù)執(zhí)行遞歸操作,直到目前目錄下只有書籍,不包含目錄為止。查詢功能模塊能夠合理地收集書名、作者、書號(hào)等信息,并將所收集的數(shù)字圖書儲(chǔ)存在數(shù)據(jù)庫中指定的地方。

3.2.2 數(shù)字圖書文本處理

為使計(jì)算機(jī)能夠理解自然語言,需要對(duì)出現(xiàn)在計(jì)算機(jī)中的每一個(gè)詞都進(jìn)行工作理解,即從詞義構(gòu)造來表達(dá)語句的意思和從語義構(gòu)造來表達(dá)言語的結(jié)構(gòu)。其中,語法、語義、語用等知識(shí)的有效運(yùn)用,以及與之相關(guān)的各種知識(shí)的運(yùn)用是研究的重點(diǎn)。一般情況下,漢語理解可分為原文輸入、自動(dòng)分詞與詞性標(biāo)注、語法與句法分析、語義與語用和語境分析、產(chǎn)生目標(biāo)形式表示、句群與篇章理解等步驟。詞匯量的分析是基礎(chǔ),句子的分析是核心,篇章的理解是最終目標(biāo)。文本特征選擇可分為信息增益、互信息、證據(jù)權(quán)值等,具體的提取過程如下:

式中:和為文檔類變量;(?)為文檔類集合;odds(?)為文檔類特征量。最終的計(jì)算結(jié)果IG(),MI(,)和WE()分別表示信息增僧、互信息、證據(jù)權(quán)值。

3.2.3 計(jì)算數(shù)字圖書關(guān)聯(lián)度

使真正相關(guān)的文檔盡可能包含在通過相關(guān)性計(jì)算得到的高等級(jí)文檔中,而那些被過濾掉的低等級(jí)文檔包含的文檔數(shù)量盡可能少。文件間的相似性通常是通過對(duì)兩個(gè)文件的矢量進(jìn)行內(nèi)積運(yùn)算而獲得的,如下:

式中:分別為文檔向量和的第維矢量;為文檔集合中所有詞的數(shù)目,即文檔向量的維數(shù)。

3.2.4 生成查詢索引

用戶可向任何Replica 服務(wù)器遞交文件。若提交到相應(yīng)的服務(wù)器上的文件不是片頭Leader,它會(huì)將用戶請(qǐng)求轉(zhuǎn)發(fā)給同一片頭的Leader 進(jìn)行處理,然后接收到片頭的Leader 將文檔分發(fā)到它包含的每個(gè)Replica 服務(wù)器上,以執(zhí)行響應(yīng)命令,完成索引創(chuàng)建。若用戶提交的文檔不屬于已提交的分片,該分片的Leader 會(huì)將其傳遞到對(duì)應(yīng)的分片Leader 處理,該Leader 會(huì)將用戶提交的文檔重新發(fā)送到其分片的所有Replica 中,以完成索引創(chuàng)建。

3.2.5 實(shí)現(xiàn)數(shù)字圖書相關(guān)聯(lián)查詢

在數(shù)字圖書相關(guān)聯(lián)查詢過程中,設(shè)置一個(gè)關(guān)聯(lián)度閾值,將查詢語句或關(guān)鍵詞輸入到系統(tǒng)中,并通過中文文本處理得出關(guān)鍵詞特征。將關(guān)鍵詞特征與系統(tǒng)數(shù)據(jù)庫中存儲(chǔ)數(shù)字圖書的關(guān)鍵特征進(jìn)行關(guān)聯(lián)度計(jì)算,并將所有關(guān)聯(lián)度大于閾值的數(shù)字圖書名稱輸出,按照關(guān)聯(lián)度的降序順序進(jìn)行排列,得出數(shù)字圖書相關(guān)聯(lián)的查詢結(jié)果。

4 系統(tǒng)測(cè)試

以測(cè)試基于人機(jī)交互的數(shù)字圖書相關(guān)聯(lián)查詢系統(tǒng)的運(yùn)行功能和應(yīng)用性能為目的,設(shè)計(jì)系統(tǒng)測(cè)試實(shí)驗(yàn),并通過與其他查詢系統(tǒng)的對(duì)比體現(xiàn)出設(shè)計(jì)查詢系統(tǒng)的優(yōu)勢(shì)。因此,分別設(shè)置文獻(xiàn)[4]系統(tǒng)和文獻(xiàn)[5]系統(tǒng)作為實(shí)驗(yàn)的對(duì)比系統(tǒng)。

4.1 開發(fā)與運(yùn)行環(huán)境

采用Code.behind 方式,使代碼與內(nèi)容保持獨(dú)立,避免因開發(fā)過程中內(nèi)容與腳本交叉而造成的維護(hù)困難,提高開發(fā)效率。另外,在ASP.NET 中,創(chuàng)建和使用Web 服務(wù)也很方便,Web 服務(wù)的創(chuàng)建者無需了解SOAP 和XML的詳細(xì)信息,只需專注于自己的服務(wù)。利用ASRNET,網(wǎng)絡(luò)應(yīng)用程序的創(chuàng)建、運(yùn)行和發(fā)布將變得非常方便和高效。

4.2 準(zhǔn)備數(shù)字圖書數(shù)據(jù)集

為了保證實(shí)驗(yàn)結(jié)果的可信度,在該系統(tǒng)環(huán)境下設(shè)置數(shù)字圖書數(shù)據(jù)集。實(shí)驗(yàn)中使用的數(shù)據(jù)集分為兩個(gè)部分,第一部分選擇某市圖書館作為數(shù)據(jù)來源,使用掃描儀得出數(shù)字圖書信息,并存儲(chǔ)到測(cè)試數(shù)據(jù)庫中,數(shù)字圖書的添加過程如圖5 所示。

圖5 數(shù)字圖書添加界面

另一部分是在網(wǎng)絡(luò)環(huán)境中,下載數(shù)字圖書數(shù)據(jù),并剔除重復(fù)的部分,得出系統(tǒng)測(cè)試實(shí)驗(yàn)的數(shù)據(jù)集。構(gòu)建的測(cè)試數(shù)據(jù)集中共包含32 742 本圖書,圖書類型約為244 種。

4.3 設(shè)置系統(tǒng)測(cè)試指標(biāo)

此次系統(tǒng)測(cè)試實(shí)驗(yàn)分別從功能和性能兩個(gè)方面進(jìn)行,其中功能主要是指人機(jī)交互功能和檢索功能,因此設(shè)置系統(tǒng)人機(jī)交互的響應(yīng)時(shí)間和檢索功能運(yùn)行時(shí)間作為系統(tǒng)功能的測(cè)試指標(biāo)。而系統(tǒng)的性能主要就是檢索性能,設(shè)置查全率作為系統(tǒng)性能的測(cè)試指標(biāo),該指標(biāo)反映了查詢系統(tǒng)對(duì)某個(gè)查詢返回結(jié)果中正確結(jié)果的比例。

4.4 系統(tǒng)測(cè)試過程與結(jié)果分析

為避免單一實(shí)驗(yàn)對(duì)測(cè)試結(jié)果產(chǎn)生的影響,實(shí)驗(yàn)設(shè)置多個(gè)查詢關(guān)鍵詞,并由此將實(shí)驗(yàn)劃分成多個(gè)組別。數(shù)字圖書查詢關(guān)鍵詞分別為:“計(jì)算機(jī)”“醫(yī)療”“教育”“建筑”“數(shù)學(xué)”“圖像處理”“工業(yè)制造”“電網(wǎng)維護(hù)”。當(dāng)查詢關(guān)鍵詞為“計(jì)算機(jī)”時(shí),設(shè)計(jì)查詢系統(tǒng)的輸出結(jié)果如圖6所示。

圖6 計(jì)算機(jī)相關(guān)聯(lián)圖書查詢結(jié)果

同理可以得出不同關(guān)鍵詞在三個(gè)查詢系統(tǒng)中的查詢結(jié)果。分別記錄啟動(dòng)查詢程序和查詢結(jié)果輸出的時(shí)間,便可以得出系統(tǒng)的查詢耗時(shí);另外將查詢結(jié)果與數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行比對(duì),便可以得出總正確樣本數(shù)量和查詢正確樣本數(shù)量,從而得出有關(guān)于查全率的測(cè)試結(jié)果。相關(guān)數(shù)據(jù)的統(tǒng)計(jì)與計(jì)算得出的系統(tǒng)測(cè)試結(jié)果如表2 所示。

表2 系統(tǒng)測(cè)試對(duì)比結(jié)果

通過對(duì)表2 中數(shù)據(jù)的計(jì)算可知:三種查詢系統(tǒng)的平均查詢耗時(shí)分別為1.34 s,1.11 s 和0.36 s;從查全率方面來看,兩種對(duì)比查詢系統(tǒng)的平均查全率為96.7%和98.1%,而設(shè)計(jì)系統(tǒng)的平均查全率為99.7%。

5 結(jié)語

為提高數(shù)字圖書查詢系統(tǒng)的查詢效率及查全率,本文利用人機(jī)交互技術(shù)設(shè)計(jì)一種數(shù)字圖書相關(guān)聯(lián)查詢系統(tǒng),通過軟硬件和數(shù)據(jù)庫多方面的優(yōu)化設(shè)計(jì),實(shí)現(xiàn)了數(shù)字圖書相關(guān)聯(lián)查詢功能。通過實(shí)驗(yàn)驗(yàn)證了設(shè)計(jì)系統(tǒng)的查詢耗時(shí)為0.36 s,查全率為99.7%,性能較優(yōu)越,能夠通過輸入的關(guān)鍵詞,精準(zhǔn)地輸出符合預(yù)期的數(shù)字圖書結(jié)果,具有一定的應(yīng)用價(jià)值。

猜你喜歡
數(shù)字圖書查全率文檔
區(qū)塊鏈在數(shù)字圖書侵權(quán)中的司法救濟(jì)作用分析
淺談Matlab與Word文檔的應(yīng)用接口
有人一聲不吭向你扔了個(gè)文檔
數(shù)字圖書回顧與反思
基于詞嵌入語義的精準(zhǔn)檢索式構(gòu)建方法
基于RI碼計(jì)算的Word復(fù)制文檔鑒別
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
數(shù)字圖書營銷方法探究
數(shù)字圖書加密措施與密鑰管理
基于Web的概念屬性抽取的研究
黎川县| 荥阳市| 泾阳县| 西贡区| 舞钢市| 武安市| 墨竹工卡县| 吉首市| 铁力市| 洛扎县| 高碑店市| 望城县| 施秉县| 华亭县| 舟曲县| 称多县| 襄汾县| 光山县| 沂南县| 黑河市| 樟树市| 宁都县| 正定县| 镇远县| 武穴市| 集安市| 金秀| 汉川市| 锡林郭勒盟| 苏尼特右旗| 萨迦县| 河间市| 柳江县| 伊宁市| 尤溪县| 措勤县| 太白县| 新竹市| 永平县| 怀来县| 惠水县|