国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向?qū)@麛?shù)據(jù)的多數(shù)據(jù)源集成與表達(dá)

2009-05-14 08:02
魅力中國(guó) 2009年32期

許 謙

摘要:近年來(lái),隨著信息源的不斷增長(zhǎng),人們對(duì)綜合研究多數(shù)據(jù)源數(shù)據(jù)的需求越來(lái)越強(qiáng)烈。為了專利研究工作的便利,建立自動(dòng)化、高效率、高準(zhǔn)確性的多數(shù)據(jù)源集成檢索系統(tǒng)是十分必要的。通過(guò)系統(tǒng)提供的統(tǒng)一的檢索界面,可以為用戶提供無(wú)縫的、靈活的訪問(wèn)方式,以緩解用戶分別查詢不同數(shù)據(jù)庫(kù)的壓力。

關(guān)鍵詞:多數(shù)據(jù)源 數(shù)據(jù)源集成 數(shù)據(jù)表達(dá) 專利數(shù)據(jù)

隨著全球信息化進(jìn)程的加快,人們?cè)絹?lái)越深刻地認(rèn)識(shí)到,信息是與材料和能源同等重要的戰(zhàn)略資源,是重要的財(cái)富和資產(chǎn)。信息資源對(duì)經(jīng)濟(jì)社會(huì)發(fā)展的作用日益突出,已成為開(kāi)放環(huán)境下政治、經(jīng)濟(jì)、文化和軍事等國(guó)際競(jìng)爭(zhēng)的焦點(diǎn)。數(shù)據(jù)是信息的載體,它通常是指人類通過(guò)不同的傳感方式所獲得的原始資料,如表格、曲線、圖形、文字、圖像、文本、視頻等。

數(shù)據(jù)的組織方式主要有以下兩種:結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)指存儲(chǔ)在數(shù)據(jù)庫(kù)里,可以用二維表結(jié)構(gòu)來(lái)邏輯表達(dá)實(shí)現(xiàn)的數(shù)據(jù),主要包括全文數(shù)據(jù)庫(kù)、摘要數(shù)據(jù)庫(kù)等各種傳統(tǒng)數(shù)據(jù)庫(kù),其特點(diǎn)是數(shù)據(jù)結(jié)構(gòu)性強(qiáng),準(zhǔn)確率高,查詢方便,使用和維護(hù)通過(guò)數(shù)據(jù)庫(kù)軟件進(jìn)行管理,并有一定的操作規(guī)范。而不方便用數(shù)據(jù)庫(kù)二維邏輯表來(lái)表現(xiàn)的數(shù)據(jù)即稱為非結(jié)構(gòu)化數(shù)據(jù),包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報(bào)表、圖像和音頻、視頻信息等等,這些信息的形式相對(duì)不固定,難以用有限規(guī)則表達(dá)。

近年來(lái),隨著信息源的不斷增長(zhǎng),計(jì)算機(jī)網(wǎng)絡(luò)和數(shù)據(jù)庫(kù)系統(tǒng)的迅速發(fā)展,人們對(duì)存取、關(guān)聯(lián)、組合多數(shù)據(jù)源數(shù)據(jù)的需求越來(lái)越強(qiáng)烈。如分布的多數(shù)據(jù)庫(kù)系統(tǒng)、數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)、WEB信息收集系統(tǒng)等集成系統(tǒng)不斷涌現(xiàn),在這些系統(tǒng)中,數(shù)據(jù)和信息的集成是其中的核心問(wèn)題之一。信息資源的異構(gòu)性在信息系統(tǒng)中無(wú)處不在,越來(lái)越多的應(yīng)用需要訪問(wèn)各種異構(gòu)數(shù)據(jù)源。為了達(dá)到異構(gòu)數(shù)據(jù)源的共享,必須首先解決數(shù)據(jù)集成問(wèn)題。數(shù)據(jù)集成為多數(shù)據(jù)源提供一個(gè)完整的數(shù)據(jù)源模式和一致的訪問(wèn)接口,用戶不必考慮數(shù)據(jù)模型的多樣性、異構(gòu)性、數(shù)據(jù)抽取、數(shù)據(jù)合成等問(wèn)題,只需指定他們想要的數(shù)據(jù)。

為了專利研究工作的便利,建立自動(dòng)化、高效率、高準(zhǔn)確性的多數(shù)據(jù)源集成檢索系統(tǒng)是十分必要的。通過(guò)系統(tǒng)提供的統(tǒng)一的檢索界面,為用戶提供無(wú)縫的和靈活的訪問(wèn)方式,可以緩解用戶分別查詢不同數(shù)據(jù)庫(kù)的壓力。用戶可以同時(shí)檢索多個(gè)自治的、分布的和異構(gòu)的數(shù)據(jù)源。多數(shù)據(jù)源集成檢索系統(tǒng)不需要用戶提供如何或者從哪里可以獲得信息的詳細(xì)情況,可以屏蔽多數(shù)據(jù)源中數(shù)據(jù)命名的不一致,非結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù)的不一致,以及各數(shù)據(jù)源查詢能力不同等因素。

以專利數(shù)據(jù)為主進(jìn)行研究,多數(shù)據(jù)源集成檢索系統(tǒng)需要分別獲取的數(shù)據(jù)分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)兩類。

結(jié)構(gòu)化數(shù)據(jù)指各種專利數(shù)據(jù)庫(kù)中的數(shù)據(jù),包括中國(guó)專利數(shù)據(jù)庫(kù)、美國(guó)專利數(shù)據(jù)庫(kù)、EI、INSPEC等。這些專業(yè)數(shù)據(jù)庫(kù)集成了與專利相關(guān)的最新文獻(xiàn)、科技成果、標(biāo)準(zhǔn)等信息,可以完整地展現(xiàn)專利產(chǎn)生的背景、最新發(fā)展動(dòng)態(tài)、相關(guān)領(lǐng)域的發(fā)展趨勢(shì),可以瀏覽發(fā)明人與發(fā)明機(jī)構(gòu)更多的論述以及在各種出版物上發(fā)表的信息。這些數(shù)據(jù)覆蓋面廣,權(quán)威性高,結(jié)構(gòu)性強(qiáng),是數(shù)據(jù)來(lái)源的主要部分。

非結(jié)構(gòu)化數(shù)據(jù)主要指Web網(wǎng)站上的數(shù)據(jù),包括與所查詢內(nèi)容有關(guān)的各種信息,如百度、谷歌、與專利有關(guān)的網(wǎng)站信息等。Web 技術(shù)的飛速發(fā)展,在促使人們信息交流的方式變的更加方便快捷的同時(shí),也積累了大量的數(shù)據(jù),如何發(fā)現(xiàn)并利用隱藏在這些數(shù)據(jù)背后的知識(shí)就成為當(dāng)前信息技術(shù)領(lǐng)域研究的熱點(diǎn)問(wèn)題之一。這些數(shù)據(jù)具有豐富多樣、時(shí)效性強(qiáng)、更新速度快等特點(diǎn),是專業(yè)結(jié)構(gòu)化數(shù)據(jù)庫(kù)的重要補(bǔ)充部分。

為了對(duì)檢索到的信息進(jìn)行集成,將關(guān)于同一主體的多條信息綜合為一條完整的信息,就必須對(duì)數(shù)據(jù)內(nèi)容的一致性進(jìn)行研究。針對(duì)檢索的主體,系統(tǒng)需要在眾多記錄中尋找相似重復(fù)記錄進(jìn)行匹配,根據(jù)匹配的結(jié)果進(jìn)行處理,刪除部分記錄或者多個(gè)記錄合并為一個(gè)更完整信息的記錄,同時(shí)將這些步驟中的處理過(guò)程和結(jié)果寫入數(shù)據(jù)庫(kù),以便進(jìn)行后續(xù)清洗過(guò)程,避免重復(fù)檢驗(yàn),以及更好的進(jìn)行切片、切塊等操作。解決這類問(wèn)題需要的技術(shù)有:記錄匹配算法、重復(fù)檢測(cè)算法、合并過(guò)程中的沖突解決算法等。只有分析出哪些信息的內(nèi)容具有高度的相關(guān)性與一致性,才能對(duì)這些信息的內(nèi)容進(jìn)行集成。數(shù)據(jù)內(nèi)容的一致性檢驗(yàn)是數(shù)據(jù)集成的前提和基礎(chǔ)。

在數(shù)據(jù)集成的過(guò)程中,數(shù)據(jù)清洗和數(shù)據(jù)質(zhì)量一直是一個(gè)非常關(guān)鍵的問(wèn)題,它直接影響到數(shù)據(jù)表達(dá)的準(zhǔn)確性。將數(shù)據(jù)準(zhǔn)確無(wú)誤地表達(dá)出來(lái)是數(shù)據(jù)集成的最終目標(biāo),數(shù)據(jù)清洗正是為了提高數(shù)據(jù)質(zhì)量,使之符合用戶使用要求,從而提高基于這些數(shù)據(jù)的信息服務(wù)的質(zhì)量和效率。因此,使用高效、準(zhǔn)確的表達(dá)方法將集成后的數(shù)據(jù)表達(dá)出來(lái)是至關(guān)重要的。

數(shù)據(jù)清洗與集成的內(nèi)容主要包括以下方面:1.對(duì)異構(gòu)的數(shù)據(jù)進(jìn)行分析,使之具有良好的通用的結(jié)構(gòu),將非標(biāo)準(zhǔn)數(shù)據(jù)統(tǒng)一化成結(jié)構(gòu)數(shù)據(jù),根據(jù)數(shù)據(jù)字典消除不一致的數(shù)據(jù),將元素標(biāo)準(zhǔn)化。2.對(duì)標(biāo)準(zhǔn)化的元素進(jìn)行一致性校驗(yàn),將內(nèi)容上的一些錯(cuò)誤進(jìn)行修改。3.去處重復(fù)的和錯(cuò)誤的數(shù)據(jù)記錄。4.補(bǔ)充原始數(shù)據(jù)中不完整及遺漏的字段。例如對(duì)數(shù)據(jù)中不完整的字段補(bǔ)充必要的信息,使之完整;為空值字段設(shè)置合適的值;增加字段以添加額外的信息。最后得到整合完畢的數(shù)據(jù)。

將集成完畢的數(shù)據(jù)展現(xiàn)給用戶是系統(tǒng)的最終目的,最終的數(shù)據(jù)應(yīng)該盡可能包含全部的正確信息,條理清晰,結(jié)構(gòu)明確。界面設(shè)計(jì)是人與計(jì)算機(jī)之間傳遞和交換信息的媒介,良好的界面設(shè)計(jì)必須遵循以下幾個(gè)基本原則:1.用戶導(dǎo)向原則,要站在用戶的觀點(diǎn)和立場(chǎng)上來(lái)考慮設(shè)計(jì),有良好的交互性。2.簡(jiǎn)潔和易于操作原則。3.布局控制,界面中的信息量要適中,結(jié)構(gòu)勻稱。4.視覺(jué)平衡,要合理搭配文字、圖表以及空白區(qū)域。5.和諧與一致性,一致的結(jié)構(gòu)設(shè)計(jì)、導(dǎo)航設(shè)計(jì)和操作設(shè)計(jì),可以讓瀏覽者對(duì)軟件的形象有深刻的記憶,迅速而又有效的進(jìn)入在軟件中自己所需要的部分,快速了解整個(gè)軟件的各種功能操作。

多數(shù)據(jù)源集成檢索系統(tǒng)是最近幾年出現(xiàn)的一種新的服務(wù)方式,在一定程度上解決了網(wǎng)絡(luò)環(huán)境下分布式異構(gòu)數(shù)據(jù)庫(kù)的檢索問(wèn)題,緩解了用戶分別查詢不同數(shù)據(jù)庫(kù)的壓力。目前,面向?qū)@麛?shù)據(jù)的多數(shù)據(jù)源集成與表達(dá)方法研究尚存在空白,我們可以通過(guò)對(duì)國(guó)外類似系統(tǒng)的研究,從中得到借鑒,這對(duì)具有本地化特色的多數(shù)據(jù)源集成檢索系統(tǒng)的開(kāi)發(fā)有一定的啟發(fā)作用。

渭源县| 台南县| 汤原县| 馆陶县| 兴安县| 威宁| 常州市| 马关县| 定州市| 丰都县| 通渭县| 巨鹿县| 偏关县| 安平县| 秀山| 平谷区| 清水河县| 寿阳县| 法库县| 泰来县| 乐亭县| 惠水县| 万山特区| 孝感市| 高淳县| 若羌县| 大埔县| 成安县| 渝北区| 衡水市| 景洪市| 永嘉县| 始兴县| 清水县| 抚远县| 大余县| 青神县| 丰宁| 拉萨市| 泸西县| 汝城县|