黨蕾
摘 要:信息時代,特別是大數(shù)據(jù)時代的到來,引發(fā)了文獻和信息量劇增,地方社科院在新環(huán)境新形勢下大力推進哲學(xué)社會科學(xué)繁榮與發(fā)展面臨著更多機遇和挑戰(zhàn)。針對地方社科院的發(fā)展,各研究所的科研人員需要的學(xué)科研究領(lǐng)域的資料信息卻無從查找,只有在社科類方向和一些專業(yè)研究機構(gòu)網(wǎng)站中搜索與自身研究相關(guān)的信息內(nèi)容,但這一工作量無疑是巨大的,由此可見,信息抽取技術(shù)的合理應(yīng)用能夠有效的解決研究人員資料儲備不足的問題,只有豐富充沛的信息量,才能使得專業(yè)課題研究、學(xué)科領(lǐng)域研究在良好的前提下取得事半功倍的效果。
關(guān)鍵詞:信息抽取 地方社科院 主題文檔
中圖分類號:G202 文獻標識碼:A 文章編號:1672-3791(2015)05(a)-0011-01
1 研究現(xiàn)狀
在各地方社科院網(wǎng)站建設(shè)運行中,一方面一般的站內(nèi)搜索引擎具備通用搜索引擎的構(gòu)架和功能,通過設(shè)定的關(guān)鍵字來進行匹配查詢,查詢條件比較單一,比如:作者、標題。而另一方面在網(wǎng)站信息中對于新聞的抓取和各學(xué)科領(lǐng)域研究的信息拓展則反映較少,能將信息抽取技術(shù)應(yīng)用到現(xiàn)有網(wǎng)站建設(shè)結(jié)構(gòu)中的較少,網(wǎng)站功能上來看,只是簡單的作為新聞的傳播渠道,與網(wǎng)絡(luò)中聚結(jié)的大量WEB信息量無法做到有效交互,對研究人員進行學(xué)科研究提供的幫助不大。
2 存在的問題
(1)信息檢索的缺陷:目前信息檢索的正確率不是很高,需要人工自己進行判斷。它的根本原因是文檔內(nèi)容和查詢的表示都是一種不精確性表示。另一方面自然語言的同義性和多義性也造成了檢索的正確率不高,因為詞和意義的關(guān)系是多對多的關(guān)系。計算機如果沒有語義知識和背景知識,就很難作出正確判斷。
(2)信息抽取技術(shù)的局限性:web信息抽取方法主要有基于HTML、基于本體、基于數(shù)學(xué)模型等多種技術(shù)方法,但是在信息抽取中不能準確對區(qū)域中的主題信息進行區(qū)分,并且噪聲大,啟發(fā)式算法需要較長的頁面處理時間,在這些方法中,準確度高的信息抽取方法大多需要人工參與,并且需要建立復(fù)雜的知識庫,過程比較復(fù)雜。自動化程度較高的信息抽取方法一般頁面處理時間較長,并且準確度比較低。
3 研究意義
社科院在社會理論研究的前沿,其網(wǎng)站功能的發(fā)展也需要隨之改革創(chuàng)新。因此,在現(xiàn)行以新聞信息發(fā)布為主要功能的前提下,不斷提供更多新型的交互式功能,比如擴展信息檢索的條件,以主要理論研究網(wǎng)站和社科類相關(guān)網(wǎng)站為備選,返回更多的相關(guān)文檔新聞以供選擇;其次根據(jù)時間節(jié)點抓取隨時更新的信息,基于主題的信息抽取技術(shù)能夠較準確的返回用戶所需要的新聞信息。
該文研究目的不僅使地方社科院網(wǎng)站建設(shè)更加完善,提供暢通的搜索反饋渠道滿足對信息的多樣化需求,促進地方社科院各項學(xué)科領(lǐng)域建設(shè)的蓬勃發(fā)展。
4 研究的基本思路和方法
該文從一般信息抽取技術(shù)的應(yīng)用方法入手,將web文檔進行抽取。典型的信息抽取系統(tǒng)包括一個預(yù)處理過程,目的在于過濾掉與抽取目標不相干掉文本;然后通過詞法分析和標引,識別所有相關(guān)的詞匯;句法和語義分析只應(yīng)用于所有包含了關(guān)鍵詞典句子的集合,對每個句子的分析結(jié)果近似于該句子的語義框架表示;最后對這些框架進行合并和綜合,便可得到所需的信息的各種數(shù)據(jù)項。
該文采用基礎(chǔ)改進的方法,主要根據(jù)現(xiàn)有的信息抽取技術(shù)結(jié)合站內(nèi)檢索的特點,將信息抽取技術(shù)加到信息檢索中,增加約束條件的檢測和命名實體的抽取,滿足用戶輸出的要求,對站內(nèi)搜索功能進行拓展和完善;在新聞發(fā)布的同時對WEB信息中本院新聞和學(xué)科研究領(lǐng)域進行信息抽取,呈現(xiàn)在地方社科院網(wǎng)站中予以展示,促進地方社科院網(wǎng)站發(fā)展的新模式。
5 主要觀點及理論創(chuàng)新程度
(1)改進的站內(nèi)檢索功能:站內(nèi)搜索引擎具備通用搜索引擎的構(gòu)架和功能,可以對用戶的輸入進行分詞,可以進行多關(guān)鍵字搜索、關(guān)鍵詞組合搜索、句子搜索,大大提高了用戶操作的友好度;而這就需要基于學(xué)習(xí)統(tǒng)計模型的主要基準詞確定好,隨后查詢與之相關(guān)度較高的詞匯,計算PMI值(詞匯相關(guān)度)來進行判別。句子搜索則要根據(jù)句子結(jié)構(gòu)分析判別出句中短語結(jié)構(gòu)和搭配模式,確定該句中主題詞,根據(jù)主題詞進行匹配計算,并抽取出相似度最高的文章或報道。
我們可以在此基礎(chǔ)上將輸入關(guān)鍵字的某些相關(guān)的信息加入搜索條件,聯(lián)合進行查找。比如:按照一個主題把所有相關(guān)文檔提供給訪問者,可以讓訪問者更全面的了解他所想要的東西,這增加了網(wǎng)站信息間的組織性和邏輯性,方便了訪問者的使用,提升用戶體驗度。通過上述方法能夠根據(jù)用戶的需求進行數(shù)據(jù)挖掘,從而提高地方社科院網(wǎng)站系統(tǒng)的價值。
(2)信息抽取模塊功能:信息抽取技術(shù)能夠根據(jù)關(guān)鍵字匹配方法自動獲取網(wǎng)絡(luò)資源信息,它能夠抓取網(wǎng)站上的信息標題和詳細內(nèi)容,而且可以對信息進行自動判別和分類。從社科院網(wǎng)站建設(shè)規(guī)劃來看,信息抽取不是盲目的新聞抓取,而按照關(guān)聯(lián)程度和時間順序?qū)鴥?nèi)外社科類新聞進行采集并審核后發(fā)布。
針對社科院網(wǎng)站建設(shè),我們通過應(yīng)用屬性對比技術(shù),在一定程度上避免了對社科類網(wǎng)頁的重復(fù)分析和采集, 提高了信息的更新速度和全部搜索率。同時,對不同時期需要提取的網(wǎng)頁給予修正。搭建WEB管理平臺便于信息處理人員處理和校驗數(shù)據(jù),對于一些網(wǎng)站,無法用軟件采集的就用人工處理。需要對所有信息源進行實時監(jiān)控,如有新的數(shù)據(jù)則進行更新。
(3)信息抽取技術(shù)應(yīng)用的效應(yīng):信息抽取技術(shù)的應(yīng)用使得地方社科院網(wǎng)站建設(shè)更加多元化,不僅體現(xiàn)在各學(xué)科領(lǐng)域研究方面,將專業(yè)領(lǐng)域的相關(guān)主題文檔等做自動分類的搜索返回,這一應(yīng)用產(chǎn)生的效應(yīng)可以提升地方社科院網(wǎng)站在推進社科研究方面應(yīng)有的功能和和作用;同時信息抽取技術(shù)的應(yīng)用還反映在能夠挖掘更多不同角度和層次的新聞信息,能夠更加詳盡的展示出地方社科院廣泛的影響力,在網(wǎng)絡(luò)環(huán)境下發(fā)揮社科發(fā)展的更大優(yōu)勢。
除此之外,添加信息抽取技術(shù)的信息檢索方法可以拓展多種檢索條件,使得檢索結(jié)果更為準確,滿足研究人員的多種需求,同時也可建立會議檢索等媒體搜索通道,又便于院內(nèi)人員進行查詢相關(guān)會議資訊,及時掌握專業(yè)領(lǐng)域動態(tài),對于地方社科院各個研究所的領(lǐng)域研究發(fā)展也具有積極的意義。
參考文獻
[1] 楊文清,黃宜華,張福炎.中文web文檔庫全文檢索技術(shù)研究與實現(xiàn)[J].中文信息學(xué)報,1999(4):50-57.
[2] 吳立德,等.大規(guī)模中文文本處理[M].上海:復(fù)旦大學(xué)出版社,1997.
[3] 黃萱菁.大規(guī)模中文文本的檢索、分類與文摘研究[D].上海:復(fù)旦大學(xué),1998.
[4] 王曄,王曉玲,周傲英.學(xué)術(shù)搜索引擎的技術(shù)研究和系統(tǒng)實現(xiàn)[J].知識科學(xué)和知識工程進展,2011.
[5] 李芳,盛煥燁,姚天昉.信息檢索與信息抽取技術(shù)的研究[J].計算機應(yīng)用研究,2002(1):16-18.