劉巍 王思麗 祝忠明 吳志強
摘 要:文章主要描述了在自動監(jiān)測功能研發(fā)過程中,如何引入自然語言處理相關(guān)技術(shù),從而提高開放知識資源自動監(jiān)測采集過程的準(zhǔn)確性、通用性、可配置性及松耦合性。研究發(fā)現(xiàn),通過將自然語言處理技術(shù)應(yīng)用在自動監(jiān)測功能中,可以實現(xiàn)對監(jiān)測資源中重要概念和實體的自動抽取,并與經(jīng)過用戶配置的語料庫進(jìn)行相似度匹配,最終基于匹配的結(jié)果實現(xiàn)自動化定題監(jiān)測的目標(biāo)。實踐應(yīng)用證明,文章提出的基于自然語言處理技術(shù)的定題監(jiān)測方法目前已應(yīng)用在相關(guān)項目的建設(shè)中且實測效果較好,證明其在一定程度上改進(jìn)了傳統(tǒng)的定源定向監(jiān)測采集方法,提高了監(jiān)測結(jié)果的準(zhǔn)確性,優(yōu)化和簡化了監(jiān)測參數(shù)的配置流程,有效提升了功能的通用性和松耦合性。
關(guān)鍵詞:自然語言處理;實體抽?。幌嗨贫扔嬎?;定題監(jiān)測;信息采集
中圖分類號:TP312 文獻(xiàn)標(biāo)識碼:A DOI:10.11968/tsyqb.1003-6938.2018057
Design and Implementation of Automatic Monitoring Function Based on Natural Language Processing Technology
Abstract This paper describes how to apply natural language processing technology in the development of automatic monitoring functions, improving the accuracy, versatility, configurability and loose coupling of the process of automatic monitoring and acquisition of open knowledge resources. The application of the natural language processing technology can extract important keywords and entities and similarity match with configuration item which configured by users. Finally, based on the matching results, system can determine whether the target is focused. so as to achieve the goal of automated monitoring. This method has been applied in the development of IIBD platform and has a positive effect. This study has improved the traditional fixed-source monitoring method. The accuracy of monitoring results was improved, and configuration of monitoring parameters were optimized and simplified, and versatility and loose coupling of functions were increased.
Key words natural language processing; entity extraction; similarity calculation; fixed-subject monitoring; information acquisition
大數(shù)據(jù)環(huán)境下,可開放獲取的信息資源數(shù)量大幅提升,更新速度也不斷加快,特別是面向產(chǎn)業(yè)的政策、市場、科研、數(shù)據(jù)、決策等多種類型的信息資源,由于其時效性強,覆蓋范圍廣,且一定程度上具有較大的可信度(尤其是政府、權(quán)威機構(gòu)等發(fā)布的),已成為政府、企業(yè)、科研機構(gòu)及其情報研究人員關(guān)注的重點。因此,及時發(fā)現(xiàn)、分析、管理和利用這些開放信息資源,對于獲得最新的情報信息,制定合理的科技戰(zhàn)略決策,進(jìn)行相關(guān)情報研究變得十分必要。
本研究主要針對產(chǎn)業(yè)情報大數(shù)據(jù)平臺(Industrial Intelligence BigData,IIBD)[1]建設(shè)和應(yīng)用過程中的雙向需求,實現(xiàn)對網(wǎng)絡(luò)中產(chǎn)業(yè)相關(guān)政策、動態(tài)、數(shù)據(jù)、文獻(xiàn)等開放信息資源進(jìn)行多來源、自動化、定題監(jiān)測和采集管理。對開放信息資源的監(jiān)測,目前在應(yīng)用方面使用較多的方法包括通過互操作協(xié)議或接口進(jìn)行監(jiān)測的方法。該類型監(jiān)測方法由于具備信息發(fā)布平臺提供的互操作接口,因此在監(jiān)測精度方面有很好的可擴展性和可操作性,采集到的信息格式較完整且質(zhì)量較高,但是目前直接提供公開接口的平臺并不多,尤其是一些重要的競爭情報類站點、企業(yè)網(wǎng)站等并不提供相應(yīng)的接口和協(xié)議,因而該方式并不具有普適性。此外,基于搜索引擎技術(shù)的定向定源監(jiān)測是目前普遍使用的監(jiān)測方法,但是該監(jiān)測方法主要通過網(wǎng)絡(luò)爬蟲技術(shù)或工具對待采集的網(wǎng)頁進(jìn)行分析,然后進(jìn)行采集。這種方法靈活性較好,不受目標(biāo)站點的技術(shù)架構(gòu)限制。一般來講,只要能夠瀏覽到的信息都可以監(jiān)測和采集到。但從操作角度來看,方法需要經(jīng)過相對復(fù)雜的配置才能具有較好的監(jiān)測效果,且當(dāng)信息來源站點結(jié)構(gòu)發(fā)生變化時,需要即時發(fā)現(xiàn)并調(diào)整采集規(guī)則,這在一定程度上增加了操作難度和工作量,特別是當(dāng)監(jiān)測源數(shù)量較多時,需要有專人或?qū)iT的團隊進(jìn)行相應(yīng)的跟蹤和維護。
本研究在對網(wǎng)絡(luò)開放信息監(jiān)測方法的相關(guān)研究現(xiàn)狀進(jìn)行調(diào)研梳理的基礎(chǔ)上,結(jié)合IIBD建設(shè)的具體需求,設(shè)計開發(fā)了基于自然語言處理技術(shù)的可配置化互聯(lián)網(wǎng)開放信息資源的自動監(jiān)測功能,著重研究和解決了非固定、多源異構(gòu)情報源采集內(nèi)容的自動識別和相似匹配的問題,并在IIBD平臺中進(jìn)行應(yīng)用研究,最終實現(xiàn)了對多源異構(gòu)監(jiān)測信息的智能識別、長期監(jiān)測和自動采集發(fā)布,并且該功能方法相對于傳統(tǒng)自動監(jiān)測方法來說,在通用性和可配置性方面有所優(yōu)化和提升。
1 研究綜述
競爭情報監(jiān)測與傳統(tǒng)搜索引擎系統(tǒng)所關(guān)注的目標(biāo)和實現(xiàn)方法均有所不同,競爭情報更注重情報獲取的精準(zhǔn)度和及時性,且一般都在特定領(lǐng)域或主題開展,因此更適合使用定主題的信息采集方法。自2000年以來,國內(nèi)外的信息采集技術(shù)逐漸發(fā)展成熟,并在相關(guān)領(lǐng)域開展了廣泛研究和深入應(yīng)用,所涉及到的相關(guān)技術(shù)一般包含采集規(guī)則/算法/模型的構(gòu)建、主題內(nèi)容信息的自動識別和抽取、網(wǎng)頁文本的自動聚類與分類技術(shù)等。
1.1 監(jiān)測采集技術(shù)研究現(xiàn)狀
(1)基于模板匹配的采集技術(shù)研究。Bar-Yossef Z等將在同一網(wǎng)站內(nèi)多次重復(fù)出現(xiàn)的網(wǎng)頁頭部、導(dǎo)航欄、版權(quán)聲明、廣告等信息塊視為噪音信息并定制為匹配模板,并與待處理的網(wǎng)頁DOM樹進(jìn)行匹配并刪除,最后剩下的為主體信息[2]。該類方法屬于基于模板匹配的采集技術(shù),應(yīng)用該方法的前提是同一信息源的內(nèi)容頁面應(yīng)具有相同或近似的基礎(chǔ)展示模板,通過創(chuàng)建和識別模板,然后基于對模板的識別結(jié)果進(jìn)行主體信息內(nèi)容抽取和采集。
(2)基于URL分類的采集技術(shù)研究。葉勤勇提出UFBC學(xué)習(xí)算法,基于開源搜索引擎Nutch和利用正則表達(dá)式進(jìn)行信息識別和監(jiān)測采集[3];蔣付彬提出基于決策樹的URL分類器算法,利用4個主要HTML標(biāo)簽內(nèi)容與用戶定義主題的相似度構(gòu)建決策樹實現(xiàn)URL分類[4];楊鎰銘提出基于模式樹的UPCA分類算法,通過訓(xùn)練提取特定類型的網(wǎng)頁鏈接特征,構(gòu)建模式樹和生成模式規(guī)則,形成主題相關(guān)的URL模式庫[5]。該類監(jiān)測采集方法屬于基于URL規(guī)則的監(jiān)測采集技術(shù),其應(yīng)用前提是認(rèn)為同一來源站點創(chuàng)建的動態(tài)網(wǎng)頁其內(nèi)容一般應(yīng)屬于同一個主題且其URL格式往往非常相似,基于這一思路,該方法通過各種算法和模型去實現(xiàn)對基礎(chǔ)URL規(guī)律的量化、補充計算,以區(qū)分主題無關(guān)的URL和主題相關(guān)的URL。
(3)基于機器學(xué)習(xí)的采集技術(shù)研究。近年來,對信息監(jiān)測采集技術(shù)的研究方向開始向基于機器學(xué)習(xí)的方法轉(zhuǎn)換。如Debnath S等利用預(yù)定義的標(biāo)簽集合對DOM樹節(jié)點進(jìn)行訓(xùn)練生成分類器[6];王浩提出將采樣技術(shù)和半監(jiān)督學(xué)習(xí)相結(jié)合的方法,對傳統(tǒng)的SMOTE文本分類算法進(jìn)行改進(jìn)以實現(xiàn)網(wǎng)絡(luò)敏感信息的識別[7];Pavlinek M等提出了基于主題模型表示的半監(jiān)督式文本分類方法,該方法包括一個基于自訓(xùn)練的半監(jiān)督文本分類算法和模型,用于識別和確定新文本內(nèi)容的參數(shù)設(shè)置[8]。該類方法大多采用需要監(jiān)督或半監(jiān)督的機器學(xué)習(xí)算法,需要基于大量樣本積累和訓(xùn)練,或由人工預(yù)先標(biāo)注好一定數(shù)量的樣本實例,并進(jìn)行聚類、歸納學(xué)習(xí)并生成網(wǎng)頁分類器(算法和規(guī)則),利用分類器對網(wǎng)頁信息進(jìn)行模式處理。此外,基于內(nèi)容結(jié)構(gòu)特征和視覺特征,采用相關(guān)啟發(fā)式算法如神經(jīng)網(wǎng)絡(luò)算法、貪心算法等構(gòu)建啟發(fā)式規(guī)則集合,將網(wǎng)頁劃分為多個可視化塊的相關(guān)集合以實現(xiàn)內(nèi)容信息提取等方法的研究也越來越多。如李劍基于BP神經(jīng)網(wǎng)絡(luò)算法改進(jìn)DOM樹結(jié)構(gòu),按內(nèi)容相關(guān)性將網(wǎng)頁劃分為多個子模塊進(jìn)行信息內(nèi)容過濾提取[9];李偉男等基于模擬退火算法訓(xùn)練二階隱馬爾科夫參數(shù),改進(jìn)經(jīng)典的VIPS網(wǎng)頁分塊算法以實現(xiàn)網(wǎng)頁主題信息抽取[10];謝方立提出了基于DOM節(jié)點類型標(biāo)注的NTA主題信息抽取算法[11]。
1.2 監(jiān)測采集工具研發(fā)研究現(xiàn)狀
在實際應(yīng)用中一般需要根據(jù)具體應(yīng)用需求和不同數(shù)據(jù)源的結(jié)構(gòu)對上述技術(shù)方法進(jìn)行取舍、改進(jìn)或整合、綜合利用等。同時,在實際開發(fā)中,一般會將上述方法與網(wǎng)絡(luò)搜索引擎和爬蟲框架如Nutch、Heritrix、Scrapy等進(jìn)行結(jié)合,通過改進(jìn)監(jiān)測過程中的某一流程達(dá)到提升監(jiān)測速度或精準(zhǔn)度等目標(biāo)。如譚宗穎等基于網(wǎng)絡(luò)爬蟲技術(shù)和文本聚類技術(shù)構(gòu)建了科技發(fā)展前沿信息監(jiān)測與分析平臺[12];劉海波基于Ajax和Web Service技術(shù)實現(xiàn)了網(wǎng)站多欄目多頻道的信息監(jiān)測和實時入庫[13];張智雄等構(gòu)建了一種支持按需申請、定制服務(wù)的科技戰(zhàn)略監(jiān)測服務(wù)云平臺,通過將網(wǎng)絡(luò)自由文本轉(zhuǎn)化為結(jié)構(gòu)化的可計算的知識單元,實現(xiàn)對科技領(lǐng)域的態(tài)勢監(jiān)測[14];謝靖等以開源爬蟲Crawler4j為基本框架,實現(xiàn)了面向網(wǎng)絡(luò)科技監(jiān)測的分布式定向資源精確采集[15];王思麗等也對開放資源及其元數(shù)據(jù)自動采集策略方法進(jìn)行了相關(guān)實驗研究[16-17]。
2 基于自然語言處理技術(shù)的定題監(jiān)測關(guān)鍵功能設(shè)計與實現(xiàn)
本研究所提出的基于自然語言處理技術(shù)的定題監(jiān)測,其方法正是在本團隊成員王思麗已提出的采集策略和方法基礎(chǔ)上進(jìn)行了深度改進(jìn)和優(yōu)化,通過引入自然語言處理技術(shù),實現(xiàn)對文本中關(guān)鍵概念、實體等的自動抽取并與用戶提供的主題、實體等語料進(jìn)行相似度匹配,從而達(dá)到提升監(jiān)測采集精準(zhǔn)度的目標(biāo)。同時,通過引入成熟的自然語言處理工具和框架,可以在主題、實體概念的抽取過程中自動實現(xiàn)新詞發(fā)現(xiàn)和語料庫的擴展,在一定程度上實現(xiàn)了冷啟動的目標(biāo),使本方法可以不受半監(jiān)督學(xué)習(xí)方法需要標(biāo)注或準(zhǔn)備大量學(xué)習(xí)樣本弊端的影響,提升的采集過程的自動化程度,以及系統(tǒng)整合層面的松耦合性。在配置和操作方面,由于不強制要求提前定義模板或URL規(guī)則,只需要提供用戶關(guān)注的主題和實體,也在一定程度上降低了操作復(fù)雜度,即時,沒有相關(guān)技術(shù)背景和使用經(jīng)驗的用戶也可以配置操作。
2.1 整體功能結(jié)構(gòu)
本研究所提出的基于自然語言處理技術(shù)的定題監(jiān)測整體功能結(jié)構(gòu)主要包含數(shù)據(jù)準(zhǔn)備、采集參數(shù)配置、核心概念及實體抽取、相似度匹配及采集發(fā)布五個步驟(框架見圖1)。
2.2 數(shù)據(jù)準(zhǔn)備
基于自然語言處理技術(shù)的定題監(jiān)測數(shù)據(jù)準(zhǔn)備步驟主要用于確定基礎(chǔ)情報源集合即待采集情報源的基礎(chǔ)信息和啟動信息。主要包括情報源的名稱、網(wǎng)址、類型及歸屬等基礎(chǔ)信息,該步驟一般由具有較豐富相關(guān)情報遴選經(jīng)驗的人員或根據(jù)用戶具體需求進(jìn)行梳理。所有情報源構(gòu)成了采集和擴展的基礎(chǔ)。
2.3 參數(shù)配置
參數(shù)配置主要分為兩部分,首先是匹配或識別參數(shù)配置,主要包括重點關(guān)注的關(guān)鍵詞、實體(時間、地域、人員、機構(gòu)、國家等)概念的集合,也可以是相關(guān)概念的邏輯組合,如時間 AND (人員 OR機構(gòu) OR 國家) AND 關(guān)鍵詞,表示重點關(guān)注某一時間范圍內(nèi),某個人員或機構(gòu)或國家與某關(guān)鍵詞同時出現(xiàn)的信息;另一部分是采集參數(shù)配置,主要包括采集深度配置和擴展參數(shù)配置,采集深度配置即基于深度優(yōu)先的原理執(zhí)行如下操作的次數(shù):①從基礎(chǔ)情報源中取出一條信息并對其進(jìn)行解析;②把解析出的鏈接和已監(jiān)測表中的鏈接進(jìn)行比較,若已監(jiān)測表中不存在此鏈接,表示其未被訪問過;③把鏈接放入監(jiān)測解析流程中;④處理完畢后,將其放入已監(jiān)測表中;⑤將當(dāng)前信息作為基礎(chǔ)情報源重復(fù)執(zhí)行①。
擴展參數(shù)配置主要控制采集深度的處理策略,如當(dāng)設(shè)置擴展參數(shù)為內(nèi)部時,則新發(fā)現(xiàn)的URL與基礎(chǔ)URL相似或處于同一情報源時才進(jìn)行解析處理否則舍棄。當(dāng)擴展參數(shù)設(shè)置為外部時,則無論新發(fā)現(xiàn)的URL是否與當(dāng)前情報源處于同一來源均進(jìn)行解析和分析。
2.4 概念及實體抽取
對采集到的主體內(nèi)容進(jìn)行概念和實體抽取需要借助一些第三方自然語言處理工具,在本研究中,對中文的概念及實體抽取我們選用的是Ansj,對英文內(nèi)容的概念及實體抽取我們選用的是Stanford-CoreNLP,以上兩個自然語言處理工具包均為開源(具體抽取過程見圖2)。
(1) 預(yù)處理。當(dāng)從情報源監(jiān)測一個網(wǎng)頁信息時,首先利用模板匹配法抽取網(wǎng)頁主體信息,并判斷信息的語種等,同時去除主體信息中的停用詞(如介詞)等,完成對原始信息的預(yù)處理。
(2)分詞及詞性標(biāo)注?;谥黧w信息及主體信息語種選擇不同的自然語言處理工具進(jìn)行分詞和詞性標(biāo)注。本研究在開發(fā)過程中測試了大量開源自然語言處理工具,發(fā)現(xiàn)所有工具,特別是中文分詞工具的分詞粒度都存在過細(xì)的問題,普遍會出現(xiàn)分詞過度的情況,如“元數(shù)據(jù)”一詞,分詞工具通常會基于更通用的語境,將“元”當(dāng)作一個量詞,將“數(shù)據(jù)”當(dāng)作一個名詞分開抽取和標(biāo)注,且類似情況很常見。所以,不能直接調(diào)用抽取的結(jié)果,需要再次封裝概念抽取模型和算法。
(3)分詞組合。本研究的做法是:首先,根據(jù)通用的語境或領(lǐng)域,制訂相對寬松的分詞組合規(guī)則,如連續(xù)出現(xiàn)的名詞或動詞加名詞等都可以認(rèn)為是一個表達(dá)完整詞義且有意義的概念。利用這一系列組合規(guī)則,對信息主體中的所有連續(xù)分詞進(jìn)行匹配,抽取出所有符合組合規(guī)則的詞組。因為本研究制訂和遵循的是較寬松的分詞組合規(guī)則,因此,此時抽取出的詞組通常粒度較粗且存在過度組合的情況,同樣不能直接使用,需要再次清洗。
(4)關(guān)聯(lián)合并。合并的思路主要依據(jù)關(guān)聯(lián)規(guī)則挖掘的思想,對每個抽取出的詞組再進(jìn)行細(xì)粒度分詞,這樣就得到若干組候選項集?;谶@些候選項集,使用Apriori算法或信息熵算法可以挖掘出具有強關(guān)聯(lián)規(guī)則的若干組頻繁N(N=1,2,3…)項集,對這些頻繁項集進(jìn)行排列組合,即可得到完整且粒度滿足需求的概念集合。
(5)相似歸并。至此,要利用這些概念仍存在一個問題,即挖掘出的概念集合中可能存在大量同義概念,如果不進(jìn)行歸并則無法準(zhǔn)確判斷概念的重要程度(如詞頻等)。本研究通過詞型相似度計算(如N-Gram算法等)以及近義詞匹配兩步完成相似歸并的步驟。近義詞匹配一般可選擇領(lǐng)域相關(guān)的敘詞表或使用自然語言處理工具中自帶的近義詞語料庫,同時,在此過程中實現(xiàn)相應(yīng)的機器學(xué)習(xí)和訓(xùn)練。實測關(guān)鍵概念匹配度超過75%。
(6)重要度計算。將進(jìn)行相似歸并處理后的概念集合,綜合利用詞頻、TF-IDF以及概念在信息主體中的位置權(quán)值(如出現(xiàn)在題名中的概念和出現(xiàn)在正文第一段中的概念可以被賦予更高的權(quán)值),綜合制訂算法,計算出每個概念在信息中的重要度,根據(jù)閾值取出滿足閾值條件的概念即認(rèn)為是信息的關(guān)鍵概念集合。同時,對關(guān)鍵概念集合中的關(guān)鍵概念根據(jù)重要度進(jìn)行排序,可實現(xiàn)根據(jù)實際需求獲取指定數(shù)量關(guān)鍵概念的功能。
抽取出的關(guān)鍵概念集合將會有兩個用途,首先,是作為當(dāng)前信息的標(biāo)簽與用戶參數(shù)配置中設(shè)定的關(guān)注概念進(jìn)行匹配,判斷是否是用戶關(guān)注意愿較高的信息;其次,是將關(guān)鍵概念集合中的每個概念作為新詞發(fā)現(xiàn)的結(jié)果加入語料庫。如果在其他信息中再次發(fā)現(xiàn)相似概念則可直接進(jìn)行抽取。
(7)實體抽取。時間、領(lǐng)域相關(guān)的標(biāo)號、識別碼等信息的抽取可結(jié)合詞性并采用正則表達(dá)式匹配的方式抽取,地域、人員、機構(gòu)等信息可利用分詞工具中的實體抽取方法抽取,同時可根據(jù)上下文結(jié)構(gòu)進(jìn)行篩選判斷,最后再與相關(guān)詞表進(jìn)行匹配達(dá)到準(zhǔn)確抽取的效果。
2.5 相似度匹配
當(dāng)抽取出一系列關(guān)鍵概念和實體對象后,需要與用戶在參數(shù)配置中設(shè)定的識別參數(shù)進(jìn)行匹配。首先進(jìn)行詞型的匹配,然后基于詞表進(jìn)行詞義匹配。實體需要結(jié)合實體規(guī)范庫對實體對象進(jìn)行統(tǒng)一表述,然后進(jìn)行匹配。最后制訂符合實際情況及需求的匹配度計算方法。將詞性匹配、詞義匹配及實體匹配的結(jié)果和數(shù)量等信息帶入匹配度算法中得到匹配度。最終,通過與匹配度閾值比較,判斷當(dāng)前信息是否是用戶關(guān)注的目標(biāo),并進(jìn)行采集。
2.6 采集發(fā)布
自動采集發(fā)布主要包括以下流程:
(1)面向IIBD的自動登錄驗證配置。支持用戶在采集發(fā)布接口中配置IIBD的登錄信息(用戶名、密碼等),接口應(yīng)用時會自動調(diào)用該配置信息和相應(yīng)登錄機制,向IIBD發(fā)出登錄請求并進(jìn)行驗證,最后將登錄驗證成功與否的標(biāo)志信息進(jìn)行返回。登錄驗證主要是提高系統(tǒng)的安全性,同時也將采集發(fā)布功能與IIBD主系統(tǒng)實現(xiàn)解耦。當(dāng)其他系統(tǒng)需要使用本接口時可通過參數(shù)配置快速調(diào)用。
(2)基于數(shù)據(jù)包方式的已采集數(shù)據(jù)與IIBD元數(shù)據(jù)的關(guān)聯(lián)映射配置。支持用戶將已采集數(shù)據(jù)的內(nèi)容標(biāo)簽與IIBD元數(shù)據(jù)字段進(jìn)行映射配置,主要包括采集資源類型的映射和元數(shù)據(jù)結(jié)構(gòu)的映射配置,然后根據(jù)配置的信息采用httpclient提交post數(shù)據(jù)包的方式,將該信息模擬并構(gòu)造為表單提交數(shù)據(jù)的方式,向IIBD工作流自動提交與確認(rèn)發(fā)布數(shù)據(jù)。該步驟同樣是實現(xiàn)采集功能與IIBD主系統(tǒng)解耦的一部分。
3 案例及應(yīng)用效果
目前,本研究所述的基于自然語言處理的定題監(jiān)測功能已經(jīng)嵌入到產(chǎn)業(yè)情報大數(shù)據(jù)(IIBD)平臺中,現(xiàn)已在10余家企業(yè)、機構(gòu)的實際應(yīng)用中完成部署并投入使用。從目前該功能在已部署機構(gòu)中的使用情況來看,整體反映良好,對近千個監(jiān)測源進(jìn)行定題監(jiān)測和采集,通過基于用戶需求的配置,較好地實現(xiàn)了對各種不同類型用戶感興趣的多源異構(gòu)信息源進(jìn)行個性化配置并跟蹤和采集的應(yīng)用需求。
在關(guān)鍵概念抽取效果方面本研究隨機選取了500篇提供關(guān)鍵概念標(biāo)引的信息,用本文所屬方法進(jìn)行關(guān)鍵概念的自動抽取和對比,發(fā)現(xiàn)關(guān)鍵概念的命中率超過75%。從監(jiān)測和采集效果方面本研究遴選了10個不同類型的網(wǎng)站(綜合類、政策類、機構(gòu)/企業(yè)/協(xié)會門戶類等),配置相應(yīng)的主題、實體集參數(shù),使用本文所述方法進(jìn)行機器監(jiān)測和采集,其結(jié)果與人工遴選、采集結(jié)果進(jìn)行對比,機器采集到的信息比人工采集到的信息略多,采集到的信息較人工監(jiān)測結(jié)果覆蓋率超過95%。與基于模板匹配、URL規(guī)則和簡單關(guān)鍵詞匹配的傳統(tǒng)機器采集方法相比,大幅減少了采集量,提升的采集效率和精確度。實現(xiàn)了在不降低查全率的基礎(chǔ)上提升查準(zhǔn)率和命中率的目標(biāo)。在實用效果方面,從IIBD平臺在多家企業(yè)投入實際使用的反饋信息來看,可以較好地滿足用戶在實際工作中對定題信息監(jiān)測和采集的需求,總體達(dá)到可投入實際使用的標(biāo)準(zhǔn)。
4 結(jié)語
本研究在一定程度上實現(xiàn)了通過用戶個性化配置,對大量多源異構(gòu)信息源進(jìn)行自動化定題監(jiān)測和采集的功能。在信息內(nèi)容與用戶關(guān)注度的匹配方面,通過使用自然語言處理的一些常用方法,有效提升監(jiān)測的精準(zhǔn)度,降低了用戶的工作量,實現(xiàn)對傳統(tǒng)定向定源監(jiān)測采集功能的優(yōu)化和改進(jìn)。并且在關(guān)鍵概念及實體的抽取過程中,同時支持新詞發(fā)現(xiàn)和部分機器學(xué)習(xí)的功能。在架構(gòu)上通過開發(fā)相關(guān)接口和提供詞典、語料及匹配規(guī)則的配置功能實現(xiàn)監(jiān)測采集功能與主平臺的解耦,支持在除IIBD以外的其他平臺中快速便捷地嵌入。
本研究仍存在很多不足和提升空間,如在關(guān)鍵概念及實體抽取以及相似匹配的部分,目前項目組正在研究將深度學(xué)習(xí)的一些算法和方法應(yīng)用進(jìn)去,用以提高監(jiān)測采集的智能化,進(jìn)一步提升精準(zhǔn)度,并以此提高監(jiān)測效率和降低人工成本。此外,單從采集功能角度來看,對基于復(fù)雜ajax技術(shù)構(gòu)建的情報源以及對微信開放公眾號的監(jiān)測采集的效果仍有待提升。以上問題和不足還需要通過進(jìn)一步學(xué)習(xí)和掌握相關(guān)技術(shù)、工具、方法來予以優(yōu)化和解決,從而對各類基于大數(shù)據(jù)概念構(gòu)建的專題競爭情報平臺提供更完善的監(jiān)測采集支持。
參考文獻(xiàn):
[1] 產(chǎn)業(yè)情報大數(shù)據(jù)平臺[DB/OL].[2018-05-08].http://tbea.llas.ac.cn/.
[2] Bar-Yossef Z,Rajagopalan S.Template detection via data mining and its Applications[C].In:Proceedings of the 11th International Conference on World Wide Web,Honolulu,Hawaii,USA. New York,USA:ACM,2002,5(10):580-591.
[3] 葉勤勇.基于URL規(guī)則的聚焦爬蟲及其應(yīng)用[D].杭州:浙江大學(xué),2007.
[4] 蔣付彬.基于決策樹的URL分類器算法及主題爬蟲平臺設(shè)計[D].成都:成都理工大學(xué),2016.
[5] 楊鎰銘.基于URL模式的網(wǎng)頁分類算法研究[D].合肥:中國科學(xué)技術(shù)大學(xué),2016.
[6] Debnath S,Mitra P,Pal N,et al.Automatic identification of informative sections of Web pages[J].IEEE Transactions on Knowledge & Data Engineering,2009,17(9):1233-1246.
[7] 王浩.基于半監(jiān)督學(xué)習(xí)的網(wǎng)絡(luò)敏感信息識別[D].天津:天津大學(xué),2012.
[8] Pavlinek M,Podgorelec V.Text classification method based on self-training and LDA topic models[J].Expert Systems with Applications,2017(80):83-93.
[9] 李劍.基于DOM和神經(jīng)網(wǎng)絡(luò)的網(wǎng)頁凈化應(yīng)用[J].電子科技,2012(1):105-107.
[10] 李偉男,李書琴,景旭,等.基于模擬退火算法和二階HMM的Web信息抽取[J].計算機工程與設(shè)計,2014,35(4):1264-1268.
[11] 謝方立.基于節(jié)點類型標(biāo)注的網(wǎng)頁主題信息提取技術(shù)研究[D].北京:中國農(nóng)業(yè)科學(xué)院,2016.
[12] 譚宗穎,王強,蒼宏宇,等.科技發(fā)展前沿信息監(jiān)測與分析平臺的構(gòu)建[J].科學(xué)學(xué)研究,2010,28(2):195-201.
[13] 劉海波.動態(tài)Web信息監(jiān)測相關(guān)技術(shù)研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2011.
[14] 張智雄,劉建華,謝靖,等.科技戰(zhàn)略情報監(jiān)測服務(wù)云平臺的設(shè)計與實現(xiàn)[J].現(xiàn)代圖書情報技術(shù),2014(6):51-61.
[15] 謝靖,曲云鵬,劉建華.面向網(wǎng)絡(luò)科技監(jiān)測的分布式定向資源精確采集研究和應(yīng)用[J].現(xiàn)代圖書情報技術(shù),2011(Z1):26-31.
[16] 王思麗,馬建玲,王楠,等.開放知識資源的元數(shù)據(jù)自動采集策略研究[J].圖書館學(xué)研究,2013(12):47-51.
[17] 王思麗,劉巍,祝忠明,等.基于CSpace的科技信息可配置化自動監(jiān)測功能設(shè)計與實現(xiàn)[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2017(10):85-93.
作者簡介:劉巍(1980-),男,中國科學(xué)院蘭州文獻(xiàn)情報中心副研究館員;王思麗(1985-),女,中國科學(xué)院蘭州文獻(xiàn)情報中心館員;祝忠明(1968-),男,中國科學(xué)院蘭州文獻(xiàn)情報中心研究館員;吳志強(1985-),男,中國科學(xué)院蘭州文獻(xiàn)情報中心館員。