張新陽 李輝
摘要:專業(yè)小型語料庫具有目標明確、語料收集針對性強、語料可更新、標注靈活等特點,在各個專業(yè)領(lǐng)域的應(yīng)用日益增多。為了滿足電力行業(yè)單位在辦公、管理、決策等文本處理過程中的需求,建設(shè)一個電力語料庫,提供各種語料檢索及應(yīng)用具有現(xiàn)實意義。給出了基于Web采集技術(shù)的語料收集、語料處理和語料代表性度量、語料增量更新及子語料庫抽取并離線應(yīng)用的設(shè)計實現(xiàn)過程。利用云南電網(wǎng)的文本語料進行試驗,采用三種方法對語料的代表性進行度量,利用距詞頻中心的距離指標對度量結(jié)果進行評價,使用詞語覆蓋度、加權(quán)詞語覆蓋度、詞語重現(xiàn)度等度量方式來表達通過抽取語料形成的子語料庫與原始語料庫的差異。試驗表明,電力專業(yè)語料庫具有特征較為集中的長尾特征,即80%的語料特征可由20%的語料表達,使用按需求抽取子語料庫離線應(yīng)用具有很好的實際效果。
關(guān)鍵詞:電力語料庫;距離指標度量;詞頻統(tǒng)計;離線應(yīng)用
1 ?引言
利用計算機來搜集、整理和加工語料并形成語料庫是研究語言文字的常用方法[1]。目前,國內(nèi)外研究團隊構(gòu)建了大量通用語料庫,如Brown、Semcor、LOB、ICE等英文語料庫以及國家語委現(xiàn)代漢語語料庫、北大語料庫、臺北“中研院”語料庫等中文語料庫[2]。另有領(lǐng)域?qū)S谜Z料庫如學習者、FAO農(nóng)業(yè)英語語料庫、中介話語語料庫、學術(shù)語篇語料庫、法律語料庫[3]等應(yīng)用于特定行業(yè)。語料庫的建設(shè)大多采用基于通用詞典標注的方式進行,分為語料收集和預(yù)處理、標注規(guī)范的制定、質(zhì)量監(jiān)控等過程[4]。收集的語料大多來源于組織發(fā)布的文獻或Web文本,其中來源于文獻的語料較為正式但信息錄入需耗費大量人力,來源于網(wǎng)絡(luò)的語料采集成本低,目前被廣泛使用[5-7],但語料的代表性和準確性與網(wǎng)站質(zhì)量有較大關(guān)系。
語料庫處理與應(yīng)用的核心問題是從大量的語料中取得文本特征并表示及應(yīng)用。若將語料視為文本特征空間的樣本,則語料庫是一個樣本集,其在特征空間的分布狀態(tài)即為語料庫的重要特征。目前文本分類的研究目的即是希望通過建立單層或多層次的分類來表達文本集合的分布特征[8-15]。語料庫的分析、度量、約簡等操作均與文本分類及文特征提取與表達有重要聯(lián)系。
行業(yè)語料庫通常只針對一個專業(yè)領(lǐng)域。主要應(yīng)用于行業(yè)知識庫建設(shè)、問答系統(tǒng)開發(fā)及機器學習系統(tǒng)訓練等。目前,行業(yè)語料庫建設(shè)與應(yīng)用的難點問題包括語料庫規(guī)模的確定,語料庫的更新及其復(fù)制應(yīng)用。語料庫規(guī)模過大會降低其應(yīng)用的效率,同時耗費處理、存儲、網(wǎng)絡(luò)等資源,而規(guī)模過小,則無法有效地表達行業(yè)文本的主要特性。語料庫的離線應(yīng)用,即通過子集化操作取出語料庫中的一部分內(nèi)容進行使用,如何提取復(fù)制的這部分內(nèi)容能夠最大可能地代表完整語料庫的特征也是應(yīng)用的難點問題。本文面向電力行業(yè),圍繞電力用戶應(yīng)用需求,利用Web進行語料收集,采用基于詞典的方式對預(yù)處理后的生語料進行標注,利用相似度計算模型對語料代表性進行排序,通過增量方式對電力語料庫進行更新,從而建立電力行業(yè)專用語料庫,貼合專業(yè)領(lǐng)域用戶在辦公、管理、監(jiān)督、協(xié)調(diào)、決策等工作過程中對于文本搜索、文本處理等任務(wù)的需要,為專業(yè)用戶進行文本分析、處理等任務(wù)開展奠定基礎(chǔ)。
2基于Web的電力專業(yè)語料庫增量構(gòu)建方法
2.1基于Web采集的語料獲取及預(yù)處理
基于Web的語料采集是通過網(wǎng)絡(luò)獲取、分析、提取Web網(wǎng)頁內(nèi)容,并進行處理以形成特定形式的文本語料既而建立語料庫的過程。Web語料采集過程通常以事先指定的種子URL列表開始。當采集工具訪問這些網(wǎng)址時,它會識別網(wǎng)頁中的所有超鏈接,并將其添加到要訪問的網(wǎng)址列表中,稱為抓取邊界。根據(jù)一組策略來遞歸地訪問邊界URL。如果采集程序獲取到頁面,它會復(fù)制并保存信息。頁面內(nèi)容通常被格式識別、編碼轉(zhuǎn)換并統(tǒng)一進行保存。
2.2 語料庫的構(gòu)建與應(yīng)用
語料庫的構(gòu)建包括以下步驟:語料庫的設(shè)計、語料的輸入與存儲、語料庫的索引與處理、語料庫的應(yīng)用接口。其中語料庫的設(shè)計包括確定語料庫的規(guī)模、文本采樣的方案、文本分類/分層取樣的方法確定等。語料的輸入與存儲是把語料輸入文本庫的步驟,其間的主要工作包括通常包括格式識別、編碼轉(zhuǎn)換、基礎(chǔ)結(jié)構(gòu)的分割等等;語料的存儲則是由用戶選定特定的形式來存儲管理已收集的語料,通常采用文件或者數(shù)據(jù)庫的方法,其中采用文件的方法進行管理具有結(jié)構(gòu)簡單、易于實現(xiàn)、資源要求低等特點,而數(shù)據(jù)庫管理方法則具有管理嚴密、查詢與操作功能豐富、數(shù)據(jù)安全等特點。語料索引與處理包括詞語自動切分和詞性自動標注、未登錄詞的自動識別,有效地識別并處理各種數(shù)字串、中西人名、中西地名、機構(gòu)名、后綴短語等,并為它們建立索引,以便于對語料庫的進一步應(yīng)用操作。語料庫的應(yīng)用包括自動語音識別、語言知識庫建立、信息抽取、信息檢索、文本分類和過濾、機器翻譯等方面,不同的應(yīng)用往往依賴于語料庫建立時所包括的語料附屬信息。
2.3 語料代表性度量與特征表達
語料在整個文本特征空間的分布通常是不均勻的,換言之,給定一個密度度量,語料的分布是稀疏的。這種不均勻性與稀疏性是語料庫的約簡與特征選擇的前提,即可以通過提取一部分語料構(gòu)成子語料庫來盡可能保持原有語料庫的特征。這一抽取過程是語料庫離線應(yīng)用的首要操作步驟。
為了確定子集化語料庫時對于語料的選擇順序,需要事先建立起針對語料的度量方法。本文通過度量單條語料與整個語料集相似性程度來判斷用該條語料表達語料集的強度,即代表性度量。采用代表性度量值對語料進行排序。首先,對分詞后的語料庫進行詞頻統(tǒng)計,獲取語料庫的整體信息;其次,分別對每篇文本內(nèi)容進行詞頻統(tǒng)計,獲取單篇文本內(nèi)容的整體信息,均按照“詞——詞數(shù)”的方式進行整理,如表1、表2所示。
2.4 語料庫增量更新
語料庫內(nèi)容并非一成不變,當有新的文本內(nèi)容添加至語料庫時,需對語料庫進行增量更新。語料庫增量更新亦采取代表性度量的方式進行。首先對新增語料采取分詞、詞性標注和去停用詞等過程,獲得新增的熟語料。然后對熟語料進行詞頻統(tǒng)計,對語料庫重新進行詞頻統(tǒng)計。最后根據(jù)公式(1)或(2)或(3)對語料重要性進行打分并對語料進行重新排序,獲得增量更新后的語料序列。方法1、2、3的計算效果在試驗部分論證。當語料庫的更新速度很快,每次都重新進行詞頻統(tǒng)計和所有語料庫代表性度量計算較影響更新效率時,可以采取惰性更新的策略,即設(shè)定一個閾值,當更新數(shù)量少于此閾值時,只將新語料進行必要的處理以入庫,并不進行語料庫中已有語料代表性度量的更新計算。當更新數(shù)據(jù)積累到一定程度時,可以進行一次集中的更新操作,以重新計算各語料的代表性度量取值。惰性更新可以有效地攤平單次更新的資源耗費,提高更新性能。
3??方法流程
3.1方法描述
1、數(shù)據(jù)采集。本文數(shù)據(jù)來源于互聯(lián)網(wǎng),利用爬蟲工具進行數(shù)據(jù)采集過程,獲取云南電網(wǎng)官方網(wǎng)站新聞?wù)Z料1000篇。
2、數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換。直接爬取的數(shù)據(jù)存在冗余數(shù)據(jù)和編碼錯誤等問題,需先進行數(shù)據(jù)清洗和數(shù)據(jù)轉(zhuǎn)換操作。
3、語料分詞和詞性標注。由于本文構(gòu)建的語料庫為電力行業(yè)專業(yè)語料庫,本文在基礎(chǔ)詞表的基礎(chǔ)上添加由電力常用詞匯、電工電氣、變壓器、電力設(shè)備企業(yè)名錄組成的專業(yè)詞表,對經(jīng)過清洗、轉(zhuǎn)換后的生語料進行分詞和詞性標注操作,獲得電力行業(yè)專業(yè)語料庫。
4、詞頻統(tǒng)計。對電力行業(yè)專業(yè)語料庫進行詞頻統(tǒng)計。對單篇文本語料進行詞頻統(tǒng)計,得到每篇語料的詞頻統(tǒng)計結(jié)果。
5、語料代表性度量?;陔娏π袠I(yè)專業(yè)語料庫和單篇文本語料詞頻統(tǒng)計結(jié)果按照公式(1)、(2)、(3)進行語料代表性度量值的計算。
6、語料代表性排序。將語料按代表性打分進行排序。
從圖中可以看出盡管按三種方法計算的度量值分布曲線并不重合,但這三種度量值的分布情況較為相似,即度量值較高的語料占比不大,占語料庫多數(shù)比例的語料代表性度量值差異較小。這一特征暗示較少的部分語料即可以有效代表原始語料庫的詞語特性,而大多數(shù)語料代表原始語料庫的程度并不高。從上述圖中可以看出,三種方法分值曲線都是在開始位置下降最快,從第200篇語料減慢。方法1與方法3語料分值下降較快,然后減慢。上圖表明三種方法均可以用于語料庫截取,構(gòu)建小型有代表性的語料庫。
對三種方法得到的排名前100的語料進行重復(fù)性檢驗,方法1與方法2排名前100的語料相同個數(shù)為81。方法2與方法3排名前100的語料相同個數(shù)為82,三種方法總體上有較好的一致性。
基于前述三種方法所計算出的語料排序,分別構(gòu)造出規(guī)模遞增的子語料庫系列,對此子語料庫系列計算出詞語覆蓋度、詞語重現(xiàn)度、加權(quán)詞語覆蓋度的實驗圖表如下所示:
圖5顯示了當按照一個特定的語料排列的順序來選擇語料生成子語料庫以利于離線應(yīng)用時,該子語料庫的詞語覆蓋度WCR與加權(quán)詞語覆蓋度WWCR的變化情況,其中四種排序方法所導(dǎo)致的WCR與WWCR遞增曲線的形狀差別并不明顯,特別是WWCR曲線幾乎重合。同時相比于WCR曲線,WWCR曲線的上升速度更快。這一圖形很直觀地表明只需要大約10%的語料,子語料庫即能包括原始語料庫中90%以上的權(quán)重詞;即使不考慮權(quán)重,只用原始語料庫30%規(guī)模的子語料庫也能覆蓋80%的詞語,這一數(shù)據(jù)充分表明,使用子語料庫進行離線應(yīng)用可以很好地代表原始語料庫的相關(guān)特征。
圖6顯示了WRR曲線與WCR曲線,其中WRR曲線的上升速度低于WCR與WWCR曲線,進一步說明少量的詞語即可代表整體的原始語料庫的很多特征。圖6中WRR與WCR曲線之間的距離代表著語料應(yīng)用的邊際效用增加值,當兩者距離最大時,表明增加單位語料所增加的應(yīng)用效果最多。
上述實驗數(shù)據(jù)分析表明,從語料庫中選取10%的文本語料,即選擇100篇文檔,即可實現(xiàn)覆蓋全部語料庫中大約80%的詞語,這一特征表明抽取少量詞語來形成一個子語料庫,即可實現(xiàn)在某些基本度量上,子語料庫與原始語料庫的應(yīng)用效果差異不大。這一特點為語料庫的抽取及其離線應(yīng)用提供了數(shù)據(jù)支撐。
5 結(jié)束語
本文聚焦于通過Web訪問作為語料采集的輸入方法,以文本數(shù)據(jù)庫的形式來管理語料庫,對語料進行清洗、轉(zhuǎn)換、分詞等過程,形成電力行業(yè)專用語料,并實現(xiàn)語料的增量更新。采用三種語料截取方法將語料庫子集化,選取最能代表語料庫整體的前Top k個關(guān)鍵語料。利用WCR、WWCR、WRR指標對三種方法試驗結(jié)果進行評價,結(jié)果表明上述方法均有較好的性能與適用性。
參考文獻
[1]李培峰,朱巧明,錢培德. 基于Web的大規(guī)模語料庫構(gòu)建方法[J]. 計算機工程,2008,34(7):41-43.
[2]金澎,吳云芳,俞士汶. 詞義標注語料庫建設(shè)綜述[J]. 中文信息學報,2008,22(3):16-23.
[3]鄭婧婧. 蔬菜種植信息語料庫構(gòu)建方法的分析與設(shè)計[D]. 河北科技師范學院,2017.
[4]徐琳宏,林鴻飛,趙晶. 情感語料庫的構(gòu)建和分析[J]. 中文信息學報,2008,22(1):116-122.
[5]和鳳珍,石宜金.基于Web的漢日雙語平行語料庫系統(tǒng)的構(gòu)建[J].牡丹江師范學院學報(自然科學版),2018(01):25-27.
[6]季鐸,劉皓.基于WEB的警務(wù)多語言語料庫的構(gòu)建[J].中國刑警學院學報,2017(05):118-120.
[7]韓雪華,王卷樂,卜坤,王玉潔.基于Web文本的災(zāi)害事件信息獲取進展[J].地球信息科學學報,2018,20(08):1037-1046.
[8]黃棟,徐博,許侃,林鴻飛,楊志豪.基于詞向量和EMD距離的短文本聚類[J].山東大學學報(理學版),2017,52(07):66-72.
[9]嚴杰. 基于詞向量的文本距離計算及應(yīng)用研究[D].華中師范大學,2017.
[10]李正宇. 一種基于統(tǒng)計流形學習的文本分類算法[D].中國科學技術(shù)大學,2017.
[11]基于Hadoop云計算平臺的文本聚類并行化研究[D].沈陽工業(yè)大學,2018.
[12]文本分類及其相關(guān)技術(shù)研究[D].復(fù)旦大學,2005.
[13]聚類分析中的相似性度量及其應(yīng)用研究[D].北京交通大學,2012.
[14]文本聚類分析效果評價及文本表示研究[D].中國科學院研究生院(計算技術(shù)研究所),2005
[15]王彬宇,劉文芬,胡學先,魏江宏.基于余弦距離選取初始簇中心的文本聚類研究[J].計算機工程與應(yīng)用,2018,54(10):11-18
作者簡介:張新陽(1988-),男,碩士,工程師,長期從事電力信息化項目的規(guī)劃與研究,研究領(lǐng)域包括大型信息化項目管理、數(shù)據(jù)可視化與輔助決策、數(shù)據(jù)分析與挖掘。
李輝(1991-),男,碩士,工程師。
(作者單位:云南電網(wǎng)有限責任公司信息中心)