楊 娟, 吳志明, 張遠(yuǎn)鵬
(1. 南通大學(xué) 紡織服裝學(xué)院, 江蘇 南通 226019; 2. 蘇州大學(xué) 紡織與服裝工程學(xué)院, 江蘇 蘇州 215123; 3. 江南大學(xué) 紡織服裝學(xué)院, 江蘇 無錫 214122; 4. 南通大學(xué) 醫(yī)學(xué)信息學(xué)系, 江蘇 南通 226001; 5. 江南大學(xué) 數(shù)字媒體學(xué)院, 江蘇 無錫 214122)
紡織業(yè)是我國重要的傳統(tǒng)支柱產(chǎn)業(yè),“十三五”規(guī)劃對紡織工業(yè)進(jìn)行了定位調(diào)整,強(qiáng)調(diào)了信息化技術(shù)的深入應(yīng)用[1]。家用紡織品作為紡織業(yè)終端用途中的重要組成部分占有相當(dāng)一部分比重。中國是世界生產(chǎn)、消費(fèi)和出口家紡產(chǎn)品的大國,擁有全球規(guī)模前列的家紡產(chǎn)業(yè)集群和床品交易市場,然而在國際上的品牌影響力和競爭力卻并不占優(yōu)勢。通過對現(xiàn)有的家紡從業(yè)者、研究者及學(xué)習(xí)者的調(diào)研發(fā)現(xiàn),目前家紡行業(yè)普遍存在文化資源相對匱乏、資源獲取困難、信息資源共享不足、信息分散且檢索任務(wù)繁重、產(chǎn)學(xué)研對接不暢等現(xiàn)象[2]?;诖耍⒓幕瘋鞒?、產(chǎn)業(yè)資源、行業(yè)資訊、設(shè)計開發(fā)、學(xué)術(shù)研究、技術(shù)共享、交易流通于一體的特色綜合資源庫勢在必行。
國內(nèi)的相關(guān)資源庫主要是圖片等基礎(chǔ)設(shè)計素材的集合,近年來新開發(fā)的一些素材庫增加了定制模塊、花型交易模塊等,是對原有素材庫的一種突破。2003年中國紡織信息中心開發(fā)了一套“紡織行業(yè)數(shù)據(jù)庫咨詢系統(tǒng)”,奠定了紡織行業(yè)信息化的基礎(chǔ),但由于數(shù)據(jù)更新及資源量的限制,資源庫的作用并未得到充分的發(fā)揮。曹飛[3]對家紡床品數(shù)據(jù)庫查詢系統(tǒng)進(jìn)行了研究,主要面向家紡設(shè)計師建立了風(fēng)格、圖案題材和加工工藝數(shù)據(jù)庫,該資源庫的建設(shè)模式主要以人工采集數(shù)據(jù)源和手工錄入為主,工作量大且繁瑣。從目前的市場應(yīng)用來看,針對家用紡織品且尚無集文化、設(shè)計、市場、教學(xué)于一體的綜合資源庫?;ヂ?lián)網(wǎng)各類家紡資源井噴式增長為構(gòu)建特色家紡資源庫提供了豐富的數(shù)據(jù)來源。然而,龐大、復(fù)雜、多樣的網(wǎng)絡(luò)資源也為此類資源的獲取帶來了極大的挑戰(zhàn),如何有效地從海量的網(wǎng)絡(luò)資源中自動抽取有價值的信息是家紡資源庫構(gòu)建過程中亟待解決的問題。本文從家紡資源庫的構(gòu)建需求出發(fā),提出一種深網(wǎng)資源的抽取和噪聲過濾的方法,實現(xiàn)網(wǎng)絡(luò)家紡資源的自動化抽取和噪聲過濾,為家紡資源庫的構(gòu)建奠定基礎(chǔ)。
本文在充分考慮中國家紡產(chǎn)業(yè)集群優(yōu)勢的基礎(chǔ)上,建立集文化傳承、產(chǎn)業(yè)資源、行業(yè)資訊、設(shè)計開發(fā)、學(xué)術(shù)研究、技術(shù)共享、交易流通于一體的特色綜合資源庫。具體來說,所構(gòu)建的特色家紡資源庫需求陳述如下。
1)文化庫:包括歷史文化,傳統(tǒng)工藝,傳統(tǒng)紋樣,品牌文化和博物館收藏;
2)資訊庫:包括新聞資訊,政策法規(guī)和產(chǎn)業(yè)分析,家紡知識,展會信息,大賽信息;
3)家紡名錄庫:包括企業(yè)名錄,工作室名錄和設(shè)計師名錄;
4)學(xué)術(shù)資源庫:包括行業(yè)標(biāo)準(zhǔn),專利信息,圖書檢索,文獻(xiàn)檢索,會議檢索;
5)設(shè)計資源庫:包括花型圖片,款式圖片,面料圖片和家紡展圖片;
6)工藝庫:包括常規(guī)工藝,特殊工藝和裝飾工藝;
7)定制庫:包括全定制,部分定制和自定制;
8)交易平臺:包括產(chǎn)品信息,報價和技術(shù)共享;
9)視頻資源庫:包括教學(xué)視頻,展會視頻和綜合視頻。
根據(jù)家紡資源庫的建設(shè)需求,組織相關(guān)人力在互聯(lián)網(wǎng)上進(jìn)行廣泛搜索,尋找相關(guān)資源的分布。為后續(xù)能夠利用信息抽取(information extraction, IE)技術(shù)自動化抽取,給出所獲得部分資源的統(tǒng)一資源定位符(uniform recourse location, URL),如表1所示。
網(wǎng)絡(luò)信息抽取作為數(shù)據(jù)挖掘的重要組成部分,其主要目標(biāo)是從Web非結(jié)構(gòu)化的資源中獲取結(jié)構(gòu)化的信息。由于網(wǎng)絡(luò)資源所呈現(xiàn)的方式具有多樣性、復(fù)雜性以及無規(guī)律性等特征,為網(wǎng)絡(luò)信息抽取工作帶來了眾多的困難。在搜集URL過程中發(fā)現(xiàn),家紡資源在網(wǎng)絡(luò)上主要以2種方式呈現(xiàn),即淺網(wǎng)(Surface Web)資源和深網(wǎng)(Deep Web)資源。淺網(wǎng)資源是指以靜態(tài)方式呈現(xiàn)在網(wǎng)絡(luò)上的信息,這類信息直接顯示在Web頁面上,可通過一些通用的網(wǎng)絡(luò)爬蟲軟件(如“火車頭”)直接獲取;深網(wǎng)資源是指隱藏在查詢接口背后的資源,這類資源對用戶不是直接可見,需要在頁面所提供的查詢接口中,輸入相關(guān)查詢條件,才能獲取[4]。
無論是淺網(wǎng)資源還是深網(wǎng)資源,在獲取之后往往包含噪聲信息,這些噪聲信息包括“頁面導(dǎo)航欄”、“廣告欄”、“版權(quán)欄”等,如何有效地過濾這些噪聲信息,亦是本文研究的核心技術(shù)。圖1示出家紡特色資源抽取的基本架構(gòu)。深網(wǎng)資源的獲取關(guān)鍵是發(fā)現(xiàn)查詢接口(query interfaces,QIs),并判斷接口所屬領(lǐng)域,然后填寫領(lǐng)域關(guān)鍵詞。在本文中,通過構(gòu)建領(lǐng)域模型(domain model,DM)來實現(xiàn)對查詢接口的判別。對于所獲取的家紡資源(網(wǎng)頁文件),首先利用基于視覺的頁面分塊算法(vision-based page segmentation, VIPS)[5]對頁面進(jìn)行分塊,然后構(gòu)建分塊重要度模型,通過人工標(biāo)注,訓(xùn)練該模型參數(shù),實現(xiàn)對頁面噪聲的過濾。
表1 部分家紡資源的URL分布Tab.1 URL for part of home textile resources
圖1 家紡資源抽取框架Fig.1 Framework of home textile resources extraction
對于Deep Web家紡資源的自動抽取,其核心是發(fā)現(xiàn)QIs,QIs在Web頁面中通常是以Web表單的形式存在,Web表單是HTML中的高級元素,由起始鏈接簽組成,之間一般包含表單域,如文本框等。表單的HTML結(jié)構(gòu)如下:
對于上述表單,name,method,action均為表單的屬性,其中:name表示表單的名稱;method表示表單提交的方式,可以有g(shù)et和post 2種提交方式;action指明處理表單程序所在的位置,該屬性的值為一個URL。為更好地描述Web表單,定義1個五元組來進(jìn)行形式化描述,即:Form={{C1,C2,…,Cn},A,N,M,U},其中,C1,C2,…,Cn表示表單中所包含的表單域,如文本框,單選按鈕,復(fù)選按鈕等,A表示表單的action屬性,N表示表單的名稱,M表示表單method屬性,U表示表單所在頁面的URL。
此后,通過構(gòu)建領(lǐng)域模型來實現(xiàn)對QIs進(jìn)行領(lǐng)域分類以及自動進(jìn)行關(guān)鍵詞填寫。
2.2.1領(lǐng)域模型的定義
伊利諾伊大學(xué)厄本那-香檳分校的研究人員通過收集和分析Deep Web QIs發(fā)現(xiàn):每個QI所包含的屬性個數(shù)是有限的;雖然在同一個領(lǐng)域,QI的數(shù)量很多,但是,其屬性進(jìn)行聚合后,具有收斂性[6]。依據(jù)上述2個特征,提出領(lǐng)域模型對QIs的屬性進(jìn)行建模,其定義如下:
領(lǐng)域模型可被描述為1個包含11元素的有序?qū)傩詷?,即DM=(V,v0,E, Δ,TP, N,Lb, Val, tf, R, ≤),其中:V為節(jié)點(diǎn)集,即為領(lǐng)域模型中所有節(jié)點(diǎn)的集合;v0∈V,表示領(lǐng)域模型中的根節(jié)點(diǎn);E為邊集,即父節(jié)點(diǎn)和子節(jié)點(diǎn)的集合;Δ為字符集,即領(lǐng)域模型中,所有字符的集合;TP為一映射函數(shù),實現(xiàn)節(jié)點(diǎn)到表單域類型的映射,這里,表單域類型集合為{radio button (單選按鈕), check box (復(fù)選按鈕),text box (文本框),select list (下拉列表)},其返回值為表單域類型;N為一映射函數(shù),實現(xiàn)節(jié)點(diǎn)到表單域名稱的映射,返回值為表單域名稱;Lb為一映射函數(shù),實現(xiàn)節(jié)點(diǎn)到表單域名稱列表的映射,返回值為表單域列表;Val為一映射函數(shù),實現(xiàn)節(jié)點(diǎn)到表單域值的映射,返回值為表單域的值;tf為一映射函數(shù),實現(xiàn)節(jié)點(diǎn)到使用頻率的映射,返回表單域使用的頻率;R為一映射函數(shù),實現(xiàn)節(jié)點(diǎn)和其父節(jié)點(diǎn)的映射,返回它們之間的關(guān)系,包括range(節(jié)點(diǎn)是其父節(jié)點(diǎn)的區(qū)間成分)關(guān)系,part (節(jié)點(diǎn)是其父節(jié)點(diǎn)的組成部分)關(guān)系,group (表示節(jié)點(diǎn)與其他兄弟節(jié)點(diǎn)具有相同的語義)關(guān)系,constraint (表示節(jié)點(diǎn)是其父節(jié)點(diǎn)的一個約束)關(guān)系;≤表示領(lǐng)域模型中,節(jié)點(diǎn)之間出現(xiàn)的先后順序,例如,如果存在(u,v)∈≤,則表示u先于v出現(xiàn)。
2.2.2領(lǐng)域模型的構(gòu)建
按照上述領(lǐng)域模型的定義,圖2示出領(lǐng)域模型的構(gòu)建流程。在圖中,條件1:如果新加入的節(jié)點(diǎn)v與DM中所有節(jié)點(diǎn)的語義均不同,則執(zhí)行“添加”操作,在DM中添加以節(jié)點(diǎn)v為根節(jié)點(diǎn)的子樹;條件2:如果新加入的節(jié)點(diǎn)v與DM中存在語義相近的節(jié)點(diǎn),若為u,則執(zhí)行“更新”操作,在DM中將當(dāng)前節(jié)點(diǎn)v的TP,N,Lb,Val等更新至節(jié)點(diǎn)u對應(yīng)屬性的列表中;條件3:如果新加入的節(jié)點(diǎn)v與DM中存在語義相近的節(jié)點(diǎn),若為u,且節(jié)點(diǎn)v中包含了u中沒有的屬性,則執(zhí)行“細(xì)化”操作,將v作為u的子節(jié)點(diǎn);條件4:如果新加入的節(jié)點(diǎn)v與DM中若干節(jié)點(diǎn)u1,u2,…的語義相近,且包含這些節(jié)點(diǎn)的屬性,則執(zhí)行“泛化”操作,將節(jié)點(diǎn)v作為u1,u2,…的父親節(jié)點(diǎn)。
圖2 領(lǐng)域模型的構(gòu)建步驟Fig.2 Construct steps of domain model
圖2不斷重復(fù)執(zhí)行,直至所構(gòu)建的DM模型趨于穩(wěn)定時,則停止,基于此可獲取家紡領(lǐng)域模型。
2.2.3DeepWeb查詢接口模式抽取
對于需要進(jìn)行查詢的QIs,利用上述所構(gòu)建的領(lǐng)域模型,進(jìn)行接口模式抽取,其算法描述如下:
輸入:待處理表單,F(xiàn)orm={{C1,C2,…,Cn},A,N,M,U};
輸出:待處理表單是否為QI及其領(lǐng)域類別。
過程如下:
1)若Ci(1≤i≤n)∈{Password, File, Textarea},則舍棄該表單;
2)抽取Ci(1≤i≤n)中的屬性詞,并進(jìn)行規(guī)范化處理,包括過濾非法字符,去掉停用詞等;
3)遍歷所構(gòu)建的DM,尋找與屬性詞對應(yīng)的節(jié)點(diǎn),并記為DMi(1≤i≤n);
4)通過向量空間模型(Vector Space Model, VSM),計算當(dāng)前待處理Form表單與DMi的相似度,并選擇相似度最大的作為Form的領(lǐng)域分類;
5)從當(dāng)前待處理Form表單所屬的領(lǐng)域中,選擇關(guān)鍵詞填寫表單,并進(jìn)行查詢,所返回的結(jié)果中包含3個或以上鏈接,則認(rèn)為當(dāng)前待處理表單為QI。
值得注意的是,在1)中,如果Ci(1≤i≤n)∈ {Password, File, Textarea},則表明當(dāng)前待處理表單中包含的表單域有密碼框,或文件上傳框,或多行文本框。如果表單中含有這種類型的表單域,則表明其實登錄表單,文件處理表單等,這類表單一般不返回有用的查詢結(jié)果,所以應(yīng)該舍棄。
在利用領(lǐng)域模型進(jìn)行QIs判別和分類后,執(zhí)行查詢并返回查詢界面,然而,對于返回的結(jié)果中,往往含有一些噪聲信息,例如導(dǎo)航欄,廣告欄,版權(quán)欄等。如果過濾這些噪聲信息對于本文所研究的家紡資源抽取來說,顯得非常重要。通過QIs返回的頁面及其布局結(jié)構(gòu),可以抽取正文欄目中的信息,過濾其他欄目信息。
鑒于此目標(biāo),首先要對返回的頁面進(jìn)行分塊,用于分塊的方法有很多,例如文檔對象模型(document object model, DOM)算法[7],DOM算法可以將Web頁面格式化為DOM樹,雖然DOM樹能夠反映Web頁面的視覺和內(nèi)在排版信息,但是卻依賴于瀏覽器進(jìn)行顯示,且不同內(nèi)核的瀏覽器顯示的效果不盡相同。VIPS算法能夠顯現(xiàn)地表達(dá)Web頁面的視覺信息和排版信息,易于后續(xù)加工處理,因此,在本文進(jìn)行頁面內(nèi)容抽取時,選用VIPS進(jìn)行分塊處理。
通過使用1個離散的值來表示分塊的重要程度,為確定分塊的等級,組織人員對獲取的分塊進(jìn)行重要等級劃分,最后對劃分的情況進(jìn)行投票統(tǒng)計,最終分為3個等級,如表2所示。
表2 分塊等級及其描述Tab.2 Levels of blocks and their corresponding descriptions
為確定分塊的等級,本文提出分塊重要度模型,該模型的基本思想是按照頁面分塊的空間特征和內(nèi)容特征,實現(xiàn)其到分塊重要程度值的映射,即:
表3 空間特征及其描述Tab.3 Space features and their corresponding descriptions
表4 內(nèi)容特征及其描述Tab.4 Content features and their corresponding descriptions
為定量地評價本文所引入的領(lǐng)域模型以及分塊重要度模型在網(wǎng)絡(luò)家紡資源抽取中的效果,從1.2所闡述的家紡資源分布的URL中,選取足夠的查詢接口按照領(lǐng)域模型的構(gòu)建方法來構(gòu)建該領(lǐng)域的領(lǐng)域模型(當(dāng)領(lǐng)域模型趨于穩(wěn)定時,所選擇的查詢接口數(shù)量為2 385個)。隨后,依然從這些家紡資源中分別選取100個Deep Web QIs和50個非Deep Web QIs(包括登錄表單,文件上傳表單以及注冊表單等),用戶對領(lǐng)域模型的驗證和評價[8]。選擇陽性預(yù)測值P和正確率A作為評價指標(biāo),二者的定義如下:
式中:rQIs為正確識別為QIs的數(shù)量;wQIs為錯誤識別為QIs的數(shù)量;rNQIs為正確識別為非QIs的數(shù)量;t為所有接口數(shù)量。
同時,選擇文獻(xiàn)[9]中的方法,與基于規(guī)則的判別方法進(jìn)行比較,結(jié)果如表5所示。
表5 QIs識別結(jié)果Tab.5 Identification results of QIs
從表5可看出,對于非QIs,DM和文獻(xiàn)[9]具有相當(dāng)?shù)淖R別效果,這是因為非QIs具有非常明顯的特征,且算法1在應(yīng)用DM之前按照表單特征進(jìn)行了類似于規(guī)則的判斷。然而,對于QIs,DM相對于文獻(xiàn)[9]中的算法,識別效果有了明顯的提升。
對于分塊重要度模型,選擇基于RBF核函數(shù)的SVM(support vector machines)[8,10-11]來學(xué)習(xí)模型參數(shù)。首先選擇3 000個通過QIs返回的頁面,并將其分成訓(xùn)練組(2 000)和測試組(1 000),然后且利用VIPS進(jìn)行頁面分塊,各得到13 589和7 415個分塊。對于訓(xùn)練組,人工對分塊進(jìn)行標(biāo)注來訓(xùn)練SVM模型參數(shù)。對于訓(xùn)練好的模型,利用測試組分塊來進(jìn)行測試,對于測試結(jié)果的評價,選擇的評價指標(biāo)為準(zhǔn)確率(Pr),召回率(R)以及準(zhǔn)確率和召回率的調(diào)和平均數(shù)(F1),其定義如下:
式中:x表示正確識別出于抽取主題相關(guān)的分塊數(shù)量;y表示正確識別識別的與抽取主題相關(guān)和不相關(guān)的分塊數(shù);z表示所有與主題相關(guān)的分塊數(shù)。表6示出了正確識別準(zhǔn)確率的實驗結(jié)果。
表6 噪聲過濾結(jié)果Tab.6 Noise filtration results
當(dāng)面對海量網(wǎng)絡(luò)資源,按照返回的頁面布局很難構(gòu)建有效的規(guī)則函數(shù),因此,利用規(guī)則的方法難以奏效。然而,按照頁面的內(nèi)容特征和空間特征,選擇機(jī)器學(xué)習(xí)算法進(jìn)行模式學(xué)習(xí),在高維空間分離出與主題相關(guān)的分塊以及噪聲分塊。實驗結(jié)果也表明這種方法優(yōu)于基于規(guī)則的方法。
為構(gòu)建家紡特色資源庫,本文構(gòu)建了一種自動化的家紡資源抽取方法,該方法通過識別Deep Web查詢接口的方式,自動抽取家紡資源,且對返回的頁面進(jìn)行噪聲過濾,實驗結(jié)果表明了該方法的有效性。在后續(xù)的研究中,將考慮采用分布式架構(gòu),來減少抽取的時間,同時進(jìn)一步對所抽取的資源進(jìn)行整合集成以及分類。