胡威
摘要:包裝印刷行業(yè)的產(chǎn)品設(shè)計(jì)與眾多設(shè)計(jì)要素相關(guān)。傳統(tǒng)的產(chǎn)品設(shè)計(jì)依賴于設(shè)計(jì)者的主觀判斷,設(shè)計(jì)效率較低。可以通過對網(wǎng)絡(luò)數(shù)據(jù)的分析提供相應(yīng)的支持。需在進(jìn)行文本分析時(shí),現(xiàn)有主題詞提取算法中,特征項(xiàng)的選擇往往只與文本本身的特點(diǎn)有關(guān),而與包裝印刷行業(yè)的產(chǎn)品設(shè)計(jì)要素?zé)o關(guān),導(dǎo)致主題詞提取效率較低。通過增加設(shè)計(jì)要素權(quán)重因子,構(gòu)建CF-TF-IDF權(quán)重函數(shù),可提高特征項(xiàng)選擇效率,并降低提取時(shí)文本的特征項(xiàng)維度。實(shí)驗(yàn)表明,基于CF-TF-IDF的設(shè)計(jì)要素主題詞提取算法具有更高的準(zhǔn)確率和處理效率。
關(guān)鍵詞:包裝印刷;產(chǎn)品設(shè)計(jì);特征項(xiàng);主題詞提取
DOIDOI:10.11907/rjdk.143959
中圖分類號:TP312
文獻(xiàn)標(biāo)識碼:A 文章編號文章編號:16727800(2015)001005403
0 引言
產(chǎn)品設(shè)計(jì)是包裝印刷行業(yè)的核心工作之一,其與眾多的設(shè)計(jì)要素具有密切的關(guān)系。傳統(tǒng)包裝印刷行業(yè)的產(chǎn)品設(shè)計(jì)依賴于設(shè)計(jì)者的主觀判斷,使得產(chǎn)品設(shè)計(jì)往往與實(shí)際設(shè)計(jì)需求脫節(jié),缺少足夠的設(shè)計(jì)參考。通過對網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行分析,可以及時(shí)準(zhǔn)確獲取與產(chǎn)品設(shè)計(jì)相關(guān)的設(shè)計(jì)要素的發(fā)展趨勢,從而為設(shè)計(jì)提供支持。為獲取有效數(shù)據(jù)資源,首先要對網(wǎng)絡(luò)數(shù)據(jù)的主題詞進(jìn)行抽取[1,2]。但由于包裝印刷行業(yè)的產(chǎn)品設(shè)計(jì)具有其行業(yè)特點(diǎn),現(xiàn)有主題詞抽取方法往往較關(guān)注主題詞本身的抽取,難以滿足產(chǎn)品設(shè)計(jì)要求。
本文分析包裝印刷行業(yè)設(shè)計(jì)要求,提取產(chǎn)品設(shè)計(jì)的關(guān)鍵要素。在此基礎(chǔ)上,對網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行分析,提取與關(guān)鍵要素相關(guān)的主題詞,再以此為基礎(chǔ)來進(jìn)行數(shù)據(jù)分析。以包裝印刷行業(yè)的產(chǎn)品設(shè)計(jì)要求來進(jìn)行數(shù)據(jù)抽取,為實(shí)際產(chǎn)品設(shè)計(jì)提供高效的數(shù)據(jù)支持。
1 主題詞提取研究現(xiàn)狀
大量網(wǎng)絡(luò)數(shù)據(jù)以文本的形式存在。要獲取有效的數(shù)據(jù)資源,就需要對文本進(jìn)行分析,獲取文本的主題詞,即主題詞提取。所提取的主題詞在對文本進(jìn)行分析時(shí),被用作文本主題的描述詞[3]。主題詞是面向信息索引和檢索的標(biāo)準(zhǔn)化語言,是信息檢索的基礎(chǔ)。國內(nèi)外對主題詞提取已開展深入探索和研究。
對于小規(guī)模文本,通過提出相關(guān)的文本內(nèi)容能夠提供主題詞提取線索,從而達(dá)到從給定文本中提取主題詞的目標(biāo)[4]。在此方法中,由于充分利用了相關(guān)文本所提供的線索,從而能同時(shí)處理文本摘要:和主題詞提取。對于英文主題詞提取而言,由于英文語言本身的特點(diǎn),關(guān)注點(diǎn)主要是進(jìn)行詞干加工。因此,可以構(gòu)建出對英文文本的主題詞自動提取系統(tǒng)[5],由于不需要進(jìn)行分詞處理,因此系統(tǒng)效率較高。中文文本的主題詞提取,可以從語義的角度進(jìn)行分析,構(gòu)建出語義網(wǎng)絡(luò),使用概念之間的匹配來進(jìn)行處理[6]。通過這種方法能夠解決傳統(tǒng)方法以關(guān)鍵詞:進(jìn)行主題詞提取的缺陷。通過對詞頻率進(jìn)行分析,同樣可以進(jìn)行主題詞提取。通過增加文本預(yù)處理環(huán)節(jié),能夠進(jìn)行合成詞的識別,進(jìn)而提高主題詞提取的滿意度[7]。
通過主題詞提取,能夠獲取文本內(nèi)容的基本描述?,F(xiàn)有的主題詞提取方法主要關(guān)注于一般文本內(nèi)容,缺少對行業(yè)應(yīng)用領(lǐng)域的背景分析。通過對包裝印刷行業(yè)產(chǎn)品設(shè)計(jì)要素進(jìn)行分析,將產(chǎn)品設(shè)計(jì)要素與主題詞的提取進(jìn)行關(guān)聯(lián),從而提高數(shù)據(jù)資源獲取效率,為包裝印刷行業(yè)產(chǎn)品設(shè)計(jì)提供參考。
2 基于產(chǎn)品設(shè)計(jì)要素的主題詞提取算法
2.1 包裝印刷行業(yè)的產(chǎn)品設(shè)計(jì)要素分析
包裝印刷行業(yè)中的產(chǎn)品設(shè)計(jì),不僅是對產(chǎn)品本身特點(diǎn)的關(guān)注,與應(yīng)用場景密切相關(guān),還需要與眾多的外在設(shè)計(jì)要素進(jìn)行關(guān)聯(lián)。而應(yīng)用場景往往隨著時(shí)間而發(fā)生變化,這就要求產(chǎn)品設(shè)計(jì)能適應(yīng)應(yīng)用場景的變化,滿足新的設(shè)計(jì)要求。應(yīng)用場景的變化與熱點(diǎn)事件、用戶群體特性、時(shí)節(jié)、地域等多種外在因素相關(guān)。這些外在因素往往能在互聯(lián)網(wǎng)上以文本形式出現(xiàn),并及時(shí)更新。因此,通過分析互聯(lián)網(wǎng)上的文本,能夠及時(shí)、有效地了解潛在的設(shè)計(jì)要求與設(shè)計(jì)趨勢,從而為產(chǎn)品設(shè)計(jì)提供支持。
定義包裝印刷行業(yè)的產(chǎn)品設(shè)計(jì)要素合S。S中包含所有的設(shè)計(jì)要素,共n個(gè),記為E1, E2, E3, … En。每個(gè)設(shè)計(jì)要素Ei具有屬性A (Ei)和相關(guān)系數(shù)C(Ei)。其中,屬性A(Ei)表示設(shè)計(jì)要素所具有的設(shè)計(jì)屬性,是對設(shè)計(jì)要素Ei的基本描述;相關(guān)系數(shù)表示設(shè)計(jì)要素Ei與產(chǎn)品設(shè)計(jì)之間的關(guān)聯(lián)程度。相關(guān)系數(shù)C(Ei)實(shí)際上表達(dá)了設(shè)計(jì)要素Ei在整個(gè)產(chǎn)品設(shè)計(jì)中的重要程度,是一個(gè)權(quán)重系數(shù)。
2.2 文本向量空間模型
文本經(jīng)過預(yù)處理后,可以得到分離出來的詞。這些詞是從文本當(dāng)中抽取出來的關(guān)鍵詞:,用來表示文本的特征項(xiàng),代表文本的性質(zhì)和特點(diǎn)。基于產(chǎn)品設(shè)計(jì)要素的主題詞提取算法采用向量空間模型的方法來表示文本。從文本集合向向量空間模型進(jìn)行映射時(shí),整個(gè)文本集合映射為向量空間;文本映射為向量空間中的向量,文本的特征項(xiàng)映射為向量的維度,從而構(gòu)成完整的文本集合的向量表示形式。
向量空間中包含m個(gè)文本的文本集合S表示為:
S=(D1,D2,...,Dm)(1)
所包含的文本Di,可以使用其特征項(xiàng)表示為:
Di={t1,t2,...,tr}(2)
其中,tj表示文本Di的第j個(gè)特征項(xiàng),r是文本Di的特征項(xiàng)個(gè)數(shù),也是向量空間中向量的維度。為體現(xiàn)不同的特征項(xiàng)對文本的重要程度,可以給特征項(xiàng)增加權(quán)重?;镜臋?quán)重函數(shù)采用TF-IDF權(quán)重函數(shù)[8]。在TF-IDF權(quán)重函數(shù)中,TF(Term Frequency)是指特征項(xiàng)的詞頻,反映了文本中該特征項(xiàng)的出現(xiàn)頻率;IDF(Inverse Document Frequency)是指反比文本頻率,反映了特征項(xiàng)在多個(gè)文本中同時(shí)出現(xiàn)的頻率。TF-IDF的計(jì)算方法如下所示:
Wij=TF-IDF(tj)=TF(tj)×IDF(tj)=Frij×logmMj+α(3)
其中,對于特征項(xiàng)tj,TF-IDF(tj)表示其TF-IDF權(quán)重;Frij表示其在文本Di中出現(xiàn)的頻率,是其TF權(quán)重;Mj表示出現(xiàn)特征項(xiàng)tj的文本數(shù)量。計(jì)算特征項(xiàng)tj的IDF權(quán)重。通過歸一化來減少文本長度所帶來的影響,增加分母作為歸一化因子,通過計(jì)算TF-IDF的幾何平均值來降低文本長度所帶來的影響[9],為:
Wij=TF-IDF(tj)=Frij×logmMj+α∑mi=1Frij×logmMj+α2(4)
2.3 基于產(chǎn)品設(shè)計(jì)要素的主題詞提取算法主題詞提取是文本分析的基礎(chǔ)工作。從式(4)可以發(fā)現(xiàn),傳統(tǒng)的主題詞提取方法往往關(guān)注文本本身主題詞提取,而包裝印刷行業(yè)的產(chǎn)品設(shè)計(jì),需要關(guān)注與行業(yè)相關(guān)的文本分析。采用傳統(tǒng)方法,會得到大量無關(guān)的主題詞,并獲得大量無關(guān)的文本,增加文本分析的難度和工作量。因此對式(4)權(quán)重計(jì)算方法進(jìn)行優(yōu)化和改進(jìn),基于產(chǎn)品設(shè)計(jì)要素進(jìn)行主題詞提取算法設(shè)計(jì)。根據(jù)對設(shè)計(jì)要素的定義,每個(gè)設(shè)計(jì)要素Ep,都有一個(gè)C(Ep),表示Ep對于設(shè)計(jì)的重要程度。為了反映設(shè)計(jì)要素在文本中的出現(xiàn)頻率、重要程度,將C(Ep)作為特征項(xiàng)的一個(gè)重要權(quán)重系數(shù)。結(jié)合TF-IDF權(quán)重函數(shù),則基于產(chǎn)品設(shè)計(jì)要素的主題詞提取算法中的權(quán)重計(jì)算公式為:
Wij=CF(tj)×(TF-IDF(tj))(5)
其中,權(quán)重Wij由兩個(gè)部分構(gòu)成,分別是CF(tj)和TF-IDF權(quán)重;新加入的CF(tj)稱為設(shè)計(jì)要素權(quán)重因子。新的權(quán)重計(jì)算方法稱為CF-TF-IDF權(quán)重函數(shù)。則根據(jù)式(4),權(quán)重Wij的計(jì)算可表達(dá)為:
Wij=CF(tj)×(TF-IDF(tj))=CF(tj)×Frij×logmMj+α∑mi=1Frij×logmMj+α2(6)
其中,設(shè)計(jì)要素權(quán)重因子包括兩個(gè)部分,除了C(Ep)外,還包括特征項(xiàng)相似度系數(shù)Sim(Ep),即特征項(xiàng)與設(shè)計(jì)要素之間的相似程度。如果相似則Sim(Ep)為1,否則為0。從而,式(6)可進(jìn)一步表達(dá)為:
Wij=CF(tj)×(TF-IDF(tj))=((C(Ep)×Sim(Ep))×Frij×logmMj+α∑mi=1Frij×logmMj+α2(7)
根據(jù)式(7),文本Di的特征項(xiàng)按照權(quán)重能夠形成一個(gè)有序的序列。在此序列中,無關(guān)特征項(xiàng)已被篩選出,極大地降低了向量空間的維度。根據(jù)式(7),主題詞提取算法步驟如圖1所示。其中,通過文本預(yù)處理來獲取分離后的詞;然后分別計(jì)算TF-IDF和CF,進(jìn)而計(jì)算出Wij;再根據(jù)權(quán)重值進(jìn)行特征項(xiàng)的排序和提取;最后根據(jù)向量空間中的特征項(xiàng)來進(jìn)行主題詞提取與輸出,為文本聚類分析作好準(zhǔn)備。
圖1 算法步驟
3 實(shí)驗(yàn)結(jié)果與分析
比較CF-TF-IDF與傳統(tǒng)的TF-IDF之間在特征項(xiàng)提取上的有效性和效率。實(shí)驗(yàn)數(shù)據(jù)集為從互聯(lián)網(wǎng)上抽取的5 000篇文本數(shù)據(jù)集合。實(shí)驗(yàn)步驟:首先對數(shù)據(jù)集合進(jìn)行預(yù)處理,形成基本的特征項(xiàng)集合;然后按照算法步驟進(jìn)行特征項(xiàng)提取。
在預(yù)期特征項(xiàng)中,選擇與包裝印刷設(shè)計(jì)要素相關(guān)的詞作為特征項(xiàng);然后分別由CF-TF-IDF和TF-IDF的特征項(xiàng)提取結(jié)果進(jìn)行對比。具體實(shí)驗(yàn)結(jié)果如圖2所示。顯然,DF-TF-IDF在特征項(xiàng)選擇上具有比TF-IDF更高的準(zhǔn)確率。TF-IDF只根據(jù)文本本身的特點(diǎn)進(jìn)行特征項(xiàng)提取;因此,盡管TF-IDF能夠抓住文本的特點(diǎn),并提取特征項(xiàng),但由于未考慮包裝印刷行業(yè)產(chǎn)品設(shè)計(jì)的特點(diǎn),所提取的特征項(xiàng)可能無法體現(xiàn)其與設(shè)計(jì)要素之間的關(guān)系。而CF-TF-IDF方法則通過設(shè)計(jì)要素權(quán)重因子,在選擇特征項(xiàng)時(shí),直接通過權(quán)重來進(jìn)行篩選,從而使得特征項(xiàng)選擇更符合行業(yè)應(yīng)用設(shè)計(jì)要求。
圖2 CF-TF-IDF與TF-IDF的特征項(xiàng)選擇準(zhǔn)確率比較
4 結(jié)語
以包裝印刷行業(yè)的產(chǎn)品設(shè)計(jì)為中心,抽取出設(shè)計(jì)要素,形成設(shè)計(jì)要素權(quán)重因子,進(jìn)而構(gòu)建出CF-TF-IDF權(quán)重函數(shù)。通過該權(quán)重函數(shù),將包裝印刷行業(yè)產(chǎn)品設(shè)計(jì)的
行業(yè)特點(diǎn)納入到主題詞提取過程當(dāng)中,為面向產(chǎn)品設(shè)計(jì)的數(shù)據(jù)分析提供支持,提高設(shè)計(jì)效率。