国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進BP網(wǎng)絡(luò)的中文期刊論文分類方法

2014-09-17 10:18:46張瑾
河南圖書館學(xué)刊 2014年5期
關(guān)鍵詞:特征提取

關(guān)鍵詞:BP網(wǎng)絡(luò);論文分類;特征提取

摘要:文章將改進BP網(wǎng)絡(luò)應(yīng)用到期刊論文的分類領(lǐng)域中。該方法根據(jù)中文期刊論文的特點選擇題名、摘要及關(guān)鍵詞作為特征項的來源,計算特征項的權(quán)值,設(shè)定閥值對特征項向量進行降維處理,最后利用BP神經(jīng)網(wǎng)絡(luò)對不同的閥值分別進行分類實驗,比較其效果。

中圖分類號:TP391文獻標(biāo)識碼:A文章編號:1003-1588(2014)05-0061-03

收稿日期:2014-03-11

作者簡介:張瑾(1970-),鄭州輕工業(yè)學(xué)院圖書館館員。1序言

1960年,Maron發(fā)表了第一篇自動分類文章,將貝葉斯定理運用于文本自動分類,標(biāo)志著自動分類技術(shù)的正式產(chǎn)生[1]。1998年,JoachimsT將支持向量機算法應(yīng)用于文本自動分類[2],Yang Y.和Chute C.G兩位學(xué)者提出了 K鄰近的分類方法[3]。相對于國外,國內(nèi)的文本自動分類研究起步相對較晚,基于機器學(xué)習(xí)技術(shù)的自動分類也是目前我國文本自動分類領(lǐng)域的主流。國內(nèi)學(xué)者的研究對象主要是中文文本自動分類,國內(nèi)學(xué)者學(xué)習(xí)并應(yīng)用了各種分類算法,并根據(jù)中文的特點構(gòu)建了我國的中文文本自動分類體系[4]。劉鋒將徑向基神經(jīng)網(wǎng)絡(luò)模型應(yīng)用到了XML文本的自動分類中[5]。胡清華提出了可變精度的粗糙集模型,引入精度的概念,提高了處理不一致信息的能力[6]。

筆者將文本分類技術(shù)應(yīng)用到期刊論文的自動分類中,根據(jù)期刊論文的特點,在選擇數(shù)據(jù)上進行改進,同時對傳統(tǒng)的BP網(wǎng)絡(luò)算法進行改進,構(gòu)建分類系統(tǒng),從大規(guī)模期刊論文中提取分類的信息,并驗證其分類的可行性。

2期刊論文分類的問題描述

期刊論文分類的任務(wù)是:在給定的分類體系下,根據(jù)論文的主題自動確定論文的類別。從數(shù)學(xué)角度看,期刊論文分類是一個映射過程,它將未知分類的論文映射到已有的類別中。該映射可以是單映射,也可以是一對多映射。筆者為了簡化問題,采用一對一映射。

論文分類的映射規(guī)則是系統(tǒng)根據(jù)已經(jīng)掌握的每個類別的很多樣本數(shù)據(jù)信息,總結(jié)出分類規(guī)律而產(chǎn)生的分類規(guī)則,完成分類器的構(gòu)建。輸入未知類別的論文,根據(jù)分類規(guī)則確定其相應(yīng)的類別。

3數(shù)據(jù)預(yù)處理

3.1空間模型

為了使計算機能夠自動分類,必須先將論文轉(zhuǎn)換為計算機可以識別的格式,筆者采用向量空間模型(即VSM)。其基本思想是以向量模式表示一篇論文:(W1,W2,W3,…,Wn),其中Wi為第i個特征項的權(quán)重。

論文在結(jié)構(gòu)上由題名、作者、摘要、關(guān)鍵詞及正文等組成,筆者認(rèn)為這些信息中能夠為論文分類提供依據(jù)的有題名、摘要和關(guān)鍵詞。筆者采用中國科學(xué)院計算技術(shù)研究所研制的漢語詞法分析系統(tǒng)ICTCLAS (Institute of computing Technology,Chinese Lexical Analysis system ) ,對題名和摘要進行分詞,然后進行停用詞剔除,將得到的詞語和關(guān)鍵詞一起組成特征項。

在文本自動分類研究中,計算特征項的權(quán)值時一般采用TF-IDF算法來計算,筆者采用另外一種方式計算特征項權(quán)值,即特征項出現(xiàn)在題名中時其權(quán)值為3,出現(xiàn)在關(guān)鍵詞中權(quán)值為5,出現(xiàn)在摘要中權(quán)值為2。在正常情況下特征項在題名中重復(fù)的概率很低,故不考慮出現(xiàn)的頻率。但在摘要中的特征項重復(fù)的概率較高,頻率為m,在計算特征權(quán)值時,其權(quán)值為2*m。因特征項可能即出現(xiàn)在題名中又出現(xiàn)在關(guān)鍵詞或摘要中,此時設(shè)定權(quán)值取最大值。

3.2特征提取

對期刊論文進行向量空間表示之后,特征空間的維數(shù)會很大,因此必須進行特征抽取。特征抽取可以降低空間維數(shù),簡化計算,防止過度擬合。特征抽取常用的方法有:文檔頻率法、信息增益、相互信息法和x2統(tǒng)計法等。筆者采用一個新的方法即設(shè)定一個閥值,剔除小于閥值的特征項,保留大于閥值的特征項。

3.3期刊論文類別

目前中國知網(wǎng)的期刊論文的類別是依據(jù)《中國圖書館分類法》進行人工標(biāo)引獲得的分類號?!吨袊鴪D書館分類法》共分5個基本部類、22個大類。采用漢語拼音字母與阿拉伯?dāng)?shù)字相結(jié)合的混合號碼,用一個字母代表一個大類,以字母順序反映大類的次序,在字母后用數(shù)字作標(biāo)記。為適應(yīng)工業(yè)技術(shù)發(fā)展及該類文獻的分類,對工業(yè)技術(shù)二級類目,采用雙字母。例如:分類號TP391代表信息處理(信息加工)。

4改進BP神經(jīng)網(wǎng)絡(luò)分類器

傳統(tǒng)BP網(wǎng)絡(luò)具有思路清晰、結(jié)構(gòu)嚴(yán)謹(jǐn)、工作狀態(tài)穩(wěn)定、可操作性強等特點,并且由于隱層節(jié)點的引入,使得一個三層的非線性網(wǎng)絡(luò)可以以任意精度逼近任何連續(xù)函數(shù),從而在模式識別、非線性映射、復(fù)雜系統(tǒng)仿真等許多領(lǐng)域得到廣泛應(yīng)用。但存在幾個缺陷[7]:①傳統(tǒng)的BP網(wǎng)絡(luò)既然是一個非線性優(yōu)化問題,這就不可避免地存在局部極小問題。②學(xué)習(xí)過程中,學(xué)習(xí)速度緩慢,易出現(xiàn)一個長時間的誤差平坦區(qū),即出現(xiàn)平臺。其原因主要是其算法中網(wǎng)絡(luò)權(quán)值以及閾值的每次調(diào)節(jié)的幅度均以一個與網(wǎng)絡(luò)誤差函數(shù)或?qū)ζ錂?quán)值導(dǎo)數(shù)大小成正比的固定因子進行。

針對BP算法收斂速度慢的缺點,筆者引入帶動量的批處理梯度下降的思想,即每一個輸入樣本對網(wǎng)絡(luò)并不立即產(chǎn)生作用,而是等到全部輸入樣本到齊,將全部誤差求和累加,再集中修改權(quán)值,即根據(jù)總誤差E=∑kEk修正權(quán)值,以提高收斂速度。在調(diào)整權(quán)值時加入動量項,降低網(wǎng)絡(luò)對于誤差曲面局部細節(jié)的敏感性,有效地抑制網(wǎng)絡(luò)過沖現(xiàn)象,此時,

△Wji(t)=ηEWji+ηα△Wji(t-1)(1)

其中,α為動量系數(shù),加入的動量項相當(dāng)于阻尼項,以減小學(xué)習(xí)過程的振蕩趨勢,從而改善收斂性。其算法如下:

①初始化權(quán)值和閾值;

②給定輸入x和目標(biāo)輸出y;

③計算實際輸出y:

張瑾:基于改進BP網(wǎng)絡(luò)的中文期刊論文分類方法張瑾:基于改進BP網(wǎng)絡(luò)的中文期刊論文分類方法yj= 瘙 楋 (∑iwjixi-θj)(2)

④修正權(quán)值,比起傳統(tǒng)的算法增加了動量項,權(quán)值調(diào)整公式為:

wji(t+1)=wji(t)+ηα△wji(t)(3)

△wji(t)=ηEWji+ηα△wji(t-1)=ηδixi+ηα△wji(t-1)(4)

E=∑kEk=∑k∑i12(yki-yki)2(5)

其中若j為輸出節(jié)點,則

δj=(y-yj)yj(1-yj)(6)

若j為隱層節(jié)點,則

δj=yj(1-yj)∑kδkwkj(7)

⑤若達到誤差精度或是循環(huán)次數(shù),則輸出結(jié)果,否則回到②。

BP網(wǎng)絡(luò)訓(xùn)練完成之后,得到的權(quán)系數(shù)和閾值系數(shù)就是一個預(yù)測模型。當(dāng)輸入的樣本數(shù)據(jù)是若干組分類數(shù)據(jù)時,得到的就是一個預(yù)測分類模型。

5實驗

5.1測試標(biāo)準(zhǔn)

評價文本分類系統(tǒng),一般采用準(zhǔn)確率(Precision)、召回率(Recall)和F1值來衡量分類效果。

查準(zhǔn)率(Precision):

P=AA+B查全率(Recall):

R=AA+C其中,A一正確地分入該類的文檔數(shù);

B一錯誤地分入該類的文檔數(shù);

C一錯誤地劃出該類的文檔數(shù);

準(zhǔn)確率和召回率反映了分類質(zhì)量的兩個不同方面,其中一個指標(biāo)提高,會導(dǎo)致另一個指標(biāo)下滑,采用兩者的調(diào)和平均值,計算公式如下:

F1=2PRP+R=2A2A+B+C

可以看出F1值越大,抽取性能就越好。

5.2數(shù)據(jù)準(zhǔn)備

文中所有的數(shù)據(jù)均從中國知網(wǎng)上進行獲取,在中國知網(wǎng)上可以獲取到的信息有題名、作者、摘要、分類號、關(guān)鍵詞等。筆者使用工具在中國知網(wǎng)上抓取了2萬篇左右的期刊論文信息作為實驗樣本。保留題名、摘要、關(guān)鍵詞和分類號。其中18,000篇論文作為訓(xùn)練用,2,000篇論文作為測試使用。對實驗樣本的題名和摘要進行分詞,剔除停用詞,計算其和關(guān)鍵詞的權(quán)值,形成文本空間模型。

5.3實驗結(jié)果

在上述工作基礎(chǔ)上,筆者對文中特征提取的方法設(shè)置閥值對空間模型進行降維,并測試了不同閥值選取對分類的性能的影響。筆者分別選擇閥值為1、2和3進行測試,得到效果如表1。

表1不同閾值下分類的效果

閥值123準(zhǔn)確數(shù)1,5401,5741,605查準(zhǔn)率94.94%96.15%96.75%查全率94.19%95.34%96.92%值94.57%95.74%96.83%由表1可知,在閾值為1時,由于加權(quán),所有特征項的特征值都是大于1的,故實驗結(jié)果是未經(jīng)過降維處理得到的結(jié)果;當(dāng)閾值為2時,特征值為2的特征項將會被刪除,刪除只在摘要并且只出現(xiàn)過一次的特征項,實驗結(jié)果F1值提升了 1.18個百分點,說明有一定的效果;當(dāng)閾值為3時, 特征值小于等于3的特征項將會被刪除,刪除只在題名或摘要中出現(xiàn)并且只出現(xiàn)過一次的特征項 ,實驗結(jié)果值達到了96.83%。

6結(jié)語

筆者將BP神經(jīng)網(wǎng)絡(luò)應(yīng)用到期刊論文的分類中。根據(jù)論文的特點合理選擇題名、摘要及關(guān)鍵詞作為特征項來源,并計算特征項的權(quán)值,設(shè)定閥值對特征向量進行降維處理,最后利用BP神經(jīng)網(wǎng)絡(luò)分別對不同的閥值進行實驗。實驗表明在閥值設(shè)置為3時,分類效果最好。

參考文獻:

[l]孫建軍,成穎等編著.信息檢索技術(shù)[M].北京:科學(xué)出版社,2004.

[2]Joachims T. Text categorization with support vector machines: learning with many relevant features[C]. In: Proceedings of 10 European Conference on Machine Learning (ECML-98), Chemnitz , DE, 1998, 137-142.

[3]Yang Y. Chute C.G. An example-based mapping method for text categorization and retrieval [J].ACM Transactions on Information Systems,1994,12(3): 252-277.

[4]陳玉芹.多類別科技文獻自動分類系統(tǒng)[D].湖北:華中科技大學(xué),2008.

[5]劉鋒,唐佳,仲紅.一種基于RBF祌經(jīng)網(wǎng)絡(luò)XML文本分類方法[J].計算機技術(shù)與發(fā)展,2009(8):34-36.

[6]胡淸華,謝定霞,于達仁.基于粗糙集加權(quán)的文本分類方法研究[J].情報學(xué)報,2005(1): 59-63.

[7]周樸雄.基于神經(jīng)網(wǎng)絡(luò)集成的WEB文檔分類研究[J].圖書情報工作,2008(7):110-112.

(編校:嚴(yán)真)

5.3實驗結(jié)果

在上述工作基礎(chǔ)上,筆者對文中特征提取的方法設(shè)置閥值對空間模型進行降維,并測試了不同閥值選取對分類的性能的影響。筆者分別選擇閥值為1、2和3進行測試,得到效果如表1。

表1不同閾值下分類的效果

閥值123準(zhǔn)確數(shù)1,5401,5741,605查準(zhǔn)率94.94%96.15%96.75%查全率94.19%95.34%96.92%值94.57%95.74%96.83%由表1可知,在閾值為1時,由于加權(quán),所有特征項的特征值都是大于1的,故實驗結(jié)果是未經(jīng)過降維處理得到的結(jié)果;當(dāng)閾值為2時,特征值為2的特征項將會被刪除,刪除只在摘要并且只出現(xiàn)過一次的特征項,實驗結(jié)果F1值提升了 1.18個百分點,說明有一定的效果;當(dāng)閾值為3時, 特征值小于等于3的特征項將會被刪除,刪除只在題名或摘要中出現(xiàn)并且只出現(xiàn)過一次的特征項 ,實驗結(jié)果值達到了96.83%。

6結(jié)語

筆者將BP神經(jīng)網(wǎng)絡(luò)應(yīng)用到期刊論文的分類中。根據(jù)論文的特點合理選擇題名、摘要及關(guān)鍵詞作為特征項來源,并計算特征項的權(quán)值,設(shè)定閥值對特征向量進行降維處理,最后利用BP神經(jīng)網(wǎng)絡(luò)分別對不同的閥值進行實驗。實驗表明在閥值設(shè)置為3時,分類效果最好。

參考文獻:

[l]孫建軍,成穎等編著.信息檢索技術(shù)[M].北京:科學(xué)出版社,2004.

[2]Joachims T. Text categorization with support vector machines: learning with many relevant features[C]. In: Proceedings of 10 European Conference on Machine Learning (ECML-98), Chemnitz , DE, 1998, 137-142.

[3]Yang Y. Chute C.G. An example-based mapping method for text categorization and retrieval [J].ACM Transactions on Information Systems,1994,12(3): 252-277.

[4]陳玉芹.多類別科技文獻自動分類系統(tǒng)[D].湖北:華中科技大學(xué),2008.

[5]劉鋒,唐佳,仲紅.一種基于RBF祌經(jīng)網(wǎng)絡(luò)XML文本分類方法[J].計算機技術(shù)與發(fā)展,2009(8):34-36.

[6]胡淸華,謝定霞,于達仁.基于粗糙集加權(quán)的文本分類方法研究[J].情報學(xué)報,2005(1): 59-63.

[7]周樸雄.基于神經(jīng)網(wǎng)絡(luò)集成的WEB文檔分類研究[J].圖書情報工作,2008(7):110-112.

(編校:嚴(yán)真)

5.3實驗結(jié)果

在上述工作基礎(chǔ)上,筆者對文中特征提取的方法設(shè)置閥值對空間模型進行降維,并測試了不同閥值選取對分類的性能的影響。筆者分別選擇閥值為1、2和3進行測試,得到效果如表1。

表1不同閾值下分類的效果

閥值123準(zhǔn)確數(shù)1,5401,5741,605查準(zhǔn)率94.94%96.15%96.75%查全率94.19%95.34%96.92%值94.57%95.74%96.83%由表1可知,在閾值為1時,由于加權(quán),所有特征項的特征值都是大于1的,故實驗結(jié)果是未經(jīng)過降維處理得到的結(jié)果;當(dāng)閾值為2時,特征值為2的特征項將會被刪除,刪除只在摘要并且只出現(xiàn)過一次的特征項,實驗結(jié)果F1值提升了 1.18個百分點,說明有一定的效果;當(dāng)閾值為3時, 特征值小于等于3的特征項將會被刪除,刪除只在題名或摘要中出現(xiàn)并且只出現(xiàn)過一次的特征項 ,實驗結(jié)果值達到了96.83%。

6結(jié)語

筆者將BP神經(jīng)網(wǎng)絡(luò)應(yīng)用到期刊論文的分類中。根據(jù)論文的特點合理選擇題名、摘要及關(guān)鍵詞作為特征項來源,并計算特征項的權(quán)值,設(shè)定閥值對特征向量進行降維處理,最后利用BP神經(jīng)網(wǎng)絡(luò)分別對不同的閥值進行實驗。實驗表明在閥值設(shè)置為3時,分類效果最好。

參考文獻:

[l]孫建軍,成穎等編著.信息檢索技術(shù)[M].北京:科學(xué)出版社,2004.

[2]Joachims T. Text categorization with support vector machines: learning with many relevant features[C]. In: Proceedings of 10 European Conference on Machine Learning (ECML-98), Chemnitz , DE, 1998, 137-142.

[3]Yang Y. Chute C.G. An example-based mapping method for text categorization and retrieval [J].ACM Transactions on Information Systems,1994,12(3): 252-277.

[4]陳玉芹.多類別科技文獻自動分類系統(tǒng)[D].湖北:華中科技大學(xué),2008.

[5]劉鋒,唐佳,仲紅.一種基于RBF祌經(jīng)網(wǎng)絡(luò)XML文本分類方法[J].計算機技術(shù)與發(fā)展,2009(8):34-36.

[6]胡淸華,謝定霞,于達仁.基于粗糙集加權(quán)的文本分類方法研究[J].情報學(xué)報,2005(1): 59-63.

[7]周樸雄.基于神經(jīng)網(wǎng)絡(luò)集成的WEB文檔分類研究[J].圖書情報工作,2008(7):110-112.

(編校:嚴(yán)真)

猜你喜歡
特征提取
特征提取和最小二乘支持向量機的水下目標(biāo)識別
基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
基于DNN的低資源語音識別特征提取技術(shù)
Bagging RCSP腦電特征提取算法
一種基于LBP 特征提取和稀疏表示的肝病識別算法
基于DSP的直線特征提取算法
基于改進WLD的紋理特征提取方法
計算機工程(2015年4期)2015-07-05 08:28:02
淺析零件圖像的特征提取和識別方法
機電信息(2015年3期)2015-02-27 15:54:46
基于CATIA的橡皮囊成形零件的特征提取
宜兰市| 尼木县| 河间市| 清丰县| 怀宁县| 太仓市| 塔城市| 康乐县| 芜湖市| 白水县| 中卫市| 怀远县| 山丹县| 增城市| 舒兰市| 谢通门县| 连州市| 鄂温| 邯郸县| 休宁县| 沂源县| 仙游县| 衢州市| 浦江县| 安吉县| 丰宁| 广安市| 凭祥市| 平舆县| 庆元县| 邹城市| 阿图什市| 龙州县| 乾安县| 潜江市| 松桃| 博白县| 甘孜| 新民市| 广南县| 大竹县|