国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于SVM的以詞性和依存關(guān)系為特征的句子傾向性判斷分析

2012-10-23 10:00:40吳明芬陳濤
關(guān)鍵詞:傾向性語(yǔ)料分類器

吳明芬 ,陳濤

(1. 中國(guó)科學(xué)院 計(jì)算技術(shù)研究所,北京 100190;2. 五邑大學(xué) 計(jì)算機(jī)學(xué)院,廣東 江門 529020)

基于SVM的以詞性和依存關(guān)系為特征的句子傾向性判斷分析

吳明芬1,2,陳濤1,2

(1. 中國(guó)科學(xué)院 計(jì)算技術(shù)研究所,北京 100190;2. 五邑大學(xué) 計(jì)算機(jī)學(xué)院,廣東 江門 529020)

將句法平面詞的詞性特征、依存關(guān)系、依存關(guān)系中的詞性特征、鄰接依存關(guān)系、鄰接依存關(guān)系中的詞性特征與傾向性詞匯和傾向性搭配作為支持向量機(jī)(SVM)分類器的特征集,以句子為單位對(duì)多個(gè)領(lǐng)域的文本進(jìn)行傾向性判斷. 通過(guò)交叉驗(yàn)證的方式,估計(jì)出分類器的精度為95.6%,據(jù)此提出句子傾向性分析可不以句子傾向性判斷為前提.

傾向性判斷;依存關(guān)系;詞性特征;支持向量機(jī)

支持向量機(jī)(Support Vector Machine,簡(jiǎn)稱SVM)是一種得到廣泛應(yīng)用的有監(jiān)督的二元分類方法,由Cortes和Vapnik于1995年首先提出[1],對(duì)解決小樣本、非線性及高維模式識(shí)別具有獨(dú)特的優(yōu)勢(shì).

句子傾向性判斷是將文本以句子為單位對(duì)其是否包含主觀意見(jiàn)和情感進(jìn)行判斷,它可以作為按傾向性對(duì)文本分類系統(tǒng)的預(yù)處理模塊,用來(lái)過(guò)濾無(wú)傾向性的文本;也可以與搜索引擎結(jié)合,用以搜索客戶對(duì)某件商品的評(píng)論等傾向性文本.

基于SVM對(duì)文本進(jìn)行句子傾向性判斷,首先需要選取特征集. 目前特征集選取主要采用詞級(jí)特征,有以下 2種方法:1)利用情感/傾向性詞典、語(yǔ)料庫(kù)等識(shí)別文本中具有明顯傾向性的詞(即評(píng)價(jià)詞語(yǔ))來(lái)判斷文本傾向性[2-5]. 這種方法對(duì)分析顯式的傾向性(即含有情感詞的文本的傾向性)比較有效. 2)利用詞語(yǔ)搭配來(lái)判斷文本傾向性[6-9]. 這種方法具有一定的分析隱含傾向性和領(lǐng)域相關(guān)傾向性的能力. 本文將對(duì)語(yǔ)料庫(kù)中文本的傾向性與句法平面詞的詞性特征(POS)、依存關(guān)系(DEP),依存關(guān)系中詞的詞性特征、鄰接依存關(guān)系,鄰接依存關(guān)系中詞的詞性特征進(jìn)行分析和統(tǒng)計(jì),并將統(tǒng)計(jì)結(jié)果結(jié)合傾向性詞匯與傾向性搭配一起作為SVM分類器的特征集進(jìn)行訓(xùn)練和測(cè)試.

1 準(zhǔn)備知識(shí)

詞性是指劃分詞類根據(jù)的詞的特點(diǎn),如名詞(N)、動(dòng)詞(V)、形容詞(ADJ)等. 依存關(guān)系的概念由依存語(yǔ)法衍生而來(lái),法國(guó)語(yǔ)言學(xué)家Tesnière[10]提出“兩個(gè)平面”理論,即用“結(jié)構(gòu)平面”和“語(yǔ)義平面”來(lái)區(qū)分句法和語(yǔ)義. 魯川[11]將句子剖析成跟顯性、有序、省略、一維表層結(jié)構(gòu)一致的“句法平面”,和跟隱性、無(wú)序、完整、多維里層結(jié)構(gòu)一致的“語(yǔ)義平面”. 詞性屬于句法平面而依存關(guān)系屬于語(yǔ)義平面. 周國(guó)光[12]將依存(配價(jià))語(yǔ)法定義為一種結(jié)構(gòu)語(yǔ)法,主要研究以謂詞為中心、而構(gòu)句時(shí)由深層語(yǔ)義結(jié)構(gòu)映現(xiàn)為表層句法結(jié)構(gòu)的狀況及條件、謂詞與體詞之間的同現(xiàn)關(guān)系,并據(jù)此劃分謂詞的詞類. 常見(jiàn)的依存關(guān)系有:句子核心動(dòng)詞(HED)、主謂關(guān)系(SBV)、動(dòng)賓關(guān)系(VOB)、狀中結(jié)構(gòu)(ADV)、定中關(guān)系(ATT)等.

依存關(guān)系中詞的詞性特征、鄰接依存關(guān)系以及鄰接依存關(guān)系詞的詞性特征是將依存關(guān)系與詞性結(jié)合在一起考慮. 鄰接依存關(guān)系是指兩個(gè)存在共用的詞且跨度沒(méi)有包含關(guān)系的依存關(guān)系. 特殊的核心結(jié)構(gòu)不與任何依存關(guān)系包含. 如圖1所示,存在4個(gè)鄰接依存關(guān)系組合:HED_SBV,HED_VOB,SBV_VOB、ATT_ATT. 不包括VOB_ATT,因?yàn)閯?dòng)賓關(guān)系VOB(喜歡、處理)的跨度包含了定中關(guān)系A(chǔ)TT(處理、語(yǔ)言).

鄰接依存關(guān)系中詞的詞性特征是兩個(gè)鄰接依存關(guān)系句法平面對(duì)應(yīng)的詞的詞性組合,如圖1中的鄰接依存關(guān)系HED_SDV,HED_VOB,SDV_VOB,ATT_ATT對(duì)應(yīng)的鄰接依存關(guān)系中詞的詞性特征分別為:h_v_r,h_v_v,r_v_v和n_n_v.

圖1 依存關(guān)系可視化示例

2 實(shí)驗(yàn)過(guò)程

實(shí)驗(yàn)使用的語(yǔ)料庫(kù)包括譚松波提供的中文情感挖掘語(yǔ)料—ChnSentiCorp[13]、搜狗分類語(yǔ)料庫(kù)(精簡(jiǎn)版)[14]、哈爾濱工業(yè)大學(xué) LTP源代碼中提供的測(cè)試語(yǔ)料(test_gb.txt)[15]. SVM 工具采用Weka[16]平臺(tái)提供的 LibSVM軟件包[17],用哈工大 LTP[18]處理生成對(duì)應(yīng)的 xml文件,使用 Python語(yǔ)言編寫程序.

2.1 特征集選取

分別統(tǒng)計(jì)傾向性語(yǔ)料和普通語(yǔ)料中的詞性特征(POS)、依存關(guān)系特征(DEP)、依存關(guān)系中的詞性特征(2-POS)、鄰接依存關(guān)系特征(2-DEP)、鄰接依存關(guān)系中詞性特征(3-POS),得出了以下結(jié)論. 由于篇幅所限,統(tǒng)計(jì)分析得到的統(tǒng)計(jì)圖表見(jiàn)http://www.yourscom.com/v/.

1)詞性中,名詞、副詞、地理名、擬聲詞、嘆詞、專有名詞、縮寫和機(jī)構(gòu)名在有傾向性文本與普通文本中占有率差異明顯. 其中名詞、副詞、擬聲詞在有傾向性文本中占有率明顯高于普通文本,地理名、專有名詞、縮寫和機(jī)構(gòu)名則明顯低于普通文本.

2)依存關(guān)系中,狀中結(jié)構(gòu)、語(yǔ)態(tài)結(jié)構(gòu)、定中關(guān)系、并列關(guān)系、前附加關(guān)系在有傾向性文本與普通文本中占有率差異明顯. 其中狀中結(jié)構(gòu)、語(yǔ)態(tài)結(jié)構(gòu)在有傾向性文本中占有率明顯高于普通文本,定中關(guān)系、并列關(guān)系、前附加關(guān)系則明顯低于普通文本.

3)2-POS中,副詞動(dòng)詞序列、助詞動(dòng)詞序列、名詞形容詞序列、形容詞動(dòng)詞序列、副詞形容詞序列在有傾向性文本中比例較高,名詞名詞序列、地理名名詞序列在有傾向性文本中比例較低.

4)2-DEP中,VOB_MT、SBV_MT、H_IC、ADV_CMP、SBV_IC、ADV_IC、IC_VOB、ADV_ADV、ADV_MT在傾向性文本中比例高于普通文本,ATT_ATT、ATT_DE、VOB_COO、QUN_ATT、ATT_COO、IC_IC在傾向性文本中比例低于普通文本.

5)3-POS中,d_v_v、d_v_u、v_v_u、v_v_a在傾向性文本中比例高于普通文本,p_v_n、v_n_n、h_v_a、h_v_p、p_v_v、n_v_n、n_n_n、n_n_v在傾向性文本中比例低于普通文本.

以上結(jié)論中及文中其他地方出現(xiàn)的關(guān)于依存關(guān)系和詞性的縮寫含義請(qǐng)參考文獻(xiàn)[19].

傾向性詞匯通過(guò)統(tǒng)計(jì)傾向性語(yǔ)料和普通文本語(yǔ)料中使用頻率最高的 3 000個(gè)詞匯并去除二者的交集再手工整理添加常用的形容詞得到.

傾向性搭配嚴(yán)格地講只是使用頻率較高的兩個(gè)詞的組合,通過(guò)2種方法獲得:1)二次遍歷傾向性語(yǔ)料中所有句子,找出使用頻率最高的10 000個(gè)兩個(gè)詞的組合. 2)統(tǒng)計(jì)依存關(guān)系箭頭兩端詞的組合,找出使用頻率最高的10 000個(gè)兩個(gè)詞的組合.

2.2 SVM分類

使用LibSVM的SVM分類器,根據(jù)2.1節(jié)的結(jié)論總結(jié)出特征列表見(jiàn)表1. 按照表1編寫程序分別統(tǒng)計(jì)傾向性語(yǔ)料和非傾向性語(yǔ)料中每個(gè)句子的值,輸出為Weka平臺(tái)數(shù)據(jù)文件格式.

表1 特征列表

例如:句子“我愛(ài)自然語(yǔ)言處理”通過(guò)哈工大LTP平臺(tái)處理生成xml文件的主要內(nèi)容如下:

采用表1的特征集生成Weka平臺(tái)數(shù)據(jù)文件如下:

2.3 實(shí)證結(jié)果

將數(shù)據(jù)文件導(dǎo)入Weka平臺(tái),選擇LibSVM分類器,參數(shù)選擇-S 0-K 2-D 3-G 0.0-R 0.0-N 0.5-M 40.0-C 18.0-E 0.0010-P 0.1,通過(guò)10次交叉驗(yàn)證的方式得到實(shí)驗(yàn)結(jié)果. 表2是傾向性句子和非傾向性句子的混淆矩陣,表3是精度、召回率和F-值的實(shí)驗(yàn)結(jié)果數(shù)據(jù).

表2 傾向和非傾向性句子混淆矩陣

表3 精度、召回率和F-值數(shù)據(jù)

實(shí)驗(yàn)結(jié)果表明:本文設(shè)計(jì)的傾向性句子分類器的精度在 95.6%以上,召回率在 96%以上,F(xiàn)度量值在 95.8%以上. 也就是說(shuō),此分類器用于判斷傾向性句子效果比較好,同時(shí)也表明詞性特征和依存關(guān)系特征可以作為句子傾向性判斷的特征集使用.

3 結(jié)論與展望

本文設(shè)計(jì)了一個(gè)采用 SVM分類器進(jìn)行句子傾向性判斷的系統(tǒng),該系統(tǒng)除了采用傾向性詞匯和傾向性搭配為特征外,還采用詞性特征、依存關(guān)系特征,依存關(guān)系中的詞性特征(2-POS)、鄰接依存關(guān)系特征(2-DEP),鄰接依存關(guān)系中詞性特征(3-POS)等作為依據(jù),實(shí)驗(yàn)結(jié)果表明該系統(tǒng)對(duì)句子傾向性的判斷效果良好.

在手工從普通語(yǔ)料中抽取非傾向性語(yǔ)料的過(guò)程中,完全沒(méi)有陳述人觀點(diǎn)、也沒(méi)有上下文主體的觀點(diǎn)的句子數(shù)量非常少,比例在5%以下. 因此認(rèn)為:在進(jìn)行句子傾向性分析即對(duì)句子的傾向性進(jìn)行分類之前,沒(méi)有必要對(duì)句子的傾向性進(jìn)行判斷. 也就是說(shuō):句子傾向性判斷可以不是句子傾向性分析的前提. 下一步的工作是通過(guò)實(shí)驗(yàn)及相關(guān)語(yǔ)料從多方面來(lái)驗(yàn)證此構(gòu)想.

[1] CORTES C, VAPNIK V. Support Vector Networks[J]. Machime learning, 1995, 20: 273–297.

[2] 趙妍妍,秦兵,劉挺. 文本情感分析[J]. 軟件學(xué)報(bào),2010, 21: 3-10.

[3] TUMEY P. Thumbs up or thumbs down? semantic orientation applied to unsupervised classification of reviews[C]//Proceedings of the 40th Annual Meeting I ACL, [S. I.]: Philadelphia, 2002: 417-424.

[4] TUMEY P, LITTMAN M. Measuring praise and criticism: Inference of semantic orientation from association[J]. ACM Transactions on Information Systems, 2003, 21(4): 315-346.

[5] KAMPS J, MARX M, MOKKEN R J, et al. Using WordNet to measure semantic orientation of adjectives [C]//Proceedings of LREC-04, 4th International Conference on Language Resources and Evaluation, Lisbon, LREC, 2004: 1115-1118.

[6] CHOI Yoonjung, KIM Youngho, MYAENG Sunghyon. Domain-specific sentiment analysis using contextual feature generation[C]//Proceedings of the 1st international CIKM workshop on Topic-sentiment analysis for mass opinion, New york: ACM, 2009: 37-44.

[7] 朱嫣嵐,閔錦,周雅倩,等. 基于HowNet的詞匯語(yǔ)義傾向計(jì)算[J]. 中文信息學(xué)報(bào),2005, 20(1): 14-20.

[8] 熊德蘭,程菊明,田勝利. 基于 HowNet的句子褒貶傾向性研究[J]. 計(jì)算機(jī)工程與應(yīng)用. 2008, 44(22): 143-145.

[9] 潘寧,林鴻飛. 基于語(yǔ)義極性分析的餐館評(píng)論挖掘[J]. 計(jì)算機(jī)工程,2008, 34(17): 208-210.

[10] TESNIERE L. éléments de syntaxe structurale[M]. Paris: Klincksieck, 1959.

[11] 魯川. 知識(shí)工程語(yǔ)言學(xué)[M]. 北京:清華大學(xué)出版社,2010: 8.

[12] 周國(guó)光. 現(xiàn)代漢語(yǔ)配價(jià)語(yǔ)法研究[M]. 北京:高等教育出版社,2011.

[13] 譚松波. 中文情感挖掘語(yǔ)料:ChnSentiCorp[EB/OL]. 北京:譚松波,2010-06-29[2012-03-21]. http://www.searchforum.org.cn/tansongbo/corpus-senti.htm

[14] 搜狐研發(fā)中心. 文本分類語(yǔ)料庫(kù)[EB/OL]. 北京:搜狐研發(fā)中心,2008-09[2012-03-23]. http://www.sogou. com/labs/dl/c.html

[15] CHE Wanxiang, LI Zhenghua, LIU Ting. LTP: A chinese language technology platform[C]//Proceedings of the Coling 2010 Demonstrations, Beijing: [s.n.]. 2010: 13-16.

[16] HALL M, FRANK E, HOLMES G, et al. The weka data mining software: an update[J]. SIGKDD Explorations, 2009, 11(1): 10-18.

[17] CHANG Chihchung, LIN Chihjen, LIBSVM: a library for support vector machines[EB/OL]. [s.l.]: ACM Transactions on Intelligent Systems and Technology, 2011[2012-04-05]. http://www.csie.ntu.edu.tw/~cjlin/ libsvm.

[18] 哈工大社會(huì)計(jì)算與信息檢索研究中心. 語(yǔ)言技術(shù)平臺(tái)[EB/OL]. 哈爾濱:哈工大社會(huì)計(jì)算與信息檢索研究中心,2011[2012-04-08]. http://ir.hit.edu.cn/demo/ltp/.

[19] 李正華. LTP使用文檔V2.1[EB/OL]. 哈爾濱:哈爾濱工業(yè)大學(xué)信息檢索研究室,2009[2012-04-11]:13-14. http://ir.hit.edu.cn/ demo/ltp/LTP-manual-v2.0.1.pdf.

Sentences Tendency Judgement by POS and Dependency Based on SVM

WU Ming-fen1,2, CHEN Tao1,2
(1. Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China; 2. School of Information Science, Wuyi University, Jiangmen 529020, China)

The objective sentences of multi-domain from views is distinguished by using part of speech, dependency relationship, the part of speech combinations of the two words under one dependency, two adjacent dependencies, the part of speech combinations of the three words under two adjacent dependencies, sentiment words and sentiment collocations as features of SVM classifier. The precision is about 95.6% with 10-fold cross-validation. It is assumed that the sentence tendency judgement is not the premise of the document sentiment analysis.

tendency judgement; dependency; part-of-speech characteristics; support vector machine

1006-7302(2012)04-0066-06

TP391.1

A

2012-06-27

中國(guó)科學(xué)院計(jì)算技術(shù)研究所智能信息處理重點(diǎn)實(shí)驗(yàn)室開(kāi)放課題基金資助項(xiàng)目(LIP2010-5);廣東省科技計(jì)劃資助項(xiàng)目(2010B010600039);廣東省自然科學(xué)基金資助項(xiàng)目(S2011010003681);江門市科技計(jì)劃資助項(xiàng)目(2012003009398)

吳明芬(1964—),女,江蘇常熟人,教授,碩士,碩士生導(dǎo)師,CCF高級(jí)會(huì)員,研究方向?yàn)槟:⒋植诩碚摷捌湓谥悄苄畔⑻幚碇械膽?yīng)用.

韋 韜]

猜你喜歡
傾向性語(yǔ)料分類器
基于模糊數(shù)學(xué)法的阿舍勒銅礦深部巖體巖爆傾向性預(yù)測(cè)
BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
關(guān)于醫(yī)患沖突報(bào)道的傾向性分析——以“湘潭產(chǎn)婦死亡案”為例
華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
“沒(méi)準(zhǔn)兒”“不一定”“不見(jiàn)得”和“說(shuō)不定”的語(yǔ)義傾向性和主觀性差異
《苗防備覽》中的湘西語(yǔ)料
國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類型與收集方法
南昌市| 吴桥县| 陕西省| 岚皋县| 湘阴县| 汉沽区| 江陵县| 讷河市| 胶州市| 霍城县| 高邮市| 登封市| 广元市| 蓝山县| 楚雄市| 大荔县| 关岭| 涟水县| 灌南县| 朔州市| 凉山| 安多县| 余干县| 和林格尔县| 安阳市| 宝清县| 个旧市| 永修县| 新营市| 三明市| 河池市| 乌鲁木齐县| 广水市| 东乡| 新巴尔虎左旗| 马关县| 隆尧县| 鞍山市| 双辽市| 邮箱| 吴旗县|