梁利高
摘要:隨著web文本的情感分析越來越受到青睞,各相關領域的領域都展開了個性化的應用探索。然而,在金融證券域目前確實相對的欠缺,甚至是空白。尤其是金融證券正在蓬勃發(fā)展的時代,基于語素的金融證券域文本情感探測尤為必要,通過對于分析、綜合各方面的信息,進而給各方面主體提供參考。
關鍵詞:語素 金融證券 情感分析
一、相關工作
在文本情感分析成為一種時尚的分析法時,對于金融證券域的分析,需要立足金融證券的實際展開。一是,對各相關的對象展開分類。不可能面面俱到,主要立足當前國內(nèi)的主要證券實施。二是,要確定時限。就是在什么時間段內(nèi)去提取那些文本信息,才能達到對于各種經(jīng)濟指標的平衡性,而不至于因為短期國內(nèi)國際形勢造成的曇花現(xiàn)象。三是,抽取多少文本信息,即是量的選擇。如何才能把握好抽取的量與文本的質的問題,即要在相對的量內(nèi)選擇盡可能展現(xiàn)情感傾向的典型文本來。因而,要做好基礎性的工作。首先,要全面地閱讀與學習,閱讀相關的情感文本,閱讀關于文本分析的案例及相關的理論,獲得學術上的支持。其次,要注意甄別,尤其是相關的文本信息時段的甄別、信息真?zhèn)蔚恼鐒e、發(fā)布主體的甄別,以確保全面性,才能獲得較為公正的結論來。
二、基于語素的文本情感分析
(一)框架
任何工作都需要建立在一定的既定框架內(nèi)實施,因而,該情感探測也同樣需要建框。一方面,要針對金融證券域建框,即要針對那些金融證券產(chǎn)品實施文本情感探測。不能沒有目標,也不能目標太多,因而要注意其典型性、代表性。另一方面,為探測內(nèi)容建框。既然是金融證券域,就應該主要是以企業(yè)發(fā)布的經(jīng)濟數(shù)據(jù)為藍本,立足金融證券域的各種相關的評價、評論以及預測,在其中發(fā)現(xiàn)那些情感傾向性明顯的文本信息,進而去歸納、綜合、分類與提取。
(二)種子集選取
在上述框架內(nèi),通過有針對性地選取,如相關各種典型的預測、企業(yè)走向較為理性的穩(wěn)定的評價,及立足企業(yè)不穩(wěn)定的各種元素基礎上的悲觀的預測等,在其中選取甄別,進而在較多的信息中,歸納出規(guī)律性的結論來,進而指導各相關主題的發(fā)展。在實際的工作中,盡可能地把各種情感傾向都有代表性選取。尤其需要注意的原則是,在選取情感文本時,切記加入自己的情感傾向,務必保持客觀的心態(tài),來面對文本。
(三)文檔情感傾向性計算
這種傾向性,主要各相關主體在對相關經(jīng)濟形勢理想觀察下,帶著個人情感的評論等,雖然帶有個人主觀色彩,有著各種利己的祈禱式的祝福,但是,其中還是有著較多的理性成分。在通過其文本的詞匯、語句及整個文檔的格局等,都可以獲得相對文檔且可靠計算值來,進而結合企業(yè)發(fā)展數(shù)據(jù)得出合理的結論。因而,在計算中要以文本的細粒度為基本,進而展開情感屬性的研究,盡可能地把設計相關政府輿情分析、企業(yè)的發(fā)展趨勢分析及其他主體的個人追求分析,都計算入內(nèi),才能得出經(jīng)濟的綜合運算結果來。
三、試驗結果
(一)試驗數(shù)據(jù)集
為獲得較為科學穩(wěn)定的數(shù)據(jù),作者分別各抽取股票、期貨、基金等三項常見的金融證券域語素一百份展開研究,利用web情感探測進行分析。(如表所示)
此表,可以看出,越是變化多、不穩(wěn)定且難以把握的金融證券,各主體投入的情感越多。同時,也可以得出的結論是,那些跌入谷底,且暫時沒有希望的金融證券,人們投入的情感相對較少,或者是根本的放棄。
(二)評測方法
詞數(shù)據(jù)的獲得,就是針對上述三種金融證券采取隨機分別抽取一百份文本,進行逐個的統(tǒng)計獲得。集中地運用文本情感分類、情感信息抽取、情感傾向自動摘要等評測方法。其中,“積極”、“消極”與“淡定”比例,是在總情感比的基礎上展開的計算,獲得了相關的數(shù)據(jù)。通過這些數(shù)據(jù),基本可以直觀地看到各種情感傾向性,進而對企業(yè)的相關發(fā)展趨勢展開新的預測。
(三)實驗結果
該實驗結果,基本上能較為直觀地反應當前經(jīng)濟發(fā)展的形勢。其中,不僅可以看到企業(yè)發(fā)展的現(xiàn)狀,也可以觀察到他們近期可能會出現(xiàn)的一些情況,諸如經(jīng)濟的好轉,或者繼續(xù)在短時間內(nèi)惡化。當然,對于一些較為敏感的企業(yè),如茅臺酒等,由于受到國內(nèi)節(jié)約形勢的影響,其股票也受到了重創(chuàng),在情感傾向性的分析中尤為突出。
四、結論和展望
通過金融證券域語素的文本情感探析認為,情感文本的探測,是當前反應各相關主體的認識動態(tài)的指標之一。此種探測方法,值得堅持且要在積極地開發(fā)相關分析軟件的基礎上,爭取大面積地實施,不僅可以為企業(yè)、政府及其他主體如股民等,提供較為全面的參考,也可以盡早地發(fā)現(xiàn)企業(yè)的不足,促使其改進與提升質量。當前,在情感探測領域,最缺少的就是有針對性地分析軟件或平臺,亟需相關部門或科研機構展開研究,取得突破,以期應用于金融證券域的語素情感傾向探測。
參考文獻:
[1]李國林,萬常選,邊海容,楊莉,鐘敏娟.基于語素的金融證券域文本情感探測[J],計算機研究與發(fā)展,2011,?48(z2)
[2]邊海容,萬常選,李國林,楊莉. Web金融信息情感傾向與上市公司財務危機的關系研究[A],第13屆全國計算機模擬與信息技術學術會議——信息化、工業(yè)化融合與服務創(chuàng)新論文集[C],2011年7月15日
[3]李國林.基于語義分析的Web金融文本信息情感計算[D],江西財經(jīng)大學,2012
[4]周城.面向中文Web評論的情感分析技術研究[D],國防科學技術大學, 2011