基于主題情感混合模型的無監(jiān)督文本情感分析
孫艷,周學廣,付偉
摘要:目的:針對有監(jiān)督、半監(jiān)督的文本情感分析存在標注樣本不容易獲取的問題,通過在 LDA模型中融入情感模型,提出一種無監(jiān)督的主題情感混合模型(UTSU模型),為應對互聯(lián)網(wǎng)上的海量中文信息自動評價和情感自動分類提供一種文本情感分析工具。方法:在LDA主題模型基礎上,添加情感模型,從而構建UTSU模型。LDA模型是一個完全的生成模型,是一種三層貝葉斯模型。UTSU模型是一個四層貝葉斯模型,該模型假設一個句子的所有詞由一種情感產(chǎn)生(轉折句除外),沿用LDA模型假設每個詞有不同的主題,對每個詞采樣主題標簽,建立“文檔-主題-詞”關系;對每個句子采樣情感標簽,建立“文檔—情感—句子”關系。在運行UTSU模型前,先要對文檔進行預處理,將轉折句拆分為兩句。采樣使用 Gibbs采樣算法。Gibbs采樣算法是馬爾可夫鏈蒙特卡羅理論(MCMC)中用來獲取一系列近似等于指定多維概率分布觀察樣本的算法。結果:完成兩個實驗。(1)主題-情感詞發(fā)現(xiàn)實驗。利用UTSU模型進行主題情感發(fā)現(xiàn)實驗,得到的主題-情感詞按照在文檔集中的概率大小,排列如表3所示。從表3中可以看出,正負情感詞在主題-情感發(fā)現(xiàn)中分類比較明顯,如表3上半部表示貶義的情感詞“郁悶、慢、重、一般”等,表 3下半部表示褒義的情感詞有“不錯、漂亮、小巧、喜歡、舒服、精致”等。去除噪聲詞后獲得了效果更好的分類結果。(2)情感分類對比實驗。比較對象是與 UTSU模型相近的ASUM模型、JST模型和Pang方法。實驗效果最好的是Pang方法,其次是UTSU模型。究其原因,Pang方法是基于向量空間模型的有監(jiān)督學習方法,需要預先標注樣本、再對樣本進行訓練,而后才能完成分類測試,有監(jiān)督學習方法是 Pang方法分類效果好的基礎。其他3種無監(jiān)督主題情感混合模型實驗結果是:UTSU模型的情感分類在4個數(shù)據(jù)集上綜合指標平均值比ASUM模型高約2%,比JST模型高約16%。具體分析如下:UTSU模型對每個句子采樣情感標簽,對每個詞采樣主題標簽,無須對樣本進行標注,就可以得到各個主題的主題情感詞。JST模型每次采樣情感標簽時,對每個詞都采樣,不符合自然語言的情感表達,故其情感分類效果最低。結論:本文重點從無監(jiān)督機器學習和文本表示模型的角度對中文文本情感分類進行了研究。在 LDA模型的基礎上融入情感模型,提出無監(jiān)督的主題情感混合模型UTSU模型。UTSU模型采樣方式既符合中文的情感表達,又不會縮小詞與詞之間的主題聯(lián)系。實驗表明UTSU模型比有監(jiān)督情感分類方法稍差,但在無監(jiān)督的情感分類方法中效果好,可用于中文文本情感自動分類工作。
來源出版物:北京大學學報(自然科學版), 2013, 49(1):102-108
入選年份:2017
四川盆地富有機質頁巖硅質生物成因及對頁巖氣開發(fā)的意義
王淑芳,鄒才能,董大忠,等
摘要:目的:隨著四川盆地頁巖氣勘探工作的深入,下志留統(tǒng)龍馬溪組頁巖成為中國頁巖氣突破的重點層系。頁巖層底部富含硅質成分,但尚未對硅質來源及意義做深入研究,缺乏對頁巖生物硅質成因的重要性以及生物成因硅在頁巖中所占比例的認識。方法:通過巖石學、有機碳含量、主量元素和力學性質分析,對四川盆地長寧雙河剖面上奧陶統(tǒng)五峰組和下志留統(tǒng)龍馬溪組頁巖硅質的生物成因及其意義進行探討。結果:根據(jù)薄片觀察及巖石學和地球化學分析,獲得結果如下。(1)在五峰組和龍馬溪組頁巖中發(fā)現(xiàn)大量微體生物化石,主要為海綿骨針、放射蟲、有孔蟲等,指示頁巖中硅質成分可能為生物成因。(2)通過計算,得出五峰組和龍馬溪組頁巖過量硅含量為 40%~62.7%。雖然在五峰組和龍馬溪組頁巖中不能忽視硅質的碎屑來源,但該套頁巖中約40%~60%的過量硅質是生物來源。長寧雙河剖面下部 Al2O3與 TiO2具有較高的相關性(R=0.99),但含量相對偏低(分別不高于 5.52%和 0.28%),并且與SiO2含量沒有任何相關性(R=-0.34,-0.25),說明陸源物質對硅質成分貢獻不大。長寧剖面底部富有機質頁巖4個樣品的Al/(Fe+Al+Mn)比值為0.67~0.71,在Al-Fe-Mn圖解上落于生物成因區(qū),Si/(Si+Al+Fe)比值為 0.89~0.93,平均 0.90,表明頁巖硅質為生物成因。(3)長寧雙河剖面下部富有機質頁巖的TOC含量與硅質含量呈現(xiàn)較好的正相關性,說明硅質成因可能與生物有關。(4)硅質生物成因對于頁巖古沉積條件重建以及成巖作用研究有重要指示意義,五峰組和龍馬溪組頁巖中放射蟲等生物體反映靜水和相對深水的陸棚沉積環(huán)境。同時,這種環(huán)境對生物死亡后的埋藏和保存也起積極作用,且生物生產(chǎn)率高,有利于形成富有機質頁巖,對頁巖氣有利層位選擇有重要意義。(5)硅質含量越高,頁巖脆性越大,越有利于裂縫形成,頁巖天然裂縫的發(fā)育直接影響頁巖氣藏的開采效益和產(chǎn)量。長寧雙河剖面頁巖裂縫發(fā)育程度與硅質含量有正相關關系。(6)富含硅質的頁巖比富含黏土質的頁巖在人工壓裂中產(chǎn)生更多的裂縫系統(tǒng),樣品巖石抗壓強度為38.51~111.41 MPa,楊氏彈性模量為10.15~35.09 GPa,泊松比為0.12~0.28,具有高彈性模量、低泊松比特征,有利于人工壓裂。結論:四川盆地長寧雙河剖面五峰組和龍馬溪組頁巖中發(fā)現(xiàn)大量放射蟲、海綿骨針等微化石,粒徑為25~1000 μm,多被硅質、鈣質和黃鐵礦充填,或被溶蝕呈鑄??锥矗f明頁巖中硅質可能為生物成因。五峰組和龍馬溪組頁巖富含 SiO2,含量為43.34%~73.8%,具高SiO2,P2O5和Fe2O3,低Al2O3,TiO2,F(xiàn)eO和MgO特征。通過計算,得到剖面下部40%~62.7%的SiO2為過量硅,且Al2O3與TiO2含量具有高相關性,而與SiO2含量無相關性,說明陸源碎屑貢獻較小。Al/(Fe+Al+Mn)比值為 0.67~0.71,Si/(Si+Al+Fe)比值為 0.89~0.93,表明頁巖硅質的生物成因。剖面下段頁巖TOC含量較高,平均 3.86%,TOC>2%的頁巖中SiO2含量大于60%,TOC與硅質含量有正相關關系,說明硅質成因與生物有關。硅質生物成因對頁巖氣勘探開發(fā)具有重要意義,指示沉積環(huán)境為富硅深水陸棚,有利于生物保存和富有機質頁巖的形成。硅質成分越高,巖石脆性越大,可形成自然裂縫,并有利于后期頁巖儲層壓裂改造,形成有效人工縫,這是目前頁巖氣富集高產(chǎn)的主要原因。
來源出版物:北京大學學報(自然科學版), 2014, 50(3):476-486
入選年份:2017