【摘要】情感分析技術是自然語言處理領域的重要分支。將文學語言視為自然語言,利用百度智能云平臺對貝婁早期作品中的女性書寫進行情感分析是一次創(chuàng)新性嘗試。實驗表明,處于創(chuàng)作早期的貝婁整體上對女性人物呈正向情感傾向。利用百度智能云對文學語言進行情感分析具有一定的可靠性,但絕對依靠機器將使文學研究失去人文屬性的本質,而單純的文本細讀會造成主觀臆斷的可能。機器與人工的結合是新文科建設背景下文學研究兼具科學與人文雙重屬性的有益嘗試。
【關鍵詞】索爾·貝婁;女性觀;情感分析;百度智能云
【中圖分類號】I107 ? ? ?【文獻標識碼】A ? ? ?【文章編號】2096-8264(2023)28-0055-03
【DOI】10.20024/j.cnki.CN42-1911/I.2023.28.017
基金項目:本文系湖南工程學院青年科研項目“索爾·貝婁創(chuàng)作中期的女性觀研究”(項目編號:XJ1815)階段性成果;2022年湖南省教育廳科學研究項目(項目編號:22C0422)。
一、引言
美國諾獎作家索爾·貝婁歷來是國內外研究者們的關注對象,其筆下的女性人物更是引發(fā)了不小爭議。有學者認為,貝婁是一名厭女型作家,其筆下的女性人物大多為魔鬼化形象,與男性人物形成競爭關系。還有部分學者對此大加批判,認為貝婁塑造的女性人物是敢于對抗男權,追求自由平等的新女性。此類研究者大都采用文本細讀法單憑一部或幾部作品便斷定其整個創(chuàng)作生涯的女性觀積極與否,沒有以發(fā)展的眼光看待貝婁女性觀的演進,有失公允。貝婁的創(chuàng)作生涯長達近60年,學界普遍將其分為早、中、晚三個時期。在一次采訪中,貝婁公開宣稱:“我早期的作品沒有多大用處,《晃來晃去的人》和《受害者》可不是我的樂子”[1]。即便如此,貝婁早期作品中的女性書寫仍值得研究者們去挖掘,是綜合考量其女性觀演進的前期基礎。此外,單純的文本細讀可能會因個體差異而產生不同的解讀,容易造成主觀臆斷。因此,為增強對貝婁女性人物研究的科學性,響應新文科建設的呼喚,采用現(xiàn)代信息技術對貝婁作品進行“遠讀”嘗試已變得緊迫且必要。鑒于語言文字的固有情感意義會傳遞出作者自身的感受和態(tài)度,本文將運用自然語言處理領域的情感分析技術對索爾·貝婁早期作品中的女性人物書寫進行情感傾向分析,以揭示貝婁在該時期的女性觀,進而探討將文學語言視為自然語言進行情感分析的可行性問題。
二、文學研究與情感分析技術
21世紀以來,信息技術的迅猛發(fā)展影響著社會生活的方方面面,也給人文社科研究帶來了巨大的機遇與挑戰(zhàn),國內部分研究者正主動融入這場信息化革命。早在1949年,意大利神父羅伯托·布薩(Roberto Busa)就與IBM合作對神學家托馬斯·阿奎那(Thomas Aquinas)的全集做索引。自此,“人文計算”這一概念開始獲得廣泛關注和實踐,相繼出現(xiàn)了頗具影響力的研究協(xié)會與學術期刊。進入到21世紀,計算機技術與互聯(lián)網的迅猛發(fā)展使得大型數(shù)據庫的建設成為可能,學界逐步轉向對“數(shù)字人文”這一概念的討論,但對于其概念定義和出現(xiàn)時間至今仍未達成共識。
在文學研究領域,弗朗哥·莫萊蒂(Franco Moretti)是這一時期引領世界文學研究朝數(shù)字人文邁進的重要人物之一。2000年,他在《對世界文學的猜想》一文中,首次提出了“遠距離閱讀”(distant reading)這一術語[2]。2010年,莫萊蒂又牽頭建立了斯坦福大學文學實驗室,致力于運用現(xiàn)代計算機技術對世界文學進行研究,是該領域迄今為止最具世界影響力的項目。漢語世界中將信息技術與人文研究相結合的實踐始于20世紀下半葉,研究領域主要集中在計算語言學、地理信息系統(tǒng)與歷史信息系統(tǒng)、學術數(shù)據庫、檔案庫庫建設、大型商業(yè)數(shù)據庫建設等。具體到文學研究相對較少,美國紅學者陳炳藻在1980年首屆國際紅樓夢研討會上宣讀了論文《從詞匯上的統(tǒng)計論〈紅樓夢〉的作者問題》,率先利用計算機對《紅樓夢》后四十回的著作權屬進行探析,與會者對他的創(chuàng)造性研究方法表示贊賞[3]。近年來數(shù)字人文在中國學界獲得了廣泛關注和發(fā)展,但真正踐行數(shù)字人文的研究者甚少。趙薇認為數(shù)字人文有強烈的“實踐性”要求,需要用成果說話,把做數(shù)字人文研究變成“談論數(shù)字人文”,最終難逃曇花一現(xiàn)的結局[4]。情感分析技術應用于文學研究既是對數(shù)字人文“實踐性”呼喚的有效回應,也是增強文學研究科學性的有效手段。
情感分析,也稱觀點挖掘。這一研究領域的目標是從文本中分析出人們對于實體及其屬性所表達的觀點、情感、評價、態(tài)度和情緒[5]。2003年Nasukawa、Tetsuya和Jeonghee Yi在第二屆知識獲取國際研討會上公開發(fā)表論文《情感分析:運用自然語言處理捕獲好感度》。由此,這一術語開始進入學界的視野,但與其相關的研究早些時候便已開展。時下,情感分析技術已被廣泛運用于電子商務、市場預測、輿情監(jiān)控、政治選舉等領域,與管理學、政治學、經濟學、語言學呈現(xiàn)出跨學科交叉研究的繁榮景象。在文學研究領域,國內外部分學者已開始嘗試將情感分析運用于文學計算批評實踐,并取得了高質量成果。Yu Bei運用樸素貝葉斯(Na?ve Bayes)和支持向量機(SVM)兩種算法對美國早期小說進行情感分類處理,以比較這兩種分類器在處理文學文本時的表現(xiàn)[6]。張璐以中國科幻文學作品《三體》為例,將Python情感分析運用于《三體》海外讀者的接受研究,從互聯(lián)網海量評論中以量化的方式挖掘出英語讀者對該書的情感態(tài)度和評價,總結該書在海外成功或失敗的原因[7]。石春讓和鄧林通過運用情感分析技術,分析了西方讀者對莫言小說十一部英譯本發(fā)表的網絡評論,量化其情感態(tài)度并分類整理代表性的評論,探索西方讀者的接受程度[8]。
當前,情感分析主要依靠機器學習、情感詞典以及借助第三方商業(yè)平臺實現(xiàn),三者各有其優(yōu)缺點。機器學習需要構建機器學習模型,采用無監(jiān)督學習和有監(jiān)督學習兩種方法。無監(jiān)督學習依賴處理語料的領域范圍,由于語料沒有做過標記,存在對基準情感詞的依賴性問題,準確率較低。而有監(jiān)督學習是機器學習的常用手段,語料通常已被做過標記,采用的算法包括樸素貝葉斯(Na?ve Bayes)、最大熵(Max Entropy)、決策樹(Decision Tree)、TF-IDF(term frequency-inverse document frequency)等。因其較高的準確性,有監(jiān)督的機器學習現(xiàn)已成為國際上最常用的情感分析技術?;谇楦性~典的情感分析技術需要將事先已經構建好的情感詞典加載到Python語言,然后根據正負情感數(shù)的差值判定情感的正負傾向,但現(xiàn)有的情感詞典并未能收錄全部英文字詞。知網情感詞典(HowNet)和sentiwordnet是常見的可以處理英文文本的情感詞典。第三方商業(yè)平臺因技術門檻求低且部分功能免費試用,在處理小型數(shù)據集時具有得天獨厚的優(yōu)勢,包括百度智能云、訊飛開放平臺、斯圖飛騰(Stratifyd)等。
三、研究設計與流程
貝婁一生筆耕不輟,共創(chuàng)作出10部長篇小說,5部中篇小說,5部短篇小說和1部散文隨筆。本文將根據學界普遍接受的分類,選取其早期創(chuàng)作的兩部長篇小說作為研究對象,即《受害者》和《晃來晃去的人》?!妒芎φ摺分兴婕暗呐匀宋镏饕邪漳?、瑪麗、艾琳娜的母親?!痘蝸砘稳サ娜恕分兄饕呐匀宋镉邪蕖⒒?、阿爾特施塔特夫人、埃特和多莉。
首先,數(shù)據獲取。通過文本細讀,抽取包含對各個女性人物描述的句子,其中有關艾琳娜的有24條,瑪麗7條,艾琳娜的母親16條,艾娃13條、基蒂7條、阿爾特施塔特夫人7條、埃特9條、多莉4條。
然后,基于百度智能云進行情感分析??紤]到數(shù)據集較小,本次實驗將選擇技術要求較低且可以供用戶免費試用的第三方商業(yè)平臺—百度智能云?;赑ython語言, 用戶只需簡單的編程即可在該平臺獲得包含正向情感值、負向情感值、可信度等反饋結果。情感總值為1,當情感值大于0.5時判定為正向,當小于0.5時,判定為負向。
最后,人工標注并進行結果比對。與社會文本不同的是,小說文本包含了作者的復雜情感,文本表層之下的含義可能會受到其寫作技巧的影響。因此,有必要進行人工標注情感傾向,以驗證機器在小說文本情感分析中的準確性與可靠性。實驗將邀請5位英美文學方向的研究生為數(shù)據集進行人工標注,統(tǒng)計正向情感和負向情感的占比,所得結果將與機器反饋的結果進行比對。
四、實驗結果與分析
表1為百度智能云分析統(tǒng)計結果,記錄了各女性人物對應的正負情感傾向條數(shù)。表2為5位研究生的人工標注統(tǒng)計結果,記錄了各女性人物對應的情感傾向條數(shù)在總條目數(shù)中的占比。經對比分析得出如下結論:
第一、總體上看,兩種方法得出的結果具有一致性,都體現(xiàn)出了作家在描寫女性人物時較為積極的情感傾向。經過對《受害者》中艾琳娜、瑪麗和艾琳娜的母親三位主要女性人物的分析,百度智能云得出的結果皆為正向,人工標注的正向占比也皆大于負向。盡管在《晃來晃去的人》中,人工標注法顯示艾娃、埃特和多莉所對應的正向情感傾向占比小于負向,但埃特和多莉只是整部小說的配角,話語權重小。因此,綜合考量兩部作品中的主要女性人物,貝婁創(chuàng)作早期表現(xiàn)出了較為積極的女性觀。
第二、兩種方法在對同一人物進行分析時具有相似趨勢。表一中艾娃和埃特首次出現(xiàn)負向情感傾向,分別為1條和2條,而表二中艾娃和埃特的負向情感傾向占比也皆大于正向。盡管兩種方法得出的最終結果不同,但都表明貝婁在書寫艾娃和埃特時開始出現(xiàn)負向情感傾向。
第三,兩種方法對第二部小說的分析結果完全一致。第一部小說《晃來晃去的人》中女性人物較豐富,兩種方法得出的結論略有不同,可能是因為貝婁在書寫女性人物時較為復雜的心理狀態(tài),讀者難以判定其正負情感傾向。針對第二部小說《受害者》,兩種方法得出的結論完全一致,正向情感傾向皆占主導,表明貝婁對女性的態(tài)度由最初的復雜和不確定逐步走向成熟穩(wěn)定。
表一:百度智能云分析結果
表二:人工標注結果
《晃來晃去的人》中的女主人公艾娃是典型的職業(yè)女性。盡管艾娃從未替自己發(fā)聲,但讀者卻可以從文本中看到一個經濟獨立、追求自由的新型職業(yè)女性形象。約瑟夫在日記中寫道,“在此期間,我老婆艾娃一直供養(yǎng)著我。她聲稱,這不算什么負擔,還勸我借此機會好生自由自在幾天,讀讀書,痛痛快快地玩一玩”??梢?,在約瑟夫應征入伍前的日子,艾娃取代了約瑟夫的位置,成為家里的唯一經濟來源,擺脫了男權社會中女性在經濟上完全依附于男性的傳統(tǒng)形象。此外,艾娃的內心也充斥著對男權的反叛意識,甚至連反叛對象約瑟夫自己都認為這合情合理?!鞍藓臀铱偸遣粔蚝湍?。這也不能全怪她。多年來,她一直由我擺布,現(xiàn)在,她有了反叛的能力……我期待著某種反抗?!盵9]自由之于艾娃與自由之于約瑟夫已變得同等重要。艾娃成為貝婁早期作品中謳歌女性追求獨立和自由的典范。
《受害者》中的瑪麗出場次數(shù)較少,但卻絲毫不影響其作為女主人公的重要性,貫穿著整部小說的始末?,旣愅昝赖呐孕蜗笤谒龑δ赣H的盡善盡孝中得到完美呈現(xiàn)。由于父親新逝,瑪麗立即前往巴爾的摩幫助母親搬家,前往位于查爾斯頓的弟弟家中居住,一個孝順的猶太女兒形象盡現(xiàn)在讀者眼前。此外,小說中貝婁并沒有安排代表“善”的瑪麗與代表“惡”的阿爾比相識,體現(xiàn)了他對瑪麗完美女性形象的保護,使她與“惡”保持著絕對的距離。在瑪麗離家的日子,“他天天都盼著聽到瑪麗要回來的消息。如果她在這種局面結束之前回來怎么辦呢?”盡管阿薩對妻子瑪麗望眼欲穿,也不愿在他與阿爾比的麻煩未解決之前就希望瑪麗歸來。甚至在小說的最后一章,當阿薩攜瑪麗一起前往劇院觀劇時,盡管阿薩認出了阿爾比,但貝婁并沒有安排瑪麗與阿爾比相識。
五、結語
作為自然語言處理領域的重要分支,情感分析技術在文本挖掘方面具有舉足輕重的地位和優(yōu)勢。在對貝婁早期兩部小說中的女性人物書寫進行情感分析時,盡管基于機器的情感分析方法與人工文本細讀法所得出的結果在細節(jié)上略顯不同,但總體上保持著一致性,都體現(xiàn)出貝婁較為積極的女性觀。實驗結果也驗證了百度智能云在對文學語言進行情感分析時具有一定的可靠性。但是,文學語言與自然語言的區(qū)別注定不能完全依靠機器解讀作家的觀點。在對文學文本進行類似處理時,研究者們應考慮將機器與人工兩種方法相結合,取長補短,以避免機器遠讀的絕對性和人工細讀的主觀性。
本次實驗采取了人工細讀的方式來獲取測試樣本,雖可信度較高,但在處理大型文本語料時,便無法解決大量的未讀問題。此外,百度智能云適用于大多數(shù)的生活應用場景,但在文學研究領域其可靠性仍待提升。因此,后續(xù)的研究將考慮設計基于特定主題的文本信息抓取模型,將更加可靠的機器學習方法應用于文學文本的情感傾向研究中。
參考文獻:
[1]Roudané Matthew C.,Saul Bellow.An Interview with Saul Bellow[J].Contemporary Literature,1984, 25(3):265-280.
[2]Moretti Franco.Conjectures on world literature[J].New Left Review,2000,(1):54-68.
[3]海炯.首屆國際紅樓夢研討會簡況[J].社會科學, 1980,(5):156-157.
[4]趙薇.數(shù)字時代人文學研究的變革與超越——數(shù)字人文在中國[J].探索與爭鳴,2021,(6):191-233.
[5]劉兵.情感分析:挖掘觀點、情感和情緒[M].北京: 機械工業(yè)出版社,2017.
[6]Yu Bei.An evaluation of text classification methods for literary study[J].Literary and Linguistic Computing,2008,23(3):327-343.
[7]張璐.從Python情感分析看海外讀者對中國譯介文學的接受和評價:以《三體》英譯本為例[J].外語研究,2019,(4):80-86.
[8]石春讓,鄧林.基于情感分析技術的莫言小說英譯本在西方的接受程度研究[J].外國語文,2020,36(3):91-96.
[9]索爾·貝婁.索爾·貝婁全集[M].石家莊:河北教育出版社,2002.
作者簡介:
梁彪,男,湖南邵陽人,湖南工程學院外國語學院講師,主要從事英美文學、數(shù)字人文研究。