李森
(北方工業(yè)大學(xué)圖書館,北京 100144)
近年來,隨著研究生教育的不斷深入,碩士教育水平逐漸上升。畢業(yè)論文作為衡量在校生學(xué)術(shù)規(guī)范意識(shí)的培養(yǎng)、研究方法的掌握與語言表達(dá)能力的積累和訓(xùn)練等方面內(nèi)容的綜合手段,為國內(nèi)外絕大多數(shù)培養(yǎng)單位采用。同前兩個(gè)方面相比,表達(dá)能力也許是最容易被忽視的,但實(shí)際上其表現(xiàn)并不樂觀[1]。學(xué)生畢業(yè)后,其進(jìn)一步選擇主要包括繼續(xù)在國內(nèi)深造、直接工作和出國留學(xué)。如將考察對(duì)象只集中于詞匯的使用,在前兩種選擇中,學(xué)生均會(huì)繼續(xù)使用本民族語言進(jìn)行產(chǎn)出性語言行為,二者只是在詞匯的使用范疇上存在一定差別,卻未產(chǎn)生本質(zhì)性差異[2-3];雖然學(xué)生出國后會(huì)較少使用本民族語言,但與學(xué)業(yè)技能發(fā)展關(guān)系最為緊密的“認(rèn)知/學(xué)業(yè)語言能力”可為雙語者在不同語言中共享,且具有可遷移性[4],因?yàn)楸久褡逭Z言的提升能在其他語言的使用上得到體現(xiàn),所以學(xué)生在校期間漢語能力的培養(yǎng)對(duì)今后的工作與深造均具有積極作用。因此僅通過對(duì)畢業(yè)論文的用詞情況來探究碩士的語言能力、進(jìn)而衡量在校生的學(xué)習(xí)積累和對(duì)比不同專業(yè)間研究生培養(yǎng)效果的研究可以得到理論上的支持,且具有較高的應(yīng)用價(jià)值。在可見的文獻(xiàn)中,研究生語言能力的研究基本集中于外語水平的比較,且多數(shù)僅通過人工測試或語料庫的簡單統(tǒng)計(jì)[5-6]。這些方法雖能表現(xiàn)部分語言使用者的語言情況,卻無法反映研究對(duì)象的語言能力,因此還需將這種表現(xiàn)“外推(extrapolation)”至能夠代表其語言能力和個(gè)人或群體特征的語言總體(population)或某個(gè)總體子集,但通過此類認(rèn)識(shí)與研究手段進(jìn)行的、專門針對(duì)某一群體漢語能力的研究尚未被作者發(fā)現(xiàn),因此如能填補(bǔ)這一空白將會(huì)有較高的理論與實(shí)踐價(jià)值。
基于研究開展的便利性,本研究采用詞作為計(jì)量單位,通過詞匯豐富度(lexical richness)探究文獻(xiàn)作者群體的語言能力。由于傳統(tǒng)測量詞匯豐富度的各種統(tǒng)計(jì)量在語料規(guī)模不斷增長的情況下不遵守大數(shù)定律,所以就無法從此角度估計(jì)總體大小[7],需要訴諸于其他方法。立足于人類語言的大量罕見事件(Large Number of Rare Events,LNRE) 性質(zhì),Baayen將已有的多種模型引入語言學(xué)[8]。后經(jīng)Evert 與Baroni 的研究認(rèn)為其中僅有廣義逆高斯—泊松(Generalized Inverse Gau-Poisson,GIGP) 模型具有較好的解釋與預(yù)測能力[9],且Evert 提出的齊普夫曼德爾布羅特(Zipf-Mandelbrot,ZM)模型與有限齊普夫曼德爾布羅特(finite Zipf-Mandelbrot,fZM)模型[10]也具有較好的擬合與外推效果,并基于這3 種模型開發(fā)了zipfR 程序包[11-12]。他們所做的工作為該研究的開展提供了方法論支持的同時(shí)帶來了工具使用上的便利。
為使用定量的方法考察不同研究群體的漢語語言能力,需要收集能夠充分代表群體特征的語料,因此在語料庫建立階段應(yīng)充分考慮文獻(xiàn)所代表總體的共性與個(gè)性。同時(shí)在基于語料獲取便利性,筆者收集了北方工業(yè)大學(xué)2018 屆及2019 屆經(jīng)濟(jì)管理、法律、計(jì)算機(jī)與機(jī)械工程4 個(gè)專業(yè)的部分碩士研究生的畢業(yè)論文作為語料來源。由于該研究僅針對(duì)漢語,所以對(duì)論文語料進(jìn)行分詞(分詞采用R 語言中jiebaR 程序包,版本號(hào)0.11,用戶詞典采用搜狗輸入法中與研究專業(yè)相關(guān)的詞庫。)后去掉了標(biāo)點(diǎn)與非漢字符號(hào),按不同專業(yè)組成語料庫,每個(gè)語料庫詞例(token)數(shù)約84.3 萬左右,詞型(type)數(shù)排序?yàn)榉桑?6 838)、經(jīng)管(24 108)、機(jī)械(22 438)和計(jì)算機(jī)(18 069)。
通過zipfR (計(jì)算使用的程序包版本號(hào)為0.6-66,擬合效果按默認(rèn)設(shè)置最好,因此該研究均采用默認(rèn)參數(shù)。)可以方便地?cái)M合上述3 種模型,所得χ2與P 值如表1 所示。其中多元卡方檢驗(yàn)的原假設(shè)為實(shí)際值與模型期望值間無顯著性差異,顯著性水平為0.05,若P 值大于此值,則接受原假設(shè),表示該模型可以較好地描述總體,且卡方值χ2越小,描述效果越好(見表1)。
結(jié)果中GIGP 表現(xiàn)最好,即使最小的P 值(0.049)也非常接近0.05,且同一語料的結(jié)果中該模型的χ2最?。籪ZM 次之,但P 值除計(jì)算機(jī)類語料外均小于0.05,且χ2大于GIGP;ZM 的表現(xiàn)最差??梢姵鼼IGP 外,ZM 與fZM 的表現(xiàn)并不理想。
產(chǎn)生兩種模型擬合不佳的兩個(gè)可能的因素分別為:模型不遵守LNRE 的球罐模型(urn model)假設(shè)和該假設(shè)同語言事實(shí)不符。
表1 模型的擬合優(yōu)度與S 近似值
為證實(shí)第一種情況,Baayen 曾提出過基于大規(guī)模語料數(shù)據(jù),對(duì)比語料二項(xiàng)式內(nèi)插值(binomial interpolation)與模型內(nèi)插值的方法。每種語料結(jié)果均表現(xiàn)相似,這里僅以經(jīng)管為例,圖1 繪制了兩種內(nèi)插值的頻譜(frequency spectrum)數(shù)據(jù)與詞匯增長曲線(Vocabulary Growth Curves,VGC)。前者的頻譜數(shù),后者包括全體詞匯V 增長曲線(較粗部分)與獨(dú)頻詞(hapax legomena)V1 增長曲線(較細(xì)部分)兩部分。作者很難從視覺上分辨出二者間差異,之后設(shè)置原假設(shè)為每種語料中的兩種內(nèi)插值均不存在顯著性差異,通過柯爾莫可洛夫-斯米洛夫檢驗(yàn)(Kolmogorov—Smirnov test)得出的P 值均接近1,證實(shí)了視覺判斷的正確性,說明每種模型都較好地遵守了球罐假設(shè)。
第二種情況的檢驗(yàn)需將模型的內(nèi)插值與實(shí)際數(shù)據(jù)予以對(duì)比,圖1 同樣分別繪制了頻譜數(shù)據(jù)與VGC的實(shí)際值。相較實(shí)際值,模型的期望值確實(shí)存在一定程度的偏差。具體表現(xiàn)為在頻譜圖中,3 種模型會(huì)產(chǎn)生明顯的高估或低估的現(xiàn)象,其中在m=1 時(shí)ZM 的高估最為顯著,而fZM 與GIGP 則表現(xiàn)為低估;當(dāng)m=2 或3 時(shí),情況正好相反,但實(shí)際偏差遠(yuǎn)小于在m=1 時(shí)ZM 高估所帶來的差值; 隨著m 值的逐漸增大,偏差逐漸減小,但這種現(xiàn)象仍然存在。在VGC中,模型高估現(xiàn)象較為明顯,二項(xiàng)式內(nèi)插值同三種模型內(nèi)插值的中前段基本重合,但ZM 在語料大小N的整個(gè)增長過程中均保持對(duì)V 和V1 的高估,而其他曲線則在語料鄰近結(jié)束時(shí)基本保持了同實(shí)際值的一致。通過以上分析可以認(rèn)為球罐模型在描述語言事實(shí)方面確實(shí)需要進(jìn)一步改善,但fZM 與GIGP 可以較為準(zhǔn)確地反映實(shí)際詞匯的增長趨勢(shì),且與頻譜變化差別較小,因此可以作為語言總體大小大致或趨勢(shì)估計(jì)的主要依據(jù)。ZM 擬合結(jié)果較差的原因應(yīng)該源自其總體無限大的模型假設(shè),這是同語言事實(shí)不符的,因此不予采用。
圖1 經(jīng)管語料的頻譜圖與VGC
表1 中同樣展示了fZM 與GIGP 模型預(yù)測的不同語料總體近似值S。由于Baayen 認(rèn)為內(nèi)插階段的高估會(huì)引起外推階段的低估,且這一看法在其他文獻(xiàn)中均得到證實(shí)[9-13],所以該值也僅為總體實(shí)際規(guī)模的下限。因此可以通過對(duì)比S 值同VGC 中V 與V1來評(píng)價(jià)各語言群體的詞匯量下限和詞匯豐富度。由此可知各語言群體在論文撰寫過程中,經(jīng)管類畢業(yè)生的漢語詞匯量下限最高,其次為法律、機(jī)械和計(jì)算機(jī),其中非工科畢業(yè)生同工科生之間的差距較大,但工科專業(yè)間的差距較小。
fZM 與GIGP 在內(nèi)插階段幾乎重合,因此圖2 僅提取了圖1 中各類V 與V1 的VGC 實(shí)際值與fZM內(nèi)插值,二者基本保持增長趨勢(shì)的一致。結(jié)合頻譜圖中的低頻數(shù)據(jù)實(shí)際值可以認(rèn)為在現(xiàn)有語料中,法律專業(yè)學(xué)生的漢語詞匯豐富度最高,之后依次為經(jīng)管、機(jī)械與計(jì)算機(jī)。在詞匯使用上,現(xiàn)有模型較為準(zhǔn)確地預(yù)測了工科畢業(yè)生低于非工科生的情況,但最終預(yù)測的漢語總體詞匯量卻不完全與語料中詞匯豐富情況吻合,如VGC 實(shí)際值與內(nèi)插值均存在法律類高于經(jīng)濟(jì)類的情況,但表1 中S 值卻正好相反,因此可以預(yù)期在未收集到的語料中后者的詞匯增長率更高;兩類工科論文的VGC 中V 的實(shí)際值或內(nèi)插值之間差距大于模型預(yù)測的S 差值,因此在未收集的語料中同樣存在詞匯增長率有較大變化的可能性。
圖2 V 與V1 的VGC 實(shí)際值與fZM 內(nèi)插值
雖然現(xiàn)有模型仍有可改善空間,但仍可得出結(jié)論:通過模型預(yù)測和語料事實(shí),非工科研究生的詞匯量與詞匯豐富程度確實(shí)高于工科生,這體現(xiàn)了不同專業(yè)碩士研究生群體的語言能力。論文寫作是論文撰寫者在著重使用產(chǎn)出性學(xué)術(shù)詞匯開展的語言行為,不同專業(yè)領(lǐng)域的學(xué)術(shù)詞匯量固然存在差異,但其并不能作為實(shí)際語言能力高低的判別標(biāo)準(zhǔn)[14]。產(chǎn)生的可能源自不同專業(yè)學(xué)生在撰寫論文過程中,同其他領(lǐng)域結(jié)合時(shí)對(duì)非該專業(yè)詞匯的引入程度差異。雖詞匯的豐富性在研究生培養(yǎng)與論文撰寫上常被忽視,但相關(guān)培養(yǎng)單位或?qū)熑缒茉诖T士生培養(yǎng)、選題與論文撰寫方面多關(guān)注該專業(yè)同其他相關(guān)學(xué)科與領(lǐng)域的結(jié)合和應(yīng)用,為學(xué)生帶來的好處恐怕不僅是語言能力的提升。
該研究雖完成了對(duì)語料的擬合與內(nèi)插分析,但以上結(jié)論僅基于fZM 與GIGP 模型擬合結(jié)果展開,內(nèi)插曲線的高估現(xiàn)象使得可信度仍有可以討論的余地,且不同專業(yè)學(xué)生的詞匯量同VGC 之間也存在部分需進(jìn)一步解釋之處。為解決這些問題需要通過外推等技術(shù)開展進(jìn)一步研究,但由于外推過程可能存在低估現(xiàn)象,所以需要將探索高估的成因放在首位。對(duì)模型的評(píng)價(jià)也僅局限于擬合優(yōu)度,存在較大過擬合風(fēng)險(xiǎn),缺乏更為豐富和全面的評(píng)價(jià)手段與改善擬合結(jié)果的解決方案。所用語料類型較為單一,缺乏通過多類型語料考察模型的適用性、開展非同質(zhì)性研究的過程。另外Baayen 最初的分析基本只集中于部分歐洲語言,該論文限于篇幅所限并未展示其結(jié)論在漢語中的適用性。這些都是該研究的不足之處。在后續(xù)研究中,筆者認(rèn)為應(yīng)將精力主要集中在模型外推與模型內(nèi)插階段高估原因探索兩個(gè)方面。針對(duì)前者除了采用更為適合的評(píng)價(jià)手段外,應(yīng)充分利用交叉驗(yàn)證之類的技術(shù),通過訓(xùn)練語料與測試語料選擇適當(dāng)?shù)哪P停苊膺^擬合風(fēng)險(xiǎn);對(duì)于后者,應(yīng)專門針對(duì)句法與詞匯層面分別展開分析,更應(yīng)將關(guān)注點(diǎn)放在語料庫建立或所用模型的改善上; 另外展示并分析傳統(tǒng)測量詞匯豐富度方法在漢語中的情況也應(yīng)考慮在內(nèi)。
該文首先介紹了該研究的意義與所用語料的詳細(xì)情況,之后使用3 種LNRE 模型對(duì)所用語料進(jìn)行了擬合。通過對(duì)擬合結(jié)果的分析得出結(jié)論:GIGP 和fZM 模型優(yōu)于ZM 模型,可以認(rèn)為經(jīng)管和法律專業(yè)學(xué)生在論文撰寫階段所用的漢語詞匯量與詞匯豐富度最高,機(jī)械與計(jì)算機(jī)專業(yè)較低,并在分析原因后給出了建議。最后該文分析了研究的不足之處與后續(xù)方向,為下一步的研究指明了努力方向。