劉波
摘 要 與英文的拼音文字相比,中文屬于表意文字,中文文本的詞之間并沒(méi)有空格分割,因此,要完成一篇閱讀最重要的過(guò)程就是學(xué)習(xí)詞的切分。詞的切分是指在閱讀過(guò)程中,將連續(xù)的語(yǔ)句切分成不同的部分,用以了解作者的思維,走進(jìn)作者的內(nèi)心世界。本文主要探究了中文閱讀中詞作為整體加工的心理學(xué)證據(jù)、中文詞切分機(jī)理的實(shí)驗(yàn)研究以及詞切分在計(jì)算機(jī)科學(xué)中的研究。
關(guān)鍵詞 中文閱讀 詞切分 依據(jù) 眼動(dòng)特性 認(rèn)知機(jī)理
中圖分類號(hào):B842.5 文獻(xiàn)標(biāo)識(shí)碼:A
0前言
閱讀的認(rèn)知機(jī)理具有悠久的研究歷史以及豐富的歷史文獻(xiàn)。詞是語(yǔ)言中最小的能夠被獨(dú)立運(yùn)用的單位。詞的切分是指在閱讀過(guò)程中,將連續(xù)的語(yǔ)句切分成不同的部分。如果將閱讀比作合抱之木,詞切分便是毫末;如果將閱讀比作九層之臺(tái),詞切分便是類土。由此可見(jiàn),詞切分在閱讀中的地位至關(guān)重要、無(wú)可替代。
1中文閱讀中詞作為整體加工的心理學(xué)依據(jù)
1.1詞優(yōu)效應(yīng)
實(shí)驗(yàn)證明,單詞中的某一個(gè)字母比在一堆毫無(wú)意義的字符串中的相同字母更容易被人所記住。例如,與“odrw”中的d相比,被試者將更容易記住“Word”中的字母d,這種差異識(shí)別的現(xiàn)象就是詞優(yōu)效應(yīng)。無(wú)獨(dú)有偶,鄭兆明就曾證明中文閱讀中同樣也存在詞優(yōu)效應(yīng)。在字詞快速傳遞的情況下,他要求被試者在字詞快速傳遞的情況下,以最快的速度記住2個(gè)字,這兩字有時(shí)組成一個(gè)詞,有時(shí)不能組成詞。結(jié)果發(fā)現(xiàn),被試者對(duì)真詞條件的識(shí)別能力普遍高于非詞條件。
1.2詞的屬性對(duì)眼動(dòng)模式的影響
閱讀時(shí),讀者的眼睛需要通過(guò)不斷地移動(dòng)方能獲取文本上的信息,觀文解字,理解作者的思維,理解文章的中心。閱讀中一系列的眼跳被統(tǒng)稱為眼動(dòng)行為。對(duì)拼音文字的研究表明,閱讀時(shí)若去掉單詞之間的空格,就會(huì)大大增加讀者對(duì)單詞的識(shí)別能力,甚至?xí)绊懙阶x者對(duì)當(dāng)前閱讀詞的定位,增加讀者選擇眼跳目標(biāo)的困難,從而無(wú)法進(jìn)行眼動(dòng)行為。在詞間加入空格對(duì)于早期讀者尤其是中文二語(yǔ)學(xué)者都具有非常重大意義。因?yàn)樗麄儗?duì)中文的掌握能力并不高,而加入詞邊界信息后,則能夠促進(jìn)他們對(duì)詞的識(shí)別,在閱讀中文文本時(shí),注視的時(shí)間也會(huì)更短。
1.3字間空格與詞間空格
詞是語(yǔ)言中最小的能夠被獨(dú)立運(yùn)用的單位。對(duì)中文文本閱讀的研究表明,在詞與詞之間加入空格對(duì)被試者的閱讀效率并沒(méi)有影響,但在字與字之間加入空格后,被試者的閱讀速度都普遍得到下降。這表明,在中文的文本閱讀中,詞是作為一個(gè)統(tǒng)一的整體出現(xiàn)的,而字與字之間空格的出現(xiàn)破壞了這種整體,從而造成了被試者的閱讀效率下降。
2中文詞切分機(jī)理的實(shí)驗(yàn)研究
2.1空格對(duì)中文詞切分的影響
上文筆者已簡(jiǎn)單提過(guò)空格對(duì)詞的影響,但如果將空格直接插入文本中,又會(huì)對(duì)閱讀產(chǎn)生怎樣的影響呢?劉應(yīng)茂等人曾作出實(shí)驗(yàn)證明詞間空格嚴(yán)重干擾了被試者的閱讀,因?yàn)樽詈蠼Y(jié)果表明,被試者的詞間空格的閱讀時(shí)間高于無(wú)空格條件下的閱讀時(shí)間。他認(rèn)為詞間空格的出現(xiàn)擾亂了讀者的閱讀習(xí)慣,延長(zhǎng)了讀者的閱讀時(shí)間。之后,一些研究者也進(jìn)行了相關(guān)的眼動(dòng)實(shí)驗(yàn),但他們卻得出了與劉應(yīng)茂完全相反的實(shí)驗(yàn)結(jié)論,他們發(fā)現(xiàn)在詞與詞之間加入空格對(duì)被試者的閱讀效率并沒(méi)有影響,但在字與字之間加入空格后,被試者的閱讀速度都普遍得到下降。他們發(fā)現(xiàn)劉應(yīng)茂等人的實(shí)驗(yàn)研究中每個(gè)句子僅有7個(gè)字,卻被組成了六個(gè)詞。所以干擾讀者閱讀的并非詞間空格而是字間空格。
2.2詞切分對(duì)眼動(dòng)落點(diǎn)位置的影響
對(duì)眼動(dòng)行為的研究表明,閱讀時(shí)讀者對(duì)詞首和詞尾的注視高于其對(duì)詞中央的注視概率。此次研究發(fā)現(xiàn),首次閱讀時(shí)讀者更偏好對(duì)詞首與詞中央中間位置的注視。在閱讀時(shí),若將本文中的空格替換成為數(shù)字或字母,就會(huì)對(duì)閱讀產(chǎn)生干擾。winskel也發(fā)現(xiàn),在沒(méi)有空格的閱讀文本中,讀者的注意力的確更容易偏向詞首而非有空格時(shí)詞中間偏左的位置。
2.3詞切分在計(jì)算機(jī)科學(xué)中的研究
在信息技術(shù)飛速發(fā)展的今天,如何利用計(jì)算機(jī)對(duì)以文字形式進(jìn)行爆炸增長(zhǎng)的信息進(jìn)行分類、處理,是當(dāng)前計(jì)算機(jī)領(lǐng)域所需要思考的。然而在利用計(jì)算機(jī)進(jìn)行信息處理時(shí)所面臨的一個(gè)瓶頸問(wèn)題就是詞的切分。在計(jì)算機(jī)科學(xué)領(lǐng)域中,詞切分被稱為分詞?;谠~典的分詞系統(tǒng)是計(jì)算機(jī)科學(xué)分詞系統(tǒng)中的一種,它主要包括三個(gè)要素:詞典、掃描方式、匹配法則。其中,詞典要素最重要的是詞典機(jī)制,不同詞典機(jī)制的制定殊途同歸,最終都是為了提高詞切分的速度。匹配也是為了提高分詞的速度,對(duì)于匹配來(lái)說(shuō),當(dāng)前使用最為廣泛的是最大匹配和最小匹配兩種匹配原則。最大匹配是為確保詞典中詞串最長(zhǎng),最小匹配則是為確保切分時(shí)切分出的詞最少?;诮y(tǒng)計(jì)的分詞方法是利用字與字之間的互信息來(lái)實(shí)現(xiàn)的,因此也被稱為無(wú)詞典分詞法。文本庫(kù)中兩漢字相鄰出現(xiàn)的概率稱為互信息,兩個(gè)漢字相鄰的概率越小,其構(gòu)成詞匯的幾率也會(huì)越小。由于這種方式的分詞方法不需要借助詞典而只需要對(duì)文本字符的互信息進(jìn)行統(tǒng)計(jì),因此其更適用于解決未登錄詞或歧義詞。
漢語(yǔ)文化源遠(yuǎn)流長(zhǎng)、博大精深,因此在做詞匯切分時(shí),我們很難找到一種方式或者規(guī)律適用于所有的詞匯?;谌斯ぶ悄艿那蟹掷Ь吃谟谌绾问贡疽?guī)則庫(kù)包含所有的切分策略,如何使計(jì)算機(jī)在最短的時(shí)間內(nèi)使用誤差最小的切分方式?;诮y(tǒng)計(jì)的切分面臨的最大問(wèn)題是當(dāng)前的模式難以依賴一種算法解決所有的切分問(wèn)題?;谠~匯的切分面臨的最大困難在于難以組建一個(gè)完善的詞典。當(dāng)前的切分系統(tǒng)各有利弊,我們很難僅利用一種模型便實(shí)現(xiàn)對(duì)詞的切分。上述的三種切分系統(tǒng)雖然在一定程度上解決了一些問(wèn)題,但其切分的精確度仍存在一定缺陷。
3結(jié)語(yǔ)
詞的切分是指在閱讀過(guò)程中,將連續(xù)的語(yǔ)句切分成不同的部分。理解中文閱讀中詞切分的認(rèn)知機(jī)理對(duì)閱讀具有非常重要的意義。詞切分認(rèn)知機(jī)理的研究符合當(dāng)前中文閱讀機(jī)理的要求,符合現(xiàn)代信息技術(shù)發(fā)展的要求。隨著詞切分機(jī)理研究的推進(jìn),中文詞的切分還將面臨出現(xiàn)各種各樣的問(wèn)題,而解決這些問(wèn)題的過(guò)程,我們也可以更好的理解詞切分的認(rèn)知機(jī)理。
參考文獻(xiàn)
[1] 梁菲菲.中文詞切分認(rèn)知機(jī)制的眼動(dòng)研究[D].天津師范大學(xué),2013.
[2] 陳煥炎.詞頻和語(yǔ)義透明度對(duì)漢語(yǔ)閱讀詞切分的影響[D].福建師范大學(xué),2015.
[3] 陳景紅.中文詞切分及其對(duì)不同群體閱讀績(jī)效的比較研究[J].長(zhǎng)春教育學(xué)院學(xué)報(bào),2015 (3):32-33.
[4] 張?zhí)m蘭.漢語(yǔ)閱讀過(guò)程中心理詞加工機(jī)制的實(shí)驗(yàn)研究[D].天津師范大學(xué),2012.