国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

現代漢語新詞特征探析

2009-01-29 06:07汪青青
現代語文 2009年7期
關鍵詞:新詞

摘 要:新詞的識別是自動分詞的一大難點,也是影響分詞性能的重要因素。本文主要探析了新詞的內外部特征。內部特征主要探析了新詞的長度特征、構詞規(guī)則、構詞模式、詞綴化傾向、外來詞和功能字的問題;外部特征主要探析了新詞的局部相對詞頻和上下文的自由度。

關鍵詞:新詞 內部特征 外部特征

隨著社會、政治、經濟和文化的發(fā)展,越來越多的中文新詞出現在了人們的生活中。據統(tǒng)計,自20世紀90年代以來,漢語每年大約出現1000個新詞語①。新詞的出現反映了新事物的不斷涌現,滿足了人們表達事物的需要,同時也給中文信息處理帶來了挑戰(zhàn)。

一、新詞的界定

從詞語識別的角度來看,廣義的新詞是指所有的未登錄詞,這是相對于詞典詞來說的,詞典中未出現的詞都可以

稱為新詞。具體來講,新詞主要包括命名實體(包括人名、地名、機構名等)、表義字串(包括日期、時間、百分數等)和普通新詞。對于命名實體的識別技術研究的較多,表義字串的識別也相對較容易。而普通新詞識別的研究則比較少,總體效果也不理想,仍是中文信息處理中的一大難點。

對于普通新詞,根據其形式和意義結合的方式又可以分為三種:1.形式新,意義新。如“裸奔”。2.形式新,意義舊。如“小三”。3.形式舊,意義新。如“樓上(網絡用語)”。本文所研究的新詞主要是從形式的角度進行考慮的,因此,主要是指前兩種新詞。

二、新詞的內部特征

(一)新詞詞串的長度特征

1.三音節(jié)詞的數量呈現增長趨勢

古代漢語詞匯以單音節(jié)詞為主,現代漢語詞匯以雙音節(jié)為主,但是近年來,三音節(jié)詞的比例有所增加。據統(tǒng)計,在1978年到1987年十年間出現的新詞中,三音節(jié)詞占14.4%②。而教育部、國家語委2006年發(fā)布的報告里面,收錄的三音節(jié)詞占總數的30.4%③。由此可見,三音節(jié)新詞表現出明顯的增長趨勢。

2.四音節(jié)詞在新詞中所占的比例也在增加

隨著詞語承載的信息量的增加,有些雙音節(jié)詞原來不作為構詞成分,如今也成了構詞語素。如“山寨”一詞據說源于廣東方言,通俗說即盜版、仿制等?,F在已經成了構詞語素,可以構造出“山寨手機、山寨家電、山寨明星、山寨春晚和山寨熊貓”等詞。而且有些雙音節(jié)構詞語素具有較強的能產性,這促使四音節(jié)詞在新詞中所占的比例不斷增加。

(二)內部構詞規(guī)則

1.常規(guī)的構詞規(guī)則

大部分新詞還是由名詞、動詞和形容詞等構成,仍然遵循常規(guī)的構詞規(guī)則。具體地說,主要有以下幾種構詞規(guī)則:(1)名詞+名詞/形容詞/動詞(如:網聊)。(2)容詞+形容詞/名詞/動詞(如:生猛)。(3)動詞+動詞/形容詞/名詞(如:躥紅)。

2.特殊的構詞規(guī)則

由于社會的發(fā)展,以及人類自身對詞語的創(chuàng)造性,使得某些特殊詞性的字在新詞語中有了特殊的意義,從而形成了新的構詞規(guī)則。如:介詞+名詞(如:在線)、介詞+區(qū)別詞(如:被黑)、名詞+語氣助詞(如:網吧)、區(qū)別詞+名詞(如:黑客)、動詞+區(qū)別詞(如:防黑)、名詞+方位詞(如:樓上)、量詞+量詞(如:頁面)等。由特殊詞性構成新詞,概率比較低,是新詞識別的一個難點。

根據新詞構詞的這一特點,我們在識別新詞時,可以建立常規(guī)構詞規(guī)則庫和特殊構詞規(guī)則庫。

(三)構詞模式

新詞的構詞模式主要有以下幾種:

1.二元詞:1+1模式;

2.三元詞:1+1+1模式、2+1模式、1+2模式;

3.四元詞:1+2+1模式、2+2模式,3+1模式和1+3模式。不同模式構成新詞的頻度不同。其中,1+1模式和2+1模式占新詞總數的84%④。在三元詞中,2+1模式是1+2的模式的10倍多。在四元詞中,3+1模式的新詞占絕大多數。

(四)詞綴化傾向

漢語新詞語的構詞過程正興起“詞綴化”傾向,凡是同類或近類概念的事物都會很快地打上相應的詞匯標記。因此,派生構詞的地位也越來越重要。新詞語中的三音節(jié)詞,有些是用一個原有的語素作詞綴,取得新意之后,再加上另外兩個語素構成⑤。如“族”這個語素,經過近些年的使用,具有了“一類人”的含義,然后由此生成了一系列的派生詞,“奔奔族、捧車族、吊瓶族、合吃族、急婚族、賴校族、洋漂族”等等。漢語新詞語中的四音節(jié)詞,也出現了少量由一個單音節(jié)或者雙音節(jié)詞演變成一個詞綴,并取得新的意義,然后加上另外的三個語素或者兩個語素構成的情況。如:現在有很多以“達人”為后綴的四音節(jié)詞,像“城市達人、美麗達人、戀愛達人、灌水達人、優(yōu)酷達人”等等。詞綴化方式構成新詞的趨勢有利于新詞的識別,我們可以建立前后綴詞表來幫助識別新詞。

(五)外來詞使用頻繁

隨著我國和世界各國的交流日益頻繁以及我國2008年奧運會的成功舉辦,使得許多外來詞在大眾媒體上頻繁地出現,并且人們在日常交際的口語中也開始運用這些詞,這已成為新時期漢語新詞的一個新特點。外來詞主要包括以下幾種:音譯詞(如:托福)、半音譯半意譯(如:沙丁魚)、音譯兼意譯(如:可口可樂)、意譯(如:蜜月)、借詞(如:文明)和字母詞(如:甲型H1N1流感)等。其中,音譯詞、字母詞和借詞等的使用尤為頻繁。有的個別詞甚至比本民族對應的詞的影響力還要大。如現在很多人接受了“IT產業(yè)”,而很少說“信息技術產業(yè)”。

(六)功能字的問題

有些漢字在文本中出現頻率很高,但獨立性很強,很少和別的漢字組合成詞,一般都是作為單字詞出現。如“您、誰、碰、貯、的”等。在分詞規(guī)范中,對于這些詞運用了單獨切分的原則。所以我們可以將這類詞進行歸類,建立功能字庫。這些功能字主要有如下兩大類:

1.某些詞性的詞本身不具有實際的概念意義,只有將其放入一個完整的句子中才有一定作用,其功能主要是用來幫助造句,這些詞很少用來組成新詞、新概念。這類詞主要包括介詞(于)、助詞(的)、連詞(與)、象聲詞(砰)等。

2.某些單字雖然具有實際的概念意義,但由于自身意義的原因,也很少用來組成新詞新語。如“滬、斯”等。在二級字庫中,像這類單字有近500個。

三、新詞的外部特征

(一)局部相對詞頻

新詞在上下文語境中一個重要的特點是重復出現,一個新詞在一個文檔中通常會不止一次地出現,尤其是在某一特定領域中更是頻繁地出現。因此,新詞的局部相對詞頻比較高。局部相對詞頻是指某個詞在局部上下文中出現的頻率。即:局部相對詞頻=詞出現的次數/該詞所在文本的總詞數。

(二)上下文自由度

新詞作為語言單位凝固下來之后,一般內部結合度比較高,但與外部上下文的關系比較松散,上下文環(huán)境具有多樣性,大多數新詞的左右鄰接類別都比較豐富。如:新詞“艷照門”在2008年頻繁出現,我們從語料中隨機抽取幾個句子:

(1)就在這樣的一個環(huán)境里,中國娛樂圈爆發(fā)了前所未有、空前絕后的“艷照門”事件。

(2)本站提供完全的明星緋聞信息,緊密跟蹤艷照門最新動向和信息。

(3)關于陳冠希艷照事件的討論帖已經超過2000多萬的點擊、回復超過10萬條。

(4)“內地艷照門”爆料人被抓?

(5)陳冠?!捌G照門”一案前天在香港東區(qū)裁判法院預審,事件主角陳冠希未出庭。

(6)廣州街頭悄然興起“艷照門”光盤熱。

若以詞為基本單位來計算,“艷照門”的左鄰接集合為{的、跟蹤、陳冠希、內地、興起},左鄰接類別為5,右鄰接集合為{事件、最新、爆料人、一案、光盤熱},右鄰接類別為5?!捌G照門”的語言環(huán)境變化多樣,已經形成了一個獨立使用、不依賴于上下文的語言單元。

四、結語

新詞還有許多特征,如內容上的求新、求異,但這不是本文研究的重點,本文主要是從新詞識別的角度來探析新詞的內部特征和上下文語境特征,目的是為計算機識別新詞提供語言學依據。目前,這些普通新詞的識別效果仍有待于提高。因此,如何把這些特征更好地整合到新詞識別系統(tǒng)中,提高新詞識別的效果,將是我們今后要研究的主要課題。

注 釋:

①參見《新華新詞語詞典》“前言”,北京:商務印書館,2003年。

②上海辭書出版社1987年出版的《漢語新詞詞典》收錄了1978年到

1987年十年間出現的新詞共1654條,其中三音節(jié)詞有234條,占總數的14.4%。

③教育部、國家語委發(fā)布的《2006年中國語言生活狀況報告》,收

錄了2006年出現的新興詞匯171個。其中三音節(jié)詞有52個,占總數的30.4%

④據秦浩偉等人對2003年SIGHAN第一屆中文分詞競賽公開數據集中

的PK測試集進行統(tǒng)計分析得出:1+1模式和2+1模式占新詞總數的84%。

⑤據賀敏等人統(tǒng)計,新詞語中的三音節(jié)詞,有4%是用一個原有的語

素作詞綴,取得新意之后,再加上另外兩個語素構成。

參考文獻:

[1]Li Hongqiao,Huang Changning,Gao Jianfeng.The use of SVM for Chinese new word identification[C].Proceedings of First International Joint Conference on Natural Language Processing,2004.

[2]崔世起,劉群.基于大規(guī)模語料庫的新詞檢測[J].計算機研究與發(fā)展,2006,(5).

[3]賀敏,龔才春,張華平.一種基于大規(guī)模語料的新詞識別方法[J].數據庫與信息處理,2007,(21).

[4]賈自艷,史忠植.基于概率統(tǒng)計技術和規(guī)則方法的新詞發(fā)現[J].計算機工程,2004,(10).

[5]羅智勇,宋柔.基于多特征的自適應新詞識別[J].北京工業(yè)大學學報,2007,(7).

[6]鄭家恒,李文花.基于構詞法的網絡新詞自動識別初探[J].山西大學學報(自然科學版),2002,(2).

(汪青青 南京師范大學文學院 210097)

猜你喜歡
新詞
聲音·數字·新詞 等
廣西紅
學詩偶感
基于改進互信息和鄰接熵的微博新詞發(fā)現方法
宅假期
外教新詞堂
外教新詞堂
外教新詞堂
外教新詞堂
外教新詞堂
邯郸市| 永新县| 习水县| 资兴市| 迁安市| 石家庄市| 渝中区| 菏泽市| 庆阳市| 青浦区| 随州市| 西畴县| 华池县| 扎囊县| 沧州市| 庆元县| 大丰市| 车致| 平塘县| 乐陵市| 静安区| 银川市| 威海市| 克什克腾旗| 庆安县| 东乡县| 周至县| 柘城县| 肃宁县| 青神县| 布尔津县| 当阳市| 肥东县| 神农架林区| 建瓯市| 都匀市| 武功县| 泾川县| 于田县| 绿春县| 濮阳县|