現(xiàn)代漢語詞匯歷時(shí)檢索系統(tǒng)的建設(shè)與應(yīng)用

2015-04-21 08:43:50荀恩東饒高琦謝佳莉黃志娥

中文信息學(xué)報(bào) 2015年3期

荀恩東,饒高琦，2,謝佳莉，3,黃志娥，4

(1. 北京語言大學(xué) 大數(shù)據(jù)與教育技術(shù)研究所，北京 100083；2. 北京語言大學(xué) 語言科學(xué)院，北京 100083；3. 廈門國家會計(jì)學(xué)院，福建廈門 361005；4. 福州應(yīng)用技術(shù)大學(xué) 人文學(xué)院，福建福州 350118)

荀恩東1,饒高琦1，2,謝佳莉1，3,黃志娥1，4

詞匯是語言系統(tǒng)中最具活力的子系統(tǒng)。在語言演化的過程中，詞匯的歷時(shí)變化是語言學(xué)、歷史學(xué)、社會學(xué)等多學(xué)科所關(guān)注的信息。我們收集了時(shí)間跨度約為60年的同質(zhì)新聞?wù)Z料。基于自然語言處理技術(shù)我們開發(fā)了現(xiàn)代漢語詞匯歷時(shí)檢索系統(tǒng)。基于該平臺可以利用頻率、累積和與累積頻率等方法從微觀和宏觀的角度上對詞匯的語義、語用等方面進(jìn)行研究。

歷時(shí)信息；詞匯演化；歷時(shí)計(jì)算；語料庫

1 引言

詞是語言中有意義，能獨(dú)立運(yùn)用的最小單位，也是最能夠體現(xiàn)語言生活變遷的語言單位。每一個(gè)詞都有在其所屬語言社團(tuán)中獨(dú)特的發(fā)展過程。從微觀上說，一個(gè)詞語包括其使用情況的歷時(shí)信息，可以反映特定時(shí)間乃至特定領(lǐng)域在不同時(shí)期所受到關(guān)注的情況。從宏觀上講，整個(gè)詞匯的豐富程度是語言生活情況的重要體現(xiàn)，從一個(gè)側(cè)面反映了社會變遷和人民生活的變化。每個(gè)時(shí)間斷面上的詞匯都帶有以往的語言歷史，是共時(shí)和歷時(shí)的混合產(chǎn)物[1]。

計(jì)量語言學(xué)關(guān)注今天的詞匯始于哪個(gè)歷史時(shí)期，還關(guān)注現(xiàn)在詞匯的使用狀況是如何形成的。語言的歷時(shí)信息同樣為計(jì)量史學(xué)所關(guān)注。而利用計(jì)量史學(xué)方法進(jìn)行的觀念史研究，則更注重特定詞語的歷時(shí)使用變化。金觀濤、劉清風(fēng)[2]使用晚清至民國有影響力的報(bào)刊雜志一億兩千萬字作為數(shù)據(jù)源，通過表達(dá)同樣觀念的不同詞在不同時(shí)期使用頻率和上下文特征的研究，觀察并分析了100個(gè)中國現(xiàn)代政治術(shù)語的形成和發(fā)展，在史學(xué)界引起很大反響，但是其史料庫規(guī)模和選材偏執(zhí)也引起了爭議[3]。劉長征運(yùn)用1981～2009年共29年的《深圳特區(qū)報(bào)》進(jìn)行了新詞語監(jiān)測和詞語生命力的研究[4]。涵蓋面更廣的語料庫如LIVAC則收集泛華語地區(qū)的新聞?wù)Z料四億字，在共時(shí)性和歷時(shí)性上都有突出貢獻(xiàn)[5]。在囊括兩岸三地新聞?wù)Z料的基礎(chǔ)上，持續(xù)更新，在此基礎(chǔ)上發(fā)布港臺京滬雙周、全年名人榜，熱詞榜等信息，并對兩岸三地的詞匯使用異同做出了定量的分析。LIVAC新聞?wù)Z料庫建設(shè)始于1995年，歷時(shí)僅17年。對于語言現(xiàn)象的變遷，這樣的跨度還略顯不足。谷歌公司2010年上線的服務(wù)Google Books N-gram Viewer，利用其數(shù)字化的520萬冊圖書制作了可實(shí)現(xiàn)五元文法的詞匯歷時(shí)查詢[6]。覆蓋了1800～2000年間兩個(gè)世紀(jì)的語料。但其漢語圖書量較少，未對語料進(jìn)一步分類，且有效的查詢跨度少于200年。此外，圖書對于現(xiàn)實(shí)語言現(xiàn)象的變遷存在一定的滯后。

可見，進(jìn)行語言歷時(shí)信息研究，尤其是詞語歷時(shí)信息的研究，需要大規(guī)模、長時(shí)間跨度的語料。我們收集了時(shí)間跨度57年的某省日報(bào)語料，為漢語詞匯的歷時(shí)信息提供了良好的基礎(chǔ)。在第二節(jié)中，我們將介紹歷時(shí)新聞?wù)Z料的構(gòu)成。對于特定詞語的微觀研究，頻次、頻率和頻序是計(jì)算語言學(xué)中的使用的經(jīng)典表征形式。在對宏觀語言現(xiàn)象的歷時(shí)研究中，采用前N%頻率累積和(TNFA)與總詞表前N%累積頻率歷時(shí)分布(TNFD)兩種可計(jì)算指標(biāo)對詞匯使用豐富程度和高頻詞匯來源的歷時(shí)分布進(jìn)行表征。這些可計(jì)算特征將在第三節(jié)中進(jìn)行討論?；谶@幾項(xiàng)表征，搭建了現(xiàn)代漢語詞匯歷時(shí)檢索系統(tǒng)(Diachro-nic Retrieval for Modern Chinese Word)。在線上開放數(shù)據(jù)為廣大研究者所用。第四節(jié)將介紹該系統(tǒng)的設(shè)計(jì)和原理。最后一部分簡要列舉了幾項(xiàng)基于該系統(tǒng)的應(yīng)用，并展望了未來的研究方向。

2 歷時(shí)語料的構(gòu)成

我們收集了自1949年11月創(chuàng)刊至2007年間的某省日報(bào)，全部語料7億字。該語料時(shí)間跨度大，覆蓋了共和國自成立以來的絕大部分歷史，記錄了期間的語言生活與社會生活的巨大變遷，對于各個(gè)學(xué)科的追蹤研究具有格外高的研究價(jià)值。以年為單位，對語料進(jìn)行整理。經(jīng)過分詞并去除標(biāo)點(diǎn)符號、拉丁字母與低頻命名實(shí)體等，共有328 000個(gè)詞形。各時(shí)間段語料規(guī)模如表1和圖1所示?？梢姡?隨著時(shí)間的推移，語料規(guī)模逐漸擴(kuò)大，在1996年前后達(dá)到最高峰，接近1970年最低點(diǎn)的兩倍。這是報(bào)刊信息量加大，社會傳媒發(fā)展的結(jié)果。

表1 各時(shí)間段語料規(guī)模統(tǒng)計(jì)表

圖1 各年份語料規(guī)模(字?jǐn)?shù))

3 詞匯歷時(shí)信息的表征方式

基于詞語歷時(shí)信息的研究，可以分為微觀的對特定詞語歷史信息的分析、跟蹤和宏觀的對整個(gè)語言基于詞語信息的歷時(shí)研究。對于前者，頻次、頻率和頻序是較為經(jīng)典的表征方式。后者又分為基于詞的歷時(shí)語言豐富程度的度量與高頻詞歷時(shí)分布的研究?；谠~的歷時(shí)語言豐富程度的度量，我們借用類似香農(nóng)熵的思想，使用前N%頻率累積和(TNFA)。高頻詞歷時(shí)分布則用總詞表前N%累積頻率歷時(shí)分布來加以描述。

3.1 微觀詞語歷時(shí)信息的表征形式

詞語出現(xiàn)的頻次是語料中最能直接表征其使用情況的特征。由于不同時(shí)間段的語料規(guī)模不一，使用詞語出現(xiàn)的頻率作為衡量該詞使用情況的標(biāo)準(zhǔn)顯然更為科學(xué)。頻率的定義如式(1)所示。

(1)

其中q(word)為詞語word的頻率，freq(word)是它在當(dāng)年語料中出現(xiàn)的頻次，Count為整個(gè)語料的全部詞次數(shù)。

另一種表征詞語使用狀況的方式是特定詞語在當(dāng)年詞表中的排名，如果該詞表是按照頻率降序排列的話，這種排名被稱作頻序[8]。相對于頻率，這項(xiàng)指標(biāo)更能反映出一個(gè)特定詞語在當(dāng)年相對于其他詞語的使用情況，顯示出其在整個(gè)語言生活中所占的地位。

3.2 基于詞語信息的宏觀語言現(xiàn)象表征

3.2.1 基于詞語信息的歷時(shí)語言豐富程度度量

詞形數(shù)的增減從一個(gè)方面反映了語言生活的豐富程度。而更具有說明力的指標(biāo)是香農(nóng)熵。香農(nóng)熵的公式如式(2)所示[9]。

(2)

其中W為語料中的全體詞匯，設(shè)共n個(gè)詞，wi為第i個(gè)詞。p(wi)為第i個(gè)詞在語料庫中出現(xiàn)的概率。熵值的增高表明所有詞間使用頻率的差異較小，系統(tǒng)趨于平均和混亂。熵值的降低則表明詞語使用的頻率并不那么平均。圖2為各年詞的熵值變化。與圖1類似，在1970年前后落到谷底，而隨著改革開放的開始而逐漸回升。香農(nóng)熵的計(jì)算中帶有詞語使用的概率信息，較詞形數(shù)變化，可以更全面地反應(yīng)語言生活的豐富度。

圖2 各年語料的詞熵變化

香農(nóng)熵的計(jì)算是基于當(dāng)年全部詞匯進(jìn)行。我們提出一種更加直觀而靈活表現(xiàn)語言豐富程度的方式——年內(nèi)前N%累積和。其定義如下：每年詞表中的詞目，按頻率降序排列，累積頻率(也被稱作覆蓋率)達(dá)到N% 時(shí)的詞數(shù)Y。

(3)

式(3)中Y代表年內(nèi)topN累積和，即達(dá)到累積頻率時(shí)詞的個(gè)數(shù)；q(w)為詞表中詞w的頻率，詞表按頻率大小從大到小排練；N為待選定的累積頻率。

顯然，當(dāng)達(dá)到指定累積頻率所需的詞越多(即頻率累積的越慢)，表明詞匯使用的越分散，豐富程度越高。反之亦然。圖3為1950～2007年的年內(nèi)前30%累積和。與圖2類似，只是更為明顯。詞匯使

圖3 年內(nèi)前30%累計(jì)和

用的豐富程度改革開放前總體低于改革開放后，文革十年是一個(gè)明顯低谷。這符合我們的生活直覺與傳統(tǒng)語言學(xué)對語言發(fā)展的認(rèn)識[10]。

3.2.2 基于詞語分布的高頻詞歷時(shí)分布描述

我們使用總詞表前N%累積頻率的歷時(shí)分布來描述高頻詞的來源，定義如下：使用全部語料形成的總詞表，按照頻率降序排列，當(dāng)累積頻率達(dá)到N%時(shí)，該范圍內(nèi)的詞語[式(4)～(5)]在各年中出現(xiàn)頻率之和[式(6)]。以前50%為例，總詞表中按頻率降序，當(dāng)頻率累積到達(dá)50%時(shí)，共有t個(gè)詞。這t個(gè)詞在1959年中，出現(xiàn)頻率之和，即為1959年對總詞匯的貢獻(xiàn)情況。這一指標(biāo)表征了高頻詞的歷時(shí)性分布與構(gòu)成。

(6)

前N累積和中公式(4)：N為待選定的累積頻率；q(wi)為全部語料形成的總詞表中詞wi的頻率，詞表按頻率降序排列；公式(5)： S是從總詞表中按照頻率從大到小取詞，其累積頻率達(dá)到N時(shí)所取出詞組成的集合。公式(6)：p(wi)為wi在某一年(橫坐標(biāo)所指示的年份)中出現(xiàn)的頻率，將公式(5)上所取出的集合S里所有的詞累加得到的頻率和即為當(dāng)年語言對總高頻詞匯的貢獻(xiàn)和Y。

圖4是總詞表前50%累積頻率的歷時(shí)分布直方圖。從變化幅度上可以看出該項(xiàng)指標(biāo)對詞匯歷時(shí)分布的敏感性。同時(shí)，也可以看出改革開放后的詞語使用對總詞匯中使累積頻率達(dá)50%的詞匯有更重要的貢獻(xiàn)，即改革開放后的詞語使用對今天的影響更大。

圖4 總詞表前50%累計(jì)頻率歷時(shí)分布

4 現(xiàn)代漢語詞匯歷時(shí)檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

基于上一部分所討論的幾種表征詞語歷時(shí)使用狀況的要素，我們設(shè)計(jì)了現(xiàn)代漢語歷時(shí)檢索系統(tǒng)，提供在線詞語查詢和語言豐富度計(jì)算。我們將所收集語料，按照來源時(shí)間，以年為單位分割。使用北京語言大學(xué)研發(fā)的GPWS(通用自動(dòng)分詞系統(tǒng))對其進(jìn)行分詞和命名實(shí)體識別[11]。經(jīng)過此步驟后即可抽取出各年的詞表與總詞表。通過全文檢索系統(tǒng)對全部語料建立了倒排索引，并在索引中加入時(shí)間標(biāo)記?；诖?，計(jì)算所有詞在各年和全部時(shí)間段的頻次、頻率、頻序與累積頻率(覆蓋率)，形成支撐服務(wù)的后臺數(shù)據(jù)。系統(tǒng)設(shè)計(jì)流程圖如圖5所示。

在用戶界面圖6中，用戶在下拉框選擇歷年或全時(shí)高頻詞的覆蓋率(如前20%，前30%等等)，可通過高頻詞歷時(shí)分布統(tǒng)計(jì)從宏觀上觀察語言使用狀況。在檢索框中輸入待查詢詞語，檢索詞語歷時(shí)信息(歷年頻次、頻率、頻序)以直方圖和折線圖的形式可視化顯示。在直方圖或折線圖上點(diǎn)擊某特定年份，便可獲得當(dāng)年待查詢詞的使用實(shí)例。以查詢詞為中心，上下文窗口為20個(gè)字，顯示檢索結(jié)果實(shí)例，方便研究者在統(tǒng)計(jì)數(shù)據(jù)之外能更詳實(shí)直觀的了解特定時(shí)間點(diǎn)上的語言現(xiàn)象。

5 系統(tǒng)應(yīng)用與未來工作

現(xiàn)代漢語歷時(shí)檢索系統(tǒng)自2012年5月初上線以來，展現(xiàn)出了較高的實(shí)用性與可用性。期間進(jìn)行了一次語料擴(kuò)充(延伸為1951～2012年)和兩次用戶界面改版。用戶的高頻查詢主要是新詞和公共領(lǐng)域相關(guān)概念兩方面。由于報(bào)刊新聞?wù)Z料的特點(diǎn)，本系統(tǒng)主要功能體現(xiàn)是后者。對于新詞，如“宅女”、“忽悠”等隨著經(jīng)濟(jì)文化事業(yè)產(chǎn)生的詞, 不如網(wǎng)絡(luò)語料反應(yīng)快，但可以通過實(shí)時(shí)的新語料抓取來得到部分滿足。公共領(lǐng)域相關(guān)概念有環(huán)保、減肥、聽證會等。單個(gè)詞語使用的變化，從一個(gè)側(cè)面揭示了一類社會問題、社會現(xiàn)象發(fā)生發(fā)展以及受關(guān)注的過程。而這類詞總數(shù)的增多和使用頻率的增加，表明了公共空間作為社會發(fā)展標(biāo)志，從無到有、從小到大的過程，是符合生活直覺和社會發(fā)展規(guī)律的[12]。

圖5 系統(tǒng)設(shè)計(jì)流程圖

圖6 用戶界面

2002年，教育部發(fā)布了《第一批異形詞整理表》[13]，對338個(gè)異形詞對進(jìn)行了整理和規(guī)范。異形詞的整理工作需要照顧到語言事實(shí)并充分考慮文化傳承，在大時(shí)間跨度上的統(tǒng)計(jì)分析是十分重要的。以“身份-身分”為例?！吧矸荨睘橥扑]詞形。從圖7中可以看出，兩者長期穩(wěn)定共存(兩者都一直使用，無間斷)，但是“身份”在1961年及其后均占據(jù)了絕對優(yōu)勢。該異形詞對的選擇都得到了“大數(shù)據(jù)實(shí)證”上的支持。對于未涵蓋的詞對，以“交待-交代”為例，從圖8中可以看出在70年代以后兩者頻率降低并逐漸趨同。

圖7 身份-身分頻率變化圖

圖8 交待-交代頻率變化圖

就同一字/詞而言，其使用和語義在漫長的時(shí)間流轉(zhuǎn)中也會發(fā)生巨大的變化。以“炒”為例，1950年檢出的45次使用中，全部為“把食物放在鍋里加熱并隨時(shí)翻動(dòng)使熟”，然而在1996年檢出的245次中僅有101次為此義，其余為表示“頻繁買賣”，或者是南方方言中表示解雇的“炒魷魚”，以及表示“擴(kuò)大影響”。一個(gè)有趣的現(xiàn)象是南方方言中表示解雇的“炒魷魚”。在1980年代初進(jìn)入新聞出版語言的時(shí)候共檢出兩次，均是在雙引號中引用；在1993年17次檢出中有11次在雙引號中；而到了2004、2005年各有一次檢出，均不在雙引號中。期間所伴隨的事件便是1999年開始修訂的《現(xiàn)代漢語詞典》最終收錄了“炒魷魚”。

詞語的歷時(shí)信息體現(xiàn)了詞語在語言社團(tuán)中的使用，對語言社團(tuán)中重大事件的發(fā)生有著很好的表現(xiàn)作用。詞語取代現(xiàn)象還可以微觀的體現(xiàn)出語言生活的許多變遷。以南朝鮮-韓國兩詞的頻率查詢?yōu)槔Ｈ鐖D9所示，南朝鮮在1960年前后出現(xiàn)使用高峰，恰好對應(yīng)了冷戰(zhàn)進(jìn)入高潮，武裝對峙白熱化。韓國和南朝鮮的使用頻率在1992年出現(xiàn)交叉。1992年之前，幾乎不使用韓國這一稱謂，之后則迅速停用了南朝鮮這一稱謂。這一節(jié)點(diǎn)所標(biāo)示的歷史事件即中韓于1992年建立外交關(guān)系。圖10為科學(xué)技術(shù)-科技的頻率圖，直觀地顯示出了“科技”取代“科學(xué)技術(shù)”的過程。

圖9 南朝鮮-韓國頻率圖

圖10 科學(xué)技術(shù)-科技頻率圖

縮略語隨著原短語使用的增長，自身使用也增長，基于人類交際的最省力原則，最終取代本詞。基于社交網(wǎng)絡(luò)、微博和Twitter的公共事件預(yù)測研究方興未艾[14-16]，與本系統(tǒng)探測事件發(fā)生和語言趨勢的原理本質(zhì)上類似，都是利用了群體智慧。歷時(shí)的語料數(shù)據(jù)，尤其是詞信息數(shù)據(jù)在何等程度上有助于語言使用情況的預(yù)測，乃至熱點(diǎn)的追蹤和挖掘，將是十分值得深入研究的問題。

許多詞在不同時(shí)代有迥異的語義，其使用情況亦大為不同。我們通過歷時(shí)語言實(shí)例的查詢能夠?qū)ζ溥M(jìn)行一定區(qū)分。在詞語的研究方面上，現(xiàn)在的詞語歷時(shí)檢索系統(tǒng)是面向詞語使用情況的歷時(shí)變化，等于說是基于一元語法(Unigram)的統(tǒng)計(jì)研究，怎樣合理地注入更多上下文信息，利用報(bào)紙語料中版面、板塊這一天然分類信息，提供分領(lǐng)域的查詢和對比,提供更可靠的自動(dòng)化分析也是未來的研究方向。

此外，基于統(tǒng)計(jì)的自動(dòng)分詞技術(shù)并不考慮語言的歷時(shí)特性。前文示例中詞語淺層特征在不同時(shí)間段上有著明顯的差異，這是否可以對統(tǒng)計(jì)自動(dòng)分詞提供一定反饋？從資源建設(shè)上來講，單一媒體作為語料來源，必然有其偏執(zhí)，如何平衡的融合其他不同時(shí)間跨度上的語料；如何基于語料特點(diǎn)，尋找具有應(yīng)用價(jià)值的衡量指標(biāo)，這些都是在這套系統(tǒng)的研發(fā)過程中產(chǎn)生的新的學(xué)術(shù)問題，并期待系統(tǒng)的使用者和開發(fā)者共同進(jìn)行更深入的研究與探索。

[1] 葛本儀. 詞匯的動(dòng)態(tài)研究與詞匯規(guī)范[A]. 載《詞匯學(xué)理論與應(yīng)用》蘇新春，蘇寶榮主編. 北京：商務(wù)印書館. 2004.

[2] 金觀濤，劉慶峰. 觀念史研究[M]. 北京：法律出版社.2009.

[3] 張仲民. “局部真實(shí)”的觀念史研究.《東方早報(bào)》2010年5月23日B05版.

[4] 劉長征. 基于動(dòng)態(tài)流通語料庫的新詞語監(jiān)測研究[M]. 北京：世界圖書出版社.2011.

[5] 鄒嘉彥，鄺藹兒，陸斌，蔡永富. 漢語共時(shí)語料庫與追蹤語料庫[J]. 中文信息學(xué)報(bào),2011,25(6):38-45.

[6] Jean-Baptiste Michel, Yuan Kui Shen，Aviva Presser Aiden etl. Quantitative Analysis of Culture Using Millions of Digitized Books. Science 331, 176(2011); DOI: 10.1126/science.1199644.

[7] 李宇明. 權(quán)威方言在漢語規(guī)范中的地位[J]. 清華大學(xué)學(xué)報(bào), 2004,5:24-29.

[8] 教育部語言文字信息管理司. 中國語言生活狀況報(bào)告[M]. 北京：商務(wù)印書館，2009：525-534.

[9] 克勞德·艾爾伍德·香農(nóng). 《通信的數(shù)學(xué)理論》 (A mathematical theory of communication) 貝爾系統(tǒng)技術(shù),1948,1:379-423.

[10] 葉蜚聲，徐通鏘. 語言學(xué)剛要(修訂版)[M]. 北京：北京大學(xué)出版社.2010.

[11] 宋柔，羅智勇.現(xiàn)代漢語通用分詞系統(tǒng)(GPWS v3.5)http://democlip.blcu.edu.cn:8081/gpws/

[12] 尤爾根-哈貝馬斯. 公共領(lǐng)域的結(jié)構(gòu)轉(zhuǎn)型[M]. 上海：學(xué)林出版社.1999.

[13] 《第一批異形詞整理表》，中華人民共和國教育部. 2002

[14] Shen Yu，Subhash Kak. A Survey of Prediction Using Social Media[C]. ArXive-prints. March, 2012.

[15] 路榮，張旸，楊青. 社交網(wǎng)絡(luò)中新聞趨勢的預(yù)測分析[J]. 中文信息學(xué)報(bào). 2012,26(5):85-90.

[16] 洪宇，張宇，劉挺，李生. 話題檢測與跟蹤的評測及研究綜述[J]. 中文信息學(xué)報(bào). 2007,21(6):71-87.

Diachronic Retrieval for Modern Chinese Word: System Construction and Its Application

XUN Endong1, RAO Gaoqi1，2, XIE Jiali1，3, HUANG Zhi’e1，4

(1. Institute of Big Data and Educational Technology, Beijing Language and Culture University, Beijing 100083, China; 2. Faculty of Linguistic Sciences, Beijing Language and Culture University, Beijing 100083, China; 3. Xiamen National Accounting Institute, Xiamen, Fujian 361005, China; 4. School of Humanities, Fujian Universitity of Technology, Fuzhou, Fujian 350118, China)

Lexicon is the most active and time sensitive sub system of a language. During the evolution of a language, diachronic changes in vocabulary are focused by linguist, historian and sociologist etc. We collected large scale of corpora with a large time span, and developed the system of Diachronic Retrieval for Modern Chinese Word with natural language processing technology. It provides search indexes on frequency, cumulative sum, cumulative frequency etc., for possible studies on the semantics pragmatics and other aspects of the word.

diachronic information; lexicon evolution; diachronic computing; corpus

荀恩東(1967—)，通訊作者，教授，主要研究領(lǐng)域?yàn)檎Z言信息處理、語言教育技術(shù)。E?mail：xunendong@blcu．edu．cn饒高琦(1987—)，博士研究生，主要研究領(lǐng)域?yàn)橛?jì)算語言學(xué)、語言規(guī)劃。E?mail：raogaoqi@blcu．edu．cn謝佳莉(1988—)，主要研究領(lǐng)域?yàn)檎Z言信息處理、教育技術(shù)。

1003-0077(2015)03-0169-08

2013-04-08 定稿日期： 2013-07-9

國家自然科學(xué)基金(61300081，61170162)；國家語委項(xiàng)目(YB125-42)；國家高技術(shù)研究(863)發(fā)展計(jì)劃(2015AA015409)。

TP391

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

現(xiàn)代漢語詞匯歷時(shí)檢索系統(tǒng)的建設(shè)與應(yīng)用

1 引言

2 歷時(shí)語料的構(gòu)成

3 詞匯歷時(shí)信息的表征方式

4 現(xiàn)代漢語詞匯歷時(shí)檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

5 系統(tǒng)應(yīng)用與未來工作