国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于信息熵和詞頻分布變化的術語抽取研究

2015-04-25 08:23李麗雙王意文黃德根
中文信息學報 2015年1期
關鍵詞:字符串詞頻信息熵

李麗雙,王意文,黃德根

(大連理工大學 計算機學院,遼寧 大連 116023)

?

基于信息熵和詞頻分布變化的術語抽取研究

李麗雙,王意文,黃德根

(大連理工大學 計算機學院,遼寧 大連 116023)

在分別研究了基于信息熵和基于詞頻分布變化的術語抽取方法的情況下,該文提出了一種信息熵和詞頻分布變化相結合的術語抽取方法。信息熵體現(xiàn)了術語的完整性,詞頻分布變化體現(xiàn)了術語的領域相關性。通過應用信息熵,即將信息熵結合到詞頻分布變化公式中進行術語抽取,且應用簡單語言學規(guī)則過濾普通字符串。實驗表明,在汽車領域的語料上,應用該方法抽取出1 300個術語,其正確率達到73.7%。結果表明該方法對低頻術語有更好的抽取效果,同時抽取出的術語結構更完整。

術語抽??;信息熵;詞頻分布變化

1 引言

術語是表達特定學科領域的基本概念的語言單元,可以是詞或詞組。術語的定義并沒有統(tǒng)一標準化。馮志偉在《現(xiàn)代術語學引論》[1]中給出了術語的定義,即“通過語音或文字來表達或限定專業(yè)概念的約定性符號,可以是詞也可以是詞組”。 梁愛林[2]指出“術語是指從事特定專業(yè)技術學科的人用字、詞語或者字母與數(shù)碼符號等來表示專業(yè)領域中的某一個概念”。馮志偉在《現(xiàn)代術語學引論》[1]中研究發(fā)現(xiàn)了術語的8大特征: 準確性、單義性、系統(tǒng)性、語言的正確性、簡明性、理據(jù)性、穩(wěn)定性、能產(chǎn)性?!吨袊蟀倏迫珪穂3]總結了術語的4個特性: 專業(yè)性、科學性、單義性、系統(tǒng)性。

術語是在特定領域中使用的、相對固定的詞或短語,是科學研究和知識交流的有力工具。術語具有相對完整的結構和完整的領域意義。術語的自動抽取有利于自然語言處理技術的發(fā)展,可以應用于信息處理的多個方面,例如,信息檢索、機器翻譯、自動索引、知識庫構建和信息抽取等領域。由于采用監(jiān)督式的機器學習方法需要人工標注大量語料,同時人工標注語料很可能產(chǎn)生大量錯誤和不一致性,所以,當前術語的自動抽取技術主要是基于統(tǒng)計學的方法,并結合語言學規(guī)則進行過濾,即采用的是無監(jiān)督的方法。

目前,國內(nèi)外很多研究者都對術語的自動抽取技術進行了研究。主要有基于語言學規(guī)則的方法,基于統(tǒng)計學的方法以及統(tǒng)計學和規(guī)則相結合的方法。其中比較成熟的是統(tǒng)計學和規(guī)則相結合的方法。張峰[4]應用互信息計算字符串的內(nèi)部結合強度,去除大量結構不穩(wěn)定的候選短語,接著主要應用前綴和后綴信息進一步過濾候選術語,抽取出的術語的F值達到74.97%。梁穎紅[5]結合NC-value參數(shù)和互信息方法用于識別3個字以上的長術語,獲得了82.2%的F值。何婷婷和張勇[6]提出了一種基于質(zhì)子串分解的術語自動抽取方法,分別處理簡單術語和復雜術語,使術語的抽取效果得到提高。游宏梁[7]利用統(tǒng)計指標加權投票方法進行術語自動識別,表明加權投票方法比單一指標的識別效果更好。劉桃[8]提出了一種基于信息熵的領域術語抽取方法,該方法考慮了術語的領域分布特征,并對語料的不平衡性進行了正規(guī)化。潘渭[9]提出了使用分類方法進行專業(yè)術語定義抽取的方法,該方法將基于實例距離分布信息的過采樣方法和隨機欠采樣方法結合,并使用BRF(Balanced Random Forest)方法來獲得C4.5決策樹的聚合分類結果,實驗表明該方法取得的抽取效果優(yōu)于僅使用BRF的方法?;诮y(tǒng)計的方法所需的領域知識較少,且能應用于多個語種,具有很好的可移植性。但是,統(tǒng)計學方法需要大規(guī)模的語料,若語料規(guī)模過小則難以獲得有效的統(tǒng)計信息,很容易獲取到無效的術語,且低頻術語通常被過濾掉。為了抽取出低頻術語,周浪[10]提出了一種利用術語在語料中詞頻分布變化程度的統(tǒng)計信息來檢測術語的領域相關性的方法,同時結合機器學習的方法獲取語言知識,該方法能有效地區(qū)分低頻術語和高頻普通詞。但是該方法應用機器學習獲取語言知識的過程中需要大量的人工標注或需要有現(xiàn)有術語可供學習,且沒有考慮到術語的內(nèi)部結合強度。本文提出的方法主要是對周浪[10]的方法的改進,即在詞頻分布方法的基礎上結合信息熵方法,在度量術語的領域分布特性的同時度量術語的完整性;同時提出邊界判定算法用以進一步判定術語完整性。通過以上改進提高術語抽取效果。

2 術語抽取系統(tǒng)

本文實現(xiàn)的中文術語抽取系統(tǒng)基于語言學規(guī)則和統(tǒng)計信息相結合的方法。系統(tǒng)的流程圖如圖1所示。術語抽取系統(tǒng)主要由3部分組成: 文本切分、基于詞頻分布和信息熵的候選術語抽取、規(guī)則過濾。

圖1 系統(tǒng)結構圖

文本切分: 使用Nihao分詞系統(tǒng)[11]對語料進行分詞處理。該分詞系統(tǒng)使用基于字和詞的條件隨機場(CRFs)的聯(lián)合解碼模型,切分出的詞相對較短,有利于召回術語。分詞后,用停用詞表將文本切分成詞串。

統(tǒng)計學抽取候選術語: 對每一個字符串,統(tǒng)計它出現(xiàn)的文檔頻率,在各個文檔中出現(xiàn)的頻率,計算頻率分布信息。結合字符串的信息熵,計算出字符串的術語領域相關程度和術語完整程度,從而得到候選術語。

規(guī)則過濾: 使用詞性規(guī)則,邊界結合強度和是否普通詞進行規(guī)則過濾,進一步提高術語的抽取結果。

下面將會對以上3部分進行詳細描述,并將結果與基于詞頻分布的方法進行對比,進行結果分析。

3 文本切分

當前沒有公開和統(tǒng)一的用于術語抽取方法性能評測的語料,本文使用的語料來源于從“太平洋汽車網(wǎng)”上爬取的394篇網(wǎng)頁。為了得到純文本語料,我們對網(wǎng)頁進行預處理,主要是去除html標簽。我們發(fā)現(xiàn)有些網(wǎng)頁有相互引用,為了消除重復內(nèi)容對抽取效果的影響,我們進行了簡單的去重操作。經(jīng)過以上操作,得到大小為0.817M的汽車純文本語料,共402 815個字。

對汽車語料進行分詞后,應用經(jīng)過人工收集的停用詞,將語料中的每一個句子切分成相對較小的片段。其中,停用詞主要包含標點符號、代詞、語氣詞、助詞、連詞等。這些停用詞一般沒有特殊的意義,經(jīng)常搭配別的詞構成詞或短語,且術語一般不會包含這些詞,可以用于切分句子。停用詞示例: “啊”、“它”、“以及”、“并且”、“咦”、“大多數(shù)”、“及時”、“幾乎”、“什么”、“我”、“我們”等。

由于汽車語料中存在英文字母以及英文汽車術語,將英文字母統(tǒng)一轉(zhuǎn)換成半角,有利于術語的抽取。經(jīng)過觀察發(fā)現(xiàn),語料中存在大量的單位計量的短語,如“50千瓦”、“2噸”、“4個”、“100kg”;同時,語料中還有如“如圖1”、“圖a1”、“2010年”、“約為5.3”的短語。以上這些短語不可能是術語,也不可能構成術語的成分。我們用正則表達式將這些短語去除,將字符串進一步分割,起到相當于停用詞的作用。

4 基于統(tǒng)計量的候選術語抽取

基于統(tǒng)計量的方法需要統(tǒng)計每一個字符串的頻率信息,若采用一般的字符串比較,則系統(tǒng)的效率很低。本文中應用Pat-tree[12]作為索引結構,對每一個網(wǎng)頁對應的文檔建立Pat-tree,用于統(tǒng)計字符串的頻率信息。

采用基于詞的術語抽取,這不僅能減少所要統(tǒng)計的字符串的頻率信息,而且能初步過濾掉一些邊界不合理的字符串。例如,對于切分后的字符串“點火/線圈/固定”,只需將“點火”、“線圈”、“固定”、“點火線圈”、“線圈固定”、“點火線圈固定”作為候選術語,計算相應的統(tǒng)計量信息。假如以字為單位組合候選術語,則會出現(xiàn)類似“點火線”和“火線圈”這樣一些結構不完整的候選術語,這不僅會使精確率下降,而且會降低效率。

4.1 詞頻分布變化的方法

由于術語具有領域相關性,一個術語在領域間分布不均勻,即一個術語在相關領域內(nèi)出現(xiàn)頻率較高,而在不相關領域內(nèi)很少出現(xiàn)或幾乎不出現(xiàn)。同時,周浪[10]研究表明在同一個領域內(nèi)的不同場景下(文檔中),術語的詞頻信息分布也有很大差別。因為在不同的場景中,討論的話題也不同,用到的術語自然也不同。例如,在汽車語料中術語“共軌式噴油系統(tǒng)”總共出現(xiàn)了5次,且只在兩個文檔中出現(xiàn),其中一個文檔中出現(xiàn)了4次。

術語頻率在各個文檔間的波動變化可以區(qū)分術語和一般詞,而樣本方差是反映檢驗樣本和總體分布的波動程度的最直接的方法。方差的值越小,表明候選術語在文檔間的頻率變化越小,是術語的可能性也越小。周浪[10]提出的詞頻分布公式如式(1):

其中M為總的文檔數(shù)。

4.2 信息熵的方法

信息論中的信息熵表示單個隨機變量的不確定性。隨機變量越不確定,其熵值越大。當信息熵用于術語抽取時,主要用于計算字符串的邊界不確定性。字符串的邊界越不確定,信息熵越高,且越可能是一個完整的詞。

一般通過計算字符串的左信息熵和右信息熵來衡量字符串的左右邊界的不確定性。在汽車語料中,在“底板上只有一根引出線接在點火線圈上,點火線圈中心有磁性棒,高壓點火線擰緊在點火線圈的木螺釘上?!敝校包c火線圈”出現(xiàn)了3次,它的左鄰接字有“在”和“,”,右鄰接字有“上”、“中”和“的”。在整個語料中,字符串“點火線圈”總共出現(xiàn)了30次,不同的左鄰接字有19個,右鄰接字有21個,可見“點火線圈”的左右搭配詞都很不固定,因此“點火線圈”很有可能是一個完整的詞,進而可能是汽車術語。而在考察“點火線”是否完整詞時,我們發(fā)現(xiàn)“點火線”在整個語料中出現(xiàn)了33次,其不同的左鄰接字有21個,右鄰接字只有3個,則“點火線”不適合作為一個完整的詞。

左右信息熵的公式[13]如式(4)、式(5)所示。

其中s是候選字符串,ls是s的左鄰接字l和s結合所構成的字符串,p(ls|s)表示語料中出現(xiàn)s的情況下,s的左鄰接字是l的條件概率。sr是s和s的右鄰接字r結合構成的字符串,p(sr|s)表示語料中出現(xiàn)s的前提下,s的右鄰接字為r的條件概率。LE(s)為字符串s的左信息熵,RE(s)為字符串s的右信息熵。LE(s)和RE(s)越大,說明左右鄰接字越不固定,則s獨立成詞的可能性越大。為了綜合評價s獨立成詞的可能性,任禾[13]通過給左、右信息熵設定相同的閾值來過濾不能獨立成詞的候選詞。即如式(6)所示。

其中Emin為人工設定的閾值。

4.3 詞頻分布和信息熵相結合的方法

在基于信息熵的術語抽取方法中,分別為左、右信息熵設定閾值存在局限性。不僅在閾值調(diào)節(jié)時會比較繁瑣,而且也不能很好地處理字符串的左、右信息熵的不平衡。假如字符串的左信息熵較低,同時右信息熵較大,字符串仍有可能是候選術語。例如,術語“共軌系統(tǒng)”的左信息熵為2.09,右信息熵為3.45;術語“油壓”的左信息熵為3.53,右信息熵為2.23。在結合左、右信息熵的同時,綜合考慮左右信息熵的不平衡性,將得到如下信息熵公式,如式(7)所示。

在基于詞頻分布的術語抽取方法中,詞頻分布只考慮了術語的領域相關性,而沒有考慮術語是否獨立成詞,因此很可能會抽取出一些結構不完整的字符串,比如“手動變速箱系統(tǒng)”,而語料中正確的術語應該是“自手動變速箱系統(tǒng)”。詞頻分布公式中引入了平均詞頻,但用信息熵代替平均詞頻能很好地對術語是否獨立成詞加以判斷,由此,得到式(8)。

5 規(guī)則過濾

本文使用的規(guī)則主要有詞性規(guī)則、普通詞過濾、邊界判定是否合理、是否在其他語料中出現(xiàn)次數(shù)較多等。只考慮詞頻大于2的候選術語,且候選術語的長度小于10。使用的詞性規(guī)則主要是術語詞性的組合方式。

所采用的規(guī)則說明如下:

(1) 詞性規(guī)則主要有:

① 術語中不能包含嘆詞、代詞、處所詞、狀態(tài)詞;

② 術語不能以助詞、連詞、后綴開頭;

③ 術語不能以前綴、方位詞、連詞、助詞結尾;

④ 術語中必須含有名詞、動詞或量詞成分。這些詞性規(guī)則是在周浪[10]的詞性規(guī)則基礎上改進的,以符合汽車術語的詞性規(guī)律。

(2) 由于絕大多數(shù)的普通詞都不是術語,我們用分詞字典構建了一個普通詞列表,用于過濾候選術語中的普通詞,例如“上課”、“下雨”、“春天”等。

(3) 雖然應用了信息熵,但還是有些候選術語不能獨立成詞。通過進一步的邊界判定進行過濾,算法過程如圖2所示。

(a)語料經(jīng)過停用詞分割后的字符串集為A;(b)遍歷字符串集A,找出包含候選術語s的所有字符串B;(c)對B中每一個字符串分詞;(d)ld=0,rd=0,遍歷每一個分詞后的字符串a(chǎn)1a2a3…an,其中s=ai…aj,計算ai-1ai的互信息值MI(ai-1ai),計算aiai+1的互信息值MI(aiai+1)。若MI(ai-1ai)

(4) 應用輔助的計算機語料,若候選術語在計算機語料中的詞頻超過在汽車語料中的詞頻的一半,則將候選術語過濾,當然這是在同樣規(guī)模的語料的情況下。應用計算機輔助語料是為了過濾汽車語料中的部分計算機術語。

6 實驗結果與分析

為了得到正確率高的術語,我們將規(guī)則過濾后的術語按其DV-entropy值從高到低排序。DV-entropy值越高,是術語的可能性也越高。由于本文使用的語料較小,只有0.817M,周浪[10]使用的語料大小為1.27M,他主要評價了前2 000個抽取出的術語,為了與周浪[10]的方法比較,我們只評價前1 300個抽取出的術語。當前,實驗結果的評價標準主要是正確率、召回率和F值。

(9)

在使用相同的語言學規(guī)則和語料的情況下,表1對比了詞頻分布變化和改進的方法的術語抽取性能。在抽取相同的數(shù)量的術語的前提下,比較術語的正確率、召回率和F值。分別比較了抽取100,200,500,800,1 000,1 300個術語時,兩種方法的結果。

表1 詞頻分布(DV-termhood)和本文方法(DV-entropy)的比較: 使用相同的語言學規(guī)則和語料

表1表明隨著抽取出的術語數(shù)量的增加,術語的正確率在降低,召回率在增加,F(xiàn)值也在增加。從總體上看,在抽取出相同數(shù)量的術語時,DV-entropy方法的正確率、召回率和F值都要比DV-termhood高。由于抽取的術語相對于語料含有的術語量較少,DV-entropy和DV-termhood方法的召回率和F值區(qū)分不大,我們將進一步分析正確率。由前100個抽取的術語的正確率遠高于前1 300個的正確率,可以得出字符串的DV-entropy值越高,則字符串是術語的可能性越大。再者,從0.817M的語料中抽取出1 300個術語,術語相對稀疏,由此可知DV-entropy方法對低頻術語具有較好的識別能力。由表1可以看出,改進后的方法比基于詞頻分布的方法的正確率要高14%~20%。這是因為改進后的方法能很好地判斷抽取出的術語是否完整,同時又結合了術語的領域分布不平衡特征。周浪[10]的基于詞頻分布的方法會抽取出一些在少數(shù)文檔中出現(xiàn)頻率較高的字符串。例如,“公式下”只出現(xiàn)在一個文檔中,因而其DV值相對較高,從而引入錯誤。信息熵可以度量字符串“公式下”的完整性,因此結合信息熵和詞頻分布變化的方法可以避免類似的錯誤。

改進后結果得到了提高,但也存在一些錯誤,例如,

1) 對于文本中那些結構完整,出現(xiàn)頻次高的字符串,其信息熵值一般會隨著頻次的增加而增加。雖然其詞頻分布變化較小,但最終的DV-entropy值會比較高。如“制動時”的頻次為67,信息熵為13.8,其對應的方差值為2.0,最終其DV-entropy值高達27.6,而所用的詞性規(guī)則不足以過濾它,因此會引入錯誤。類似的識別的錯誤串有“汽車設計”、“傳遞動力”、“總質(zhì)量”等。

2) 原本屬于同一個文檔中的內(nèi)容,經(jīng)過分頁后,會存在于多個網(wǎng)頁中,而本文在處理的過程中,并沒有將這些網(wǎng)頁合并。這會使公式中詞頻分布變化部分降低方差值,從而降低DV-entropy值。因此,文檔分頁問題會影響本文提出的方法的性能。在將來的工作中,將針對文檔分頁問題進行研究,以提高系統(tǒng)性能。

7 與其他方法比較

文獻[14]結合了互信息、信息熵和C-value的方法,在此基礎上使用語言學規(guī)則進行過濾。文獻[14]中對長度大于3的字符串使用互信息和C-value相結合的方法,對長度小于等于3的使用信息熵和C-value相結合的方法。文獻[14]使用的語料和本文所使用的語料完全相同。該語料是從網(wǎng)上爬取的包含汽車術語的語料,經(jīng)過去除標簽和重復頁面后,大小為0.817M,字數(shù)約為40萬字。表2對比了文獻[14]的方法和本文方法的術語抽取的結果,可以看出本文方法的F值比文獻[14]提高了26.5%。實驗表明,本文所使用的DV-entropy方法和規(guī)則能有效地提高術語識別效果。簡單統(tǒng)計學的方法不能很好地識別低頻術語,原因在于汽車語料存在術語稀疏問題,且簡單統(tǒng)計學方法不能很好地判斷術語的完整性,例如“無觸點磁電機”的子串“觸點磁電機”和“無觸點磁電”會被識別為術語。本文采用的方法則對此進行了有效的改進。

在使用相同的語料和語言學規(guī)則的情況下,進一步比較DV-entropy方法和基于詞頻分布變化(DV-termhood)的方法,表2中列出了基于詞頻分布變化的統(tǒng)計數(shù)據(jù)。由表中數(shù)據(jù)可知,DV-entropy方法的正確率和召回率都要比DV-termhood方法高,從而F值也比DV-termhood方法高4.38%。從總體上來說,DV-entropy和DV-termhood方法的F值都不高,原因在于所使用的語料中只出現(xiàn)一次的術語占所有術語的47.9%,即存在術語稀疏問題。

表2 其他方法和本文方法比較

8 總結

詞頻分布變化表示術語的領域相關性,信息熵表示術語的完整性。本文改進了基于詞頻分布變化的術語抽取方法,在詞頻分布變化中加入信息熵值,并結合一系列術語的語言學規(guī)則,構建了一個術語抽取系統(tǒng)。該方法優(yōu)于當前用于低頻術語識別的基于詞頻分布的方法,對低頻術語有較好的識別能力。為了排除非汽車術語,在下一步工作中,將引入百科語料,同時避免降低系統(tǒng)效率。

[1] 馮志偉. 現(xiàn)代術語學引論[M]. 北京:語文出版社,1997:1-20.

[2] 梁愛林.論術語學概念理論的發(fā)展[J].術語標準化與信息技術.2003(4):4-10.

[3] 胡喬木等人.中國大百科全書[M].語言卷.術語.北京:中國大百科全書出版社,2003.

[4] 張鋒,許云,侯艷,等.基于互信息的中文術語抽取系統(tǒng)[J].計算機應用研究,2005,22(5): 72-73.

[5] 梁穎紅,張文靜,周德福.基于混合策略的高精度長術語自動抽取[J]. 中文信息學報,2009,23(6):26-30.

[6] 何婷婷, 張勇.基于質(zhì)子串分解的中文術語自動抽取[J].計算機工程,2006,32(23): 188-190.

[7] 游宏梁,張巍,沈鈞毅,等. 一種基于加權投票的術語自動識別方法[J]. 中文信息學報,2011,25(3): 9-16.

[8] 劉桃,劉秉權,徐志明,等.領域術語自動抽取及其在文本分類中的應用[J].電子學報,2007, 35(2): 328-332.

[9] 潘渭,顧宏斌. 采用改進重采樣和BRF方法的定義抽取研究[J]. 中文信息學報,2011,25(3): 30-37.

[10] 周浪,張亮,馮沖等.基于詞頻分布變化統(tǒng)計的術語抽取方法[J].計算機科學,2009,36(5):177-180.

[11] Degen H, Deqin T, Yanyan L. HMM revises low marginal probability by CRF for Chinese word segmentation[C]//Proceedings of CIPS-SIGHAN Joint Conference on Chinese Processing, Beijing, 2010, 216-220.

[12] Gaston H G, Ricardo A B, Tim S. New indices for text: pat trees and pat arrays[C]//Information Retrieval Data Structures & Algorithms, 1992:66-82.

[13] 任禾,曾雋芳.一種基于信息熵的中文高頻詞抽取算法[J].中文信息學報.2006,20(5): 40-43.

[14] 李丹. 特定領域中文術語抽取[D]. 2011.大連理工大學碩士學位論文.

Term Extraction Based on Information Entropy and Word Frequency Distribution Variety

LI Lishuang, WANG Yiwen, HUANG Degen

(School of Computer Science and Technology, Dalian University of Technology, Dalian Liaoning 116023, China)

A term extraction system based on information entropy and word frequency distribution variety is presented. Information entropy can measure the integrality of the terms while word frequency distribution variety can measure the domain relativity of terms. Incorporating with simple linguistic rules as an addition filter,the automatic term extraction system integrates information entropy into word frequency distribution variety formula. Preliminary experiment on the corpus of automotive domain indicates that the precision is 73.7% when 1,300 terms are extracted. The result shows that the proposed approach can effectively recognize the terms with lower frequency and the recognized terms are well of integrality.

term extraction; information entropy; word frequency distribution variety

李麗雙(1967—),副教授,主要研究領域為自然語言理解、信息抽取與機器翻譯。E?mail:lils@dlut.edu.cn王意文(1988—),碩士研究生,主要研究領域為信息抽取。E?mail:yeevanewong@gmail.com黃德根(1965—),教授,主要研究領域為自然語言理解與機器翻譯。E?mail:huangdg@dlut.edu.cn

1003-0077(2015)01-0082-06

2012-08-09 定稿日期: 2013-03-11

國家自然科學基金(61173101, 61173100)

TP391

A

猜你喜歡
字符串詞頻信息熵
基于信息熵可信度的測試點選擇方法研究
基于詞頻比的改進Jaccard系數(shù)文本相似度計算
基于文本挖掘的語詞典研究
基于信息熵賦權法優(yōu)化哮喘方醇提工藝
一種基于信息熵的雷達動態(tài)自適應選擇跟蹤方法
25年來中國修辭研究的關鍵詞詞頻統(tǒng)計*——基于國家社科與教育部社科課題立項數(shù)據(jù)
SQL server 2008中的常見的字符串處理函數(shù)
倍增法之后綴數(shù)組解決重復子串的問題
最簡單的排序算法(續(xù))
詞頻,一部隱秘的歷史
古田县| 新丰县| 固安县| 莱州市| 龙口市| 大关县| 驻马店市| 新兴县| 邵阳市| 翁牛特旗| 静海县| 古田县| 纳雍县| 汾西县| 利川市| 资源县| 新津县| 曲水县| 丘北县| 旬邑县| 武威市| 兴海县| 棋牌| 阿克陶县| 永靖县| 瑞丽市| 乡城县| 湖南省| 馆陶县| 蓬安县| 永康市| 仁布县| 方正县| 贺兰县| 南汇区| 镇巴县| 绥化市| 安多县| 略阳县| 错那县| 青川县|