面向語(yǔ)言分析的語(yǔ)料庫(kù)技術(shù)平臺(tái)建設(shè)

2019-09-12 10:41:42馬創(chuàng)新梁社會(huì)

智能計(jì)算機(jī)與應(yīng)用 2019年4期

馬創(chuàng)新梁社會(huì)

摘要：為了提高語(yǔ)言研究者的工作效率，開發(fā)了語(yǔ)料庫(kù)技術(shù)平臺(tái) Inspire1。本系統(tǒng)兼具通用性、全面性、一體化和易用性等特點(diǎn)，集成了語(yǔ)料采集、加工、統(tǒng)計(jì)、檢索和分析等5個(gè)模塊。利用本系統(tǒng)，能夠使研究者直觀地觀察到語(yǔ)料庫(kù)中蘊(yùn)含的語(yǔ)言規(guī)律，從語(yǔ)料庫(kù)中發(fā)現(xiàn)新的知識(shí)。

關(guān)鍵詞：語(yǔ)料庫(kù);語(yǔ)言研究; 軟件

文章編號(hào)：2095-2163（2019）04-0100-04 中圖分類號(hào)：TP319 文獻(xiàn)標(biāo)志碼：A

0 引言

在當(dāng)今大數(shù)據(jù)時(shí)代，人們可以利用的數(shù)據(jù)量每年都以指數(shù)倍增長(zhǎng)，所以在語(yǔ)言學(xué)研究中，原始語(yǔ)料的獲取已經(jīng)不再是難題，而如何利用先進(jìn)的智能技術(shù)高效地采集語(yǔ)料、加工語(yǔ)料和分析語(yǔ)料，已成為當(dāng)今語(yǔ)料庫(kù)語(yǔ)言學(xué)界亟需解決的重要問(wèn)題。

語(yǔ)料庫(kù)建設(shè)和應(yīng)用技術(shù)能夠減輕研究者的工作負(fù)擔(dān)，提高語(yǔ)言研究的效率。因此，構(gòu)建一個(gè)語(yǔ)料庫(kù)技術(shù)平臺(tái)，對(duì)于語(yǔ)言教學(xué)和研究有著較大的實(shí)際意義[1]。語(yǔ)料庫(kù)技術(shù)平臺(tái)建設(shè)是一項(xiàng)多學(xué)科交叉的復(fù)雜工作，研究者不僅要掌握先進(jìn)的計(jì)算機(jī)技術(shù)和知識(shí)組織方法，還要具備深厚的語(yǔ)言學(xué)功底。

1 語(yǔ)料庫(kù)處理軟件概述

1.1 當(dāng)前常用的語(yǔ)料庫(kù)軟件

許家金和賈云龍[2]參照McEnery & Hardie[3]對(duì)語(yǔ)料庫(kù)軟件的分類方式，提出按照語(yǔ)料庫(kù)軟件的運(yùn)行環(huán)境可以把語(yǔ)料庫(kù)工具分為3類，一是運(yùn)行在DOS環(huán)境下的工具，如：CLOC、XANADU、TACT、MiniConcordancer、MicroConcord等;二是運(yùn)行在Windows或其它圖形操作系統(tǒng)中的工具，如：Wordsmith Tools、AntConc、MonoConc Pro等;三是基于互聯(lián)網(wǎng)的語(yǔ)料庫(kù)網(wǎng)絡(luò)應(yīng)用工具，如：CQPweb、BYU corpora、SketchEngine等。

李亮[4]按照語(yǔ)料庫(kù)軟件開發(fā)者的國(guó)籍來(lái)劃分，當(dāng)前常用的語(yǔ)料庫(kù)軟件和其來(lái)源國(guó)分別是：美國(guó)有Conc、Paraconc、Monoconc;英國(guó)有MicroConcord、Wordsmith Tools、Longman MiniConcordancer、Free TextBrowser、Concordance;德國(guó)有LEXA、TextSTAT;加拿大有Concorder;日本有CorpusWizard;中國(guó)香港有Concapp。從語(yǔ)料庫(kù)軟件的數(shù)量和品質(zhì)兩方面來(lái)看，英國(guó)在該領(lǐng)域占據(jù)領(lǐng)先地位，其次是美國(guó)和德國(guó)。

1.2 普遍存在的問(wèn)題

分析眾多語(yǔ)料庫(kù)處理軟件，筆者發(fā)現(xiàn)國(guó)內(nèi)開發(fā)的語(yǔ)料庫(kù)軟件數(shù)量少、使用率低[5]。此外，這些語(yǔ)料庫(kù)軟件還普遍存在以下幾方面的問(wèn)題：

（1）用于分析和處理漢語(yǔ)語(yǔ)料的軟件較少。漢語(yǔ)具有與英文不同的特點(diǎn)，比如在計(jì)算機(jī)字符集中，一個(gè)漢字與一個(gè)英文字母所占用的存儲(chǔ)單元是不同的。再如漢語(yǔ)還存在分詞連寫的問(wèn)題，不像英文每個(gè)單詞之間都有間隔。

（2）有些語(yǔ)言處理軟件的功能單一，并且只能完成淺層任務(wù)。僅能用于某一項(xiàng)具體的語(yǔ)言處理工作，在實(shí)際的語(yǔ)料處理中，需要使用多個(gè)軟件才能完成一項(xiàng)任務(wù)。

（3）有些語(yǔ)言處理軟件易用性較差。主要表現(xiàn)在設(shè)計(jì)不合理、界面不友好、操作復(fù)雜、沒(méi)有做到簡(jiǎn)單易用、難以在語(yǔ)言學(xué)領(lǐng)域推廣使用。

為了能夠切實(shí)解決語(yǔ)言研究中的困難，提高工作效率，針對(duì)當(dāng)前語(yǔ)料處理軟件所存在的問(wèn)題，筆者提出設(shè)計(jì)語(yǔ)料處理軟件的4條原則[6]：

（1）通用性原則。全世界現(xiàn)有語(yǔ)言大約在5 000～7 000種之間，使用人口超過(guò)100萬(wàn)的語(yǔ)言約有140多種，有文字的語(yǔ)言在930種左右。開發(fā)的軟件應(yīng)該具備廣泛的通用性，能夠處理漢語(yǔ)、英語(yǔ)、法語(yǔ)、俄語(yǔ)等使用人口較多的語(yǔ)言文字。

（2）全面性原則。應(yīng)該開發(fā)功能集成化的“分析型深層工具”，所設(shè)計(jì)的語(yǔ)言處理軟件不僅能夠發(fā)現(xiàn)表層語(yǔ)言現(xiàn)象，而且能夠挖掘出深層語(yǔ)言規(guī)律。

（3）一體化原則。軟件的各項(xiàng)功能要按照語(yǔ)料處理時(shí)的先后順序進(jìn)行組合，而不是簡(jiǎn)單疊加在一起。語(yǔ)料采集、加工、統(tǒng)計(jì)、檢索、分析等各項(xiàng)功能及其子功能之間要具有一定的邏輯關(guān)系，形成統(tǒng)一的功能整體。

（4）易用原則。軟件設(shè)計(jì)應(yīng)遵循用戶至上原則，采用訪談法和問(wèn)卷調(diào)查法充分了解語(yǔ)言研究者的需求狀況。在人機(jī)接口的設(shè)計(jì)方面，做到簡(jiǎn)易直觀，讓用戶通過(guò)很少的學(xué)習(xí)和訓(xùn)練，就能夠使用軟件[7]。

2 系統(tǒng)模塊與功能設(shè)計(jì)

本系統(tǒng)使用的編程語(yǔ)言是C++，編程工具是Microsoft Visual Studio Community 2015，使用了MFC類庫(kù)[8]。其主要功能模塊如圖1所示，分為6個(gè)子模塊：公用模塊、分析、檢索、統(tǒng)計(jì)、加工和采集模塊。公用模塊的功能是選取、顯示和輸出語(yǔ)料文件的，其它5個(gè)子模塊都要用到公用模塊來(lái)選擇和瀏覽待處理語(yǔ)料文件、以及顯示與輸出處理后的結(jié)果文件。

語(yǔ)料庫(kù)技術(shù)平臺(tái)Inspire1主要包括5大功能，對(duì)此可做闡釋分述如下。

（1）語(yǔ)料采集功能。包括2項(xiàng)子功能：

①WEB爬蟲。用以獲取指定網(wǎng)頁(yè)中的所有鏈接并且保存所有鏈接網(wǎng)頁(yè)到本地文件夾中。

②文本清洗。由于網(wǎng)絡(luò)上采集下來(lái)的WEB資源中摻雜著大量的雜質(zhì)信息，如字體信息、格式信息、廣告、超鏈接等，需要對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行數(shù)據(jù)清洗，以去除其中的雜質(zhì)。

（2）語(yǔ)料加工功能。語(yǔ)料采集過(guò)后，需要再做加工，使得語(yǔ)料在形式上保持一致，以便于檢索和統(tǒng)計(jì)。這項(xiàng)功能包括4項(xiàng)子功能：

①語(yǔ)料的分割與合并。用以調(diào)整語(yǔ)料文件的大小。

②按照斷句標(biāo)記對(duì)文本做斷句處理。斷句標(biāo)記是由使用者定制的，以此來(lái)調(diào)整語(yǔ)料中每個(gè)片段單位的長(zhǎng)短。

③字符編碼的轉(zhuǎn)換功能。可使文本文件的字符編碼在Unicode、Big5、UTF8、GBK等編碼之間實(shí)現(xiàn)自由轉(zhuǎn)換。

④人工標(biāo)注輔助系統(tǒng)。在語(yǔ)言研究中，經(jīng)常要對(duì)語(yǔ)料進(jìn)行人工分詞和標(biāo)注，該系統(tǒng)能起到輔助作用。還能根據(jù)預(yù)定規(guī)則對(duì)標(biāo)注后的語(yǔ)料進(jìn)行檢驗(yàn)，發(fā)現(xiàn)違反規(guī)則的情況就會(huì)給予提示[9]。

（3）統(tǒng)計(jì)功能。語(yǔ)言研究中經(jīng)常要統(tǒng)計(jì)語(yǔ)料中的字頻、詞頻和詞類頻率，這項(xiàng)功能包括4項(xiàng)子功能：

①字頻統(tǒng)計(jì)。統(tǒng)計(jì)出語(yǔ)料中出現(xiàn)的字型數(shù)、字型出現(xiàn)的頻次和頻率。能夠統(tǒng)計(jì)單字頻率、“鄰近雙字”的同現(xiàn)頻率、“鄰近三字”的同現(xiàn)頻率、以及“鄰近四字”的同現(xiàn)頻率。

②詞頻統(tǒng)計(jì)。統(tǒng)計(jì)出語(yǔ)料中出現(xiàn)的詞型數(shù)，每個(gè)詞型出現(xiàn)的頻次和頻率。能夠統(tǒng)計(jì)單詞頻率、“鄰近雙詞”的同現(xiàn)頻率、“鄰近三詞”的同現(xiàn)頻率、以及“鄰近四詞”的同現(xiàn)頻率。

③詞類統(tǒng)計(jì)。統(tǒng)計(jì)出語(yǔ)料中出現(xiàn)的詞類數(shù)，每種詞類的出現(xiàn)頻次和頻率。能夠統(tǒng)計(jì)單個(gè)類別的頻次和頻率、“鄰近雙類”的同現(xiàn)頻率、“鄰近3類”的同現(xiàn)頻率、以及“鄰近四類”的同現(xiàn)頻率。

④風(fēng)格統(tǒng)計(jì)。統(tǒng)計(jì)出語(yǔ)料中的詞型數(shù)、詞例數(shù)、詞型與詞例之比、平均句長(zhǎng)、句長(zhǎng)標(biāo)準(zhǔn)差、段落數(shù)、平均段落長(zhǎng)、以及段落長(zhǎng)標(biāo)準(zhǔn)差。

（4）檢索功能?？煞譃?項(xiàng)子功能，分別提供4種類型的檢索。分析后，可得研究概述如下。

①簡(jiǎn)單檢索。用戶輸入一個(gè)關(guān)鍵詞，系統(tǒng)能夠從語(yǔ)料庫(kù)中查找出所有該詞的用例，并用紅色字體把用例中的關(guān)鍵詞標(biāo)示出來(lái)。同時(shí)，還能把包含這個(gè)關(guān)鍵詞的文本片斷全部抽取出來(lái)，存在一個(gè)新的文件中。文本片斷可以是以小句為單位，也可以是以整句或段落為單位，用戶能夠自己定義。

②復(fù)雜檢索。用戶可以輸入多個(gè)關(guān)鍵詞，系統(tǒng)能夠查找出語(yǔ)料庫(kù)中所有這些詞的用例，并用紅色字體把用例中的關(guān)鍵詞標(biāo)示出來(lái)。同時(shí)，能把包含這些關(guān)鍵詞的文本片斷全部抽取出來(lái)，存在一個(gè)新的文件中。關(guān)鍵詞之間的出現(xiàn)關(guān)系是“并且”還是“或者”，能夠由用戶來(lái)設(shè)定。

③高級(jí)檢索。系統(tǒng)能夠按照用戶輸入的正則表達(dá)式檢索語(yǔ)料，并且用戶可以自主設(shè)定所抽取的語(yǔ)料片段的形式，編輯斷句標(biāo)記。

④特殊檢索。用于處理分詞之后的文本，用戶輸入一個(gè)關(guān)鍵詞，并且指定在關(guān)鍵詞之前的詞語(yǔ)個(gè)數(shù)、以及在關(guān)鍵詞之后的詞語(yǔ)個(gè)數(shù)，系統(tǒng)能夠查找出“前詞+關(guān)鍵詞+后詞”這種形式詞串的所有用例，并用鮮紅和深紅2種顏色字體分別把前后詞和關(guān)鍵詞標(biāo)示出來(lái)。系統(tǒng)還能夠統(tǒng)計(jì)出這種形式詞串的出現(xiàn)頻率[10]。

（5）分析功能?？煞譃?項(xiàng)子功能，分別提供3種類型的分析模式。這里，可給出內(nèi)容表述如下。

①特征詞分析。系統(tǒng)能夠按照預(yù)設(shè)算法提取各個(gè)語(yǔ)料文本的特征詞，進(jìn)而為文本分類，信息抽取提供技術(shù)支持。

②共詞分析。系統(tǒng)能夠?qū)σ唤M詞兩兩統(tǒng)計(jì)其在同一篇文獻(xiàn)中出現(xiàn)的頻次，以此為基礎(chǔ)對(duì)這些詞進(jìn)行聚類分析，分析結(jié)果能夠反映出這些詞之間的親疏關(guān)系，有效地展示這些詞之間的關(guān)聯(lián)，進(jìn)而可以分析這些詞所代表主題的結(jié)構(gòu)變化。

③相似度分析。系統(tǒng)能夠通過(guò)計(jì)算文獻(xiàn)之間在詞型等級(jí)方面的相關(guān)系數(shù)，來(lái)獲取量化的語(yǔ)言風(fēng)格相似度。

3 軟件系統(tǒng)應(yīng)用流程

（1）首先利用“采集模塊”的子模塊“WEB爬蟲”從互聯(lián)網(wǎng)上抓取含有語(yǔ)料文件的網(wǎng)頁(yè)集合，再利用“文本清洗”模塊對(duì)含有HTML標(biāo)簽和廣告等雜質(zhì)的網(wǎng)頁(yè)集合進(jìn)行數(shù)據(jù)清洗，得到“原始語(yǔ)料”。

（2）利用“加工模塊”的子模塊“合并分割”對(duì)文獻(xiàn)資料作合并或分割處理;“文本斷句”模塊作斷句處理;“字符編碼”模塊轉(zhuǎn)換語(yǔ)料文件的字符編碼;“人工標(biāo)注”模塊對(duì)語(yǔ)料進(jìn)行分詞、標(biāo)注詞性、標(biāo)注語(yǔ)義角色等處理;經(jīng)過(guò)此階段的處理得到“精加工語(yǔ)料”。

（3）利用“統(tǒng)計(jì)模塊”中的“字頻統(tǒng)計(jì)”子模塊統(tǒng)計(jì)出語(yǔ)料文件的字頻信息;“詞頻統(tǒng)計(jì)”模塊統(tǒng)計(jì)出語(yǔ)料文件的詞頻信息;“詞類統(tǒng)計(jì)”模塊統(tǒng)計(jì)出語(yǔ)料文件的詞類信息;經(jīng)過(guò)此階段的處理得到“統(tǒng)計(jì)報(bào)告”。

（4）利用“檢索模塊”的各項(xiàng)檢索功能，根據(jù)研究的需要，對(duì)語(yǔ)料文件進(jìn)行檢索和信息抽取，得到 “檢索報(bào)告”。

（5）利用“分析模塊”的各項(xiàng)分析功能，分析特征詞、共詞和文本的相似度，得到“分析報(bào)告”。

本系統(tǒng)的應(yīng)用流程如圖2所示。

本系統(tǒng)初始界面的上方是一個(gè)標(biāo)簽視圖控件，該控件中還包含多個(gè)標(biāo)簽視圖控件和表單視圖控件，下方并排安置2個(gè)瀏覽器視圖控件，其中左邊控件主要用于顯示輸入文件的內(nèi)容，右邊控件主要用于顯示處理結(jié)果[11]。以“簡(jiǎn)單檢索”界面為例，如圖3所示，界面的上方是提供給用戶交互的界面，左下方控件中顯示的是待處理的文件內(nèi)容，右下方控件中顯示的是以“曰/v”作為關(guān)鍵詞的查找結(jié)果，所有符合查找條件的語(yǔ)句片段都顯示這里。

4 結(jié)束語(yǔ)

為了提升語(yǔ)言分析的效果，使研究者直觀地觀察到語(yǔ)料庫(kù)中蘊(yùn)含的語(yǔ)言規(guī)律，從語(yǔ)料庫(kù)中發(fā)現(xiàn)新的知識(shí)，設(shè)計(jì)并實(shí)現(xiàn)了語(yǔ)料庫(kù)技術(shù)平臺(tái) Inspire1。本軟件采用面向?qū)ο蟮乃枷刖幊蹋鞑糠止δ芟嗷オ?dú)立，具有較強(qiáng)的可擴(kuò)展性，并且是無(wú)需安裝的綠色軟件，占用很少的存儲(chǔ)空間，能夠滿足語(yǔ)料庫(kù)建設(shè)和應(yīng)用中的大部分技術(shù)需求。

參考文獻(xiàn)

[1]馬創(chuàng)新. 語(yǔ)料庫(kù)技術(shù)平臺(tái)使用指南（語(yǔ)料處理軟件）[2019-04-09]. http：//blog.sina.com.cn/s/blog_740006d40102x448.html.

[2] 許家金，賈云龍. 基于R-gram的語(yǔ)料庫(kù)分析軟件PowerConc的設(shè)計(jì)與開發(fā)[J]. 外語(yǔ)電化教學(xué)，2013（1）：57-62.

[3] MCENERY T， HARDIE A. Corpus linguistics：Method， theory and practice[M]. Cambridge：Cambridge University Press， 2012.

[4] 李亮. 英語(yǔ)語(yǔ)料庫(kù)檢索工具的設(shè)計(jì)理念及其深層化[J]. 外語(yǔ)電化教學(xué)，2007（6）：16-20.

[5] 王立非，梁茂成. WordSmith方法在外語(yǔ)教學(xué)研究中的應(yīng)用[J]. 外語(yǔ)電化教學(xué)，2007（3）：3-7，12.

[6] 周曉云.手段與效果的正比論—語(yǔ)言教學(xué)的現(xiàn)代化手段[J]. 電化教育研究，2001（12）：34-35.

[7] 馬創(chuàng)新，陳小荷. 文獻(xiàn)中的詞型分區(qū)規(guī)律與高頻特征詞的發(fā)現(xiàn)[J]. 語(yǔ)言文字應(yīng)用，2018（3）：124-133.

[8] MALIK D S. C++編程—數(shù)據(jù)結(jié)構(gòu)與程序設(shè)計(jì)方法[M]. 晏海華，等譯. 北京：電子工業(yè)出版社，2003.

[9] 馬創(chuàng)新，陳小荷，曲維光，等. 《論語(yǔ)》與其注疏文獻(xiàn)對(duì)齊語(yǔ)料庫(kù)的構(gòu)建[J]. 現(xiàn)代教育技術(shù)，2012，22（7）：109-113.

[10]馬創(chuàng)新，陳小荷. 文獻(xiàn)中的詞語(yǔ)分布、詞型等級(jí)和風(fēng)格計(jì)算[J]. 中文信息學(xué)報(bào). 2017， 31 （4）：20-27.

[11]姜秋霞. 信息技術(shù)輔助語(yǔ)言教育的研究范式[J]. 電化教育研究，2010（6）：107-108.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

面向語(yǔ)言分析的語(yǔ)料庫(kù)技術(shù)平臺(tái)建設(shè)