韋靈 倪志平
【摘 要】文本分類工作是計(jì)算機(jī)應(yīng)用過程當(dāng)中常見的一種工作形式,在日常工作過程中,如何對不同類別的文本進(jìn)行準(zhǔn)確高效的分類工作是相關(guān)工作人員目前正在研究的主要工作問題?;谛畔⒓夹g(shù)的發(fā)展進(jìn)步,新時(shí)期,自然語言處理技術(shù)及機(jī)器學(xué)習(xí)技術(shù)等人工智能領(lǐng)域范疇的技術(shù)操作方式都在文本分類工作當(dāng)中發(fā)揮了極為重要的作用,引起了人們的廣泛關(guān)注。但是,具體的操作過程對員工的工作能力要求比較高,而且相應(yīng)的影響因素也比較多?;诖耍瑸榱吮WC文本分類工作的有序開展,本文主要對這兩項(xiàng)技術(shù)操作方法的具體運(yùn)用方法及相關(guān)注意事項(xiàng)進(jìn)行詳細(xì)的討論和研究。
【關(guān)鍵詞】自然語言處理;機(jī)器學(xué)習(xí);文本分類;運(yùn)用方法
中圖分類號: TP391.1文獻(xiàn)標(biāo)識碼: A文章編號: 2095-2457(2019)27-0088-002
DOI:10.19694/j.cnki.issn2095-2457.2019.27.037
自然語言處理與機(jī)器學(xué)習(xí)都是計(jì)算機(jī)技術(shù)發(fā)展背景下誕生的一種技術(shù)操作方法,是人工智能技術(shù)種類中的一種形式。其核心是通過編程設(shè)計(jì)讓系統(tǒng)模仿人的智能去自動處理各項(xiàng)工作,這是使得新時(shí)期的文本分類工作開始朝著自動化、智能化方向穩(wěn)步發(fā)展的關(guān)鍵所在,需要相關(guān)工作人員引起重視并積極研究有效的技術(shù)運(yùn)用方法。
1 文本分類的基本工作內(nèi)容
要想在文本分類工作當(dāng)中應(yīng)用自然語言處理和機(jī)器學(xué)習(xí)這兩項(xiàng)智能技術(shù),達(dá)到提高工作效率的目的。首先就需要保證工作人員能夠明確意識到文本分類工作的重要性,明確分類工作的目標(biāo)、常見的文本類型及具體的分類方法。
1.1 工作的目標(biāo)
文本分類是一個復(fù)雜的集合,因?yàn)樵谶@里可以包括對多個相關(guān)領(lǐng)域的研究工作。不同的工作領(lǐng)域在進(jìn)行文本分類工作時(shí)的目標(biāo)不同,相應(yīng)的分類方法就有一定的差異。而從各個行業(yè)領(lǐng)域的工作共性特點(diǎn)來看,文本分類的目的就是為了能夠存儲相應(yīng)的文本信息,保證數(shù)據(jù)信息的安全性。并在實(shí)際需要使用的時(shí)候能夠保證工作人員可以便捷的查找到相關(guān)數(shù)據(jù)信息,通過使用這些數(shù)據(jù)信息來完成具體的工作內(nèi)容,有效提高工作效率,促進(jìn)各個企業(yè)的發(fā)展進(jìn)步。從數(shù)學(xué)的角度來看,文本分類工作其實(shí)只不過是一個映射的過程??梢砸粚σ坏挠成?,把一些被表明類別的文本信息映射到現(xiàn)有的種類當(dāng)中,完成分類工作。也可以一對多的映射,比如,有些文本當(dāng)中既有這種類別的特征,也含有其他類別的分類特征,因此需要將同一個文本分別存放在不同的類別中。所以在文本分類中,可以看作是一個集合的值映射到一個矩陣上。將相同類別的文本劃入同一個矩陣當(dāng)中,就完成了基礎(chǔ)的文本分類工作。
1.2 常見的文本類型
目前,文本分類工作的基本類型主要有以下幾種:第一種是類標(biāo)記文本,有單標(biāo)記和多標(biāo)記的區(qū)分。例如,常見的一對一的文本就是單標(biāo)記文本,一對多的文本就是多標(biāo)記文本。第二種就是根據(jù)文件的存儲格式進(jìn)行分類,比如,把文件后綴為TXT格式的分為一類,把后綴為DOC格式的分為一類。第三種就是將文件按照內(nèi)容種類的不同進(jìn)行分類,這種方法相對比較細(xì)致,通常適用于企業(yè)管理或者圖書館書籍整理分類的工作。
1.3 傳統(tǒng)文本分類方法
傳統(tǒng)的文本分類方式大多都是由人工操作計(jì)算機(jī)設(shè)備來進(jìn)行的,相應(yīng)的工作任務(wù)量巨大,而且容易由于人為操作馬虎的情況導(dǎo)致分類工作出現(xiàn)失誤,這將會給后續(xù)的資源使用操作帶來安全隱患?;诖耍嚓P(guān)工作人員正在積極研究應(yīng)用人工智能技術(shù)優(yōu)化文本分類工作內(nèi)容及形式的可行方法,以此來推動文本分類工作的有序運(yùn)行。
2 自然語言處理的文本分類工作流程
工作人員在使用自然語言處理工作進(jìn)行文本分類時(shí),應(yīng)當(dāng)明確該項(xiàng)技術(shù)的基本操作原理,明確技術(shù)的優(yōu)化方向,并建立相應(yīng)的系統(tǒng)結(jié)構(gòu)體系。
2.1 基本操作原理
自然語言就是人們?nèi)粘O嗷贤ǖ恼Z言,如漢語、日語、英語等等,它們就是人們學(xué)習(xí)和溝通的工具。而自然語言處理是一門融語言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)于一體的科學(xué)。利用自然語言進(jìn)行文本分類,是將文本的內(nèi)容和文本的存儲方式都以人們所熟悉的語言習(xí)慣進(jìn)行處理,而不需要人們?nèi)ダ斫庥?jì)算機(jī)編程所使用的語言方程等等,這就使得各個工作崗位都可以操作計(jì)算機(jī)設(shè)備完成文本的存儲和查詢的工作。在具體的操作過程中,還涉及到對數(shù)據(jù)信息的文字轉(zhuǎn)化技術(shù),通過這種方式可以為人們?nèi)蘸笫褂梦谋拘畔⑻峁┍憷?/p>
2.2 語音系統(tǒng)的設(shè)置
自然語言處理在文本分類工作當(dāng)中可以設(shè)置語音接收和識別的系統(tǒng),在新時(shí)期的信息技術(shù)發(fā)展背景下,工作人員不僅可以手動保存文本,還可以通過與計(jì)算機(jī)系統(tǒng)對話的方式完成存儲和分類工作。這在自然語言的理解過程中,實(shí)質(zhì)上就是一種映射,一種語言的表達(dá)方式轉(zhuǎn)換成為另一種語言的表達(dá)方式。目前,許多智能家居都安裝了這項(xiàng)語音系統(tǒng)功能,應(yīng)用效果良好。在這個環(huán)節(jié)當(dāng)中需要關(guān)注的主要問題就是計(jì)算機(jī)是否能夠理解人們輸入的指令,并進(jìn)行正確的操作。同時(shí),現(xiàn)階段,工作人員也在使用這種語音系統(tǒng)進(jìn)行文字的輸入,用來制作文本的內(nèi)容,這是自然語言處理的關(guān)鍵技術(shù)手段,有效提高了各行各業(yè)文本分類工作的效率和質(zhì)量。
2.3 結(jié)構(gòu)體系的建立
在實(shí)際應(yīng)用自然語言處理文本分類工作時(shí),工作人員還需要建立健全的結(jié)構(gòu)體系,將文本內(nèi)容存儲在相應(yīng)的系統(tǒng)結(jié)構(gòu)當(dāng)中,方便進(jìn)行集中管理。由于我國已經(jīng)進(jìn)入大數(shù)據(jù)時(shí)代,相應(yīng)的文本數(shù)據(jù)信息十分龐大。在具體進(jìn)行自然語言處理工作時(shí),可以建立樹形結(jié)構(gòu)圖,明確分布出文本信息的衍生資源,分清各類資源之間的關(guān)系。而具體的樹形結(jié)構(gòu)還需要依靠于自然語言處理技術(shù)完成自動分類和整理,工作人員可以設(shè)置相應(yīng)的計(jì)算機(jī)運(yùn)行程序。通過運(yùn)用一系列的查詢問答來進(jìn)行判斷及分類的工作,前一問題的回答直接關(guān)系到后續(xù)問題的提法。采用這種方法直到所有文本資源全部分類完成,這種基于人工智能技術(shù)下的自然語言處理工作,雖然能夠有效降低員工的工作壓力,但是在實(shí)際操作過程中卻容易由于計(jì)算機(jī)識別能力方面的問題而影響工作的效率。這就表示相應(yīng)的計(jì)算機(jī)技術(shù)還有待進(jìn)一步優(yōu)化研究,而現(xiàn)階段的優(yōu)化重點(diǎn)就在于計(jì)算機(jī)設(shè)備對人類智能的學(xué)習(xí)方面。
3 機(jī)器學(xué)習(xí)的文本分類工作流程
機(jī)器學(xué)習(xí)已經(jīng)成為了文本分類工作智能化的重要技術(shù)手段之一,相關(guān)研究工作的重點(diǎn)主要是對計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu)使之不斷改善自身的性能等方面的研究工作。在這個問題上,如何幫助計(jì)算機(jī)熟悉人們的語言及操作習(xí)慣是這項(xiàng)技術(shù)的關(guān)鍵點(diǎn)。
3.1 明確機(jī)器需要具備的功能種類
在世界范圍內(nèi),我國的計(jì)算機(jī)智能化研究工作相對起步比較晚,相應(yīng)的技術(shù)操作能力還在進(jìn)一步的優(yōu)化研究工作當(dāng)中。從文本分類的角度來看,相關(guān)工作人員在研究機(jī)器學(xué)習(xí)的人工智能技術(shù)時(shí),應(yīng)當(dāng)明確機(jī)器自身需要具備的基礎(chǔ)功能有哪些。這就涉及到了圖靈測試的研究工作,這項(xiàng)實(shí)驗(yàn)研究是最早的機(jī)器學(xué)習(xí)人類語言習(xí)慣及操作習(xí)慣的測試。具體的測試內(nèi)容為:如果計(jì)算機(jī)能夠回答出人類提出的測試問題,并且,不論答對與否都無法讓人分辨出該答案是人類給出的還是計(jì)算機(jī)給出的,這樣就算完成了機(jī)器學(xué)習(xí)。從這個測試方面工作人員可以看出,機(jī)器學(xué)習(xí)主要學(xué)習(xí)的是如何模擬人的智能去回答問題。這就需要其具備對問題的識別功能,包括對實(shí)際物體的掃描功能以及語音系統(tǒng)的設(shè)置問題等等。通過這種方式讓機(jī)器有“眼睛”、“耳朵”和“嘴巴”,從而讓機(jī)器可以與工作人員進(jìn)行智能對話。
3.2 數(shù)據(jù)的收集和分析
機(jī)器學(xué)習(xí)技術(shù)最先需要研究的就是人的思維習(xí)慣,而這就涉及到對數(shù)據(jù)的分析工作。工作人員可以設(shè)置一些調(diào)查問卷,比如,心理測試。然后應(yīng)用信息技術(shù)統(tǒng)計(jì)相應(yīng)的結(jié)果,通過人工智能技術(shù)來分析人們的共性思維和個性思維模式。并建立數(shù)據(jù)庫將這些數(shù)據(jù)收集起來,這么做的目的是由于計(jì)算機(jī)需要不斷在數(shù)據(jù)收集過程中學(xué)習(xí),在這個過程中不斷模擬人類的思維模式,真正達(dá)到智能處理文本分類工作的目的。此外,數(shù)據(jù)收集工作還需要篩選出一些無用的數(shù)據(jù)信息,保證數(shù)據(jù)的真實(shí)性,這是機(jī)器學(xué)習(xí)技術(shù)優(yōu)化研究工作的重點(diǎn)內(nèi)容。
3.3 結(jié)合具體工作內(nèi)容來設(shè)置
工作人員要想將機(jī)器學(xué)習(xí)應(yīng)用于文本分類工作當(dāng)中,就需要結(jié)合文本分類的具體工作內(nèi)容進(jìn)行靈活的設(shè)置。比如,從文本的內(nèi)容來看,涉及到對標(biāo)點(diǎn)符號、表情符號的使用情況。當(dāng)工作人員在進(jìn)行語音輸入時(shí),機(jī)器應(yīng)當(dāng)具備自動輸出正確標(biāo)點(diǎn)的能力。同時(shí),文本分類工作需要統(tǒng)計(jì)相同類型的文本,并區(qū)分不同類型的文本。機(jī)器學(xué)習(xí)的運(yùn)用過程中,其需要具備智能化、自動化分辨文本格式及內(nèi)容的能力。針對這個問題,必須考慮學(xué)習(xí)算法泛化能力,保證測試數(shù)據(jù)集的錯誤率要足夠低。泛化能力的研究主要有:以樣本個數(shù)趨近無窮大來描述模型的泛化能力;從“有限樣本”建立模型,以估計(jì)其對世界為真的程度的能力。
3.4 相關(guān)注意事項(xiàng)
自然語言處理與機(jī)器學(xué)習(xí)有很多共通的地方,因此工作人員在進(jìn)行人工智能的研究工作時(shí),通常都會將這兩項(xiàng)技術(shù)問題融合起來。由于這兩項(xiàng)技術(shù)的優(yōu)化流程都相對較為復(fù)雜,必須要保證工作人員具備專業(yè)的的計(jì)算機(jī)操作知識,能夠了解人工智能的含義及新時(shí)期信息技術(shù)的發(fā)展方向。這就需要對工作人員進(jìn)行專業(yè)知識技能的培訓(xùn)工作,并應(yīng)當(dāng)結(jié)合文本分類工作的基本要求規(guī)范員工的工作行為。這里還涉及到對文本數(shù)據(jù)信息安全性的監(jiān)管工作,這是保障文本分類工作穩(wěn)步運(yùn)行的基礎(chǔ)。
4 結(jié)論
在文本分類工作當(dāng)中,基于傳統(tǒng)分類方法較為費(fèi)時(shí)費(fèi)力,而且容易出現(xiàn)操作錯誤而給后續(xù)人們使用文本開展各項(xiàng)工作帶來不良影響?;诖?,人工智能技術(shù)的應(yīng)用優(yōu)勢逐漸受到工作人員的重視。本文當(dāng)中主要介紹的是人工智能技術(shù)中的自然語言處理和機(jī)器學(xué)習(xí),工作人員需要明確這兩項(xiàng)技術(shù)的基本操作原理,結(jié)合工作的流程制定科學(xué)合理的工作方案,建立相應(yīng)的系統(tǒng)結(jié)構(gòu)體系。不斷研究有效優(yōu)化技術(shù)操作方法的可行措施,推動文本智能分類工作的可持續(xù)發(fā)展進(jìn)步,顯著提高工作效率和質(zhì)量。
【參考文獻(xiàn)】
[1]韋文娟,韓家新,夏海洋.基于Python自然語言處理的文本分類研究[J].福建電腦,2016,32(7):4-5.
[2]關(guān)白,才讓叁智,才華.自然語言處理在信息檢索中的應(yīng)用研究[J].信息與電腦(理論版),2017(11):35-37.
[3]李承晉,高沖,周文杰.共詞分析識別研究熱點(diǎn)的內(nèi)容效度研究:基于自然語言處理[J].圖書與情報(bào),2018(1):8-14.
[4]黃勇,羅文輝,張瑞舒.改進(jìn)樸素貝葉斯算法在文本分類中的應(yīng)用[J].科技創(chuàng)新與應(yīng)用,2019,261(05):30-33.