文/付晨
隨著經(jīng)濟(jì)的快速發(fā)展,各種項(xiàng)目層出不窮,而項(xiàng)目的審核工作對(duì)于項(xiàng)目落地來(lái)說(shuō)至關(guān)重要。但項(xiàng)目審核的流程繁多,文件資料也復(fù)雜多樣。面對(duì)大量且復(fù)雜的資料,傳統(tǒng)的人工審核顯然已經(jīng)無(wú)法從容應(yīng)對(duì),人工智能技術(shù)或許將成為解決其問(wèn)題的切口。
項(xiàng)目審核是一項(xiàng)復(fù)雜且專(zhuān)業(yè)性很強(qiáng)的工作,一方面,是審核的項(xiàng)目文件數(shù)量和內(nèi)容過(guò)多;另一方面,是項(xiàng)目文件之間存在一些聯(lián)系,有時(shí)需要大量的計(jì)算來(lái)加以驗(yàn)證,因此審核的工作往往需要耗費(fèi)大量的時(shí)間和精力。更為嚴(yán)重的是,審核人員在審核過(guò)程中可能會(huì)出現(xiàn)舞弊的現(xiàn)象,嚴(yán)重影響企業(yè)發(fā)展并造成不良的社會(huì)影響。而隨著互聯(lián)網(wǎng)技術(shù)的高速發(fā)展,人工智能技術(shù)為解決以上問(wèn)題帶來(lái)了新的思路。
人工智能(AI)是計(jì)算機(jī)系統(tǒng)對(duì)人類(lèi)智能過(guò)程的模擬,包括學(xué)習(xí)(獲取信息和使用信息的規(guī)則),推理(使用規(guī)則來(lái)達(dá)到近似或明確的結(jié)論)和自我糾正。人工智能是對(duì)計(jì)算機(jī)系統(tǒng)如何能夠履行那些只有依靠人類(lèi)智慧才能完成的任務(wù)的理論研究,依賴(lài)于大量的數(shù)據(jù)收集、處理和分析,并從數(shù)據(jù)中得出一套行為規(guī)則,并保有自我學(xué)習(xí)的能力。簡(jiǎn)單來(lái)說(shuō),人工智能可以很大程度上幫助工作人員進(jìn)行常規(guī)性的審核工作,甚至對(duì)重要的環(huán)節(jié)進(jìn)行提示和幫助。總之,運(yùn)用人工智能,可以最大限度地借助計(jì)算機(jī)的計(jì)算能力,極大地提高審核工作效率,推進(jìn)審核進(jìn)度,降低工作失誤,減少人力成本。
計(jì)算機(jī)視覺(jué)技術(shù)是指計(jì)算機(jī)從圖像中識(shí)別出物體、場(chǎng)景和活動(dòng)的能力。計(jì)算機(jī)視覺(jué)技術(shù)運(yùn)用圖像處理操作及其他技術(shù),將圖像的分析任務(wù)分解為便于管理的小塊任務(wù)。比如,一些圖像識(shí)別技術(shù)能夠從圖像中檢測(cè)到物體的邊緣及紋理。而圖像分類(lèi)技術(shù)可被用作確定識(shí)別到的特征是否能夠代表系統(tǒng)已知的一類(lèi)物體。最近火熱的“人臉識(shí)別”技術(shù)就屬于其中一種。通過(guò)計(jì)算機(jī)視覺(jué)技術(shù),能夠?qū)崿F(xiàn)對(duì)紙質(zhì)地文檔資料進(jìn)行掃描,獲取其中的信息,并轉(zhuǎn)換為一定的編碼形式,供計(jì)算機(jī)進(jìn)一步分析,實(shí)際上就是起到了人的“眼睛”的作用。但人的肉眼會(huì)疲勞,而計(jì)算機(jī)不會(huì)。因此,計(jì)算機(jī)視覺(jué)技術(shù)作為人工智能技的子分支,既能夠提高文檔的信息獲取和處理速度,也能提高獲取信息的準(zhǔn)確度。
自然語(yǔ)言處理技術(shù)是指計(jì)算機(jī)擁有的類(lèi)似人類(lèi)處理文本的能力,比如,從文本中提取意義,甚至從那些可讀的、語(yǔ)法正確的文本中自主解讀出含義。一個(gè)自然語(yǔ)言處理系統(tǒng)并不了解人類(lèi)處理文本的方式,但是它卻可以用非常復(fù)雜與成熟的手段巧妙地處理文本,例如自動(dòng)識(shí)別一份文檔中所有被提及的人與地點(diǎn);識(shí)別文檔的核心主題;或者在一堆僅人類(lèi)可讀的合同中,將各種條款與條件提取出來(lái)并制作成表。以上這些任務(wù)通過(guò)傳統(tǒng)的文本處理軟件根本不可能完成,后者僅能針對(duì)簡(jiǎn)單的文本匹配與模式進(jìn)行操作。因此,在文檔審核過(guò)程中,自然語(yǔ)言處理技術(shù)能夠起到人的“閱讀”作用,可以有針對(duì)地對(duì)文檔內(nèi)容進(jìn)行查找并分析。
機(jī)器學(xué)習(xí)是計(jì)算機(jī)從數(shù)據(jù)中自動(dòng)發(fā)現(xiàn)模式,并將模式用于做預(yù)測(cè)。比如,給予機(jī)器學(xué)習(xí)系統(tǒng)一個(gè)關(guān)于交易時(shí)間、商家、地點(diǎn)、價(jià)格及交易是否正當(dāng)?shù)刃庞每ń灰仔畔⒌臄?shù)據(jù)庫(kù),系統(tǒng)就會(huì)學(xué)習(xí)到可用來(lái)預(yù)測(cè)信用卡欺詐的模式。處理的交易數(shù)據(jù)越多,預(yù)測(cè)就會(huì)越好。機(jī)器學(xué)習(xí)需要大量的數(shù)據(jù)進(jìn)行訓(xùn)練和調(diào)整,不斷從文檔資料提取一些信息特征,并建立相應(yīng)模型進(jìn)行預(yù)測(cè),識(shí)別和判定其他的內(nèi)容文字,以達(dá)到最后的學(xué)習(xí)效果。因此,機(jī)器學(xué)習(xí)就相當(dāng)于人的“思考”和“判斷”,在計(jì)算機(jī)識(shí)別技術(shù)和自然語(yǔ)言技術(shù)等其他技術(shù)的基礎(chǔ)上,對(duì)文檔內(nèi)容進(jìn)行進(jìn)一步分析,判斷內(nèi)容是否符合規(guī)范,是否有誤,甚至實(shí)現(xiàn)自動(dòng)糾錯(cuò)等功能。
數(shù)據(jù)集準(zhǔn)備工作,其中包括加載數(shù)據(jù)集和執(zhí)行數(shù)據(jù)預(yù)處理的過(guò)程。如果是紙質(zhì)文檔,需要先通過(guò)計(jì)算機(jī)視覺(jué)技術(shù)進(jìn)行信息獲取。為滿(mǎn)足后期的模型訓(xùn)練,往往需要大量的數(shù)據(jù)集,不同種類(lèi)的文檔資料都要保證一定的數(shù)量,以保證模型可以對(duì)多類(lèi)型文檔進(jìn)行分析。另一方面,對(duì)原始數(shù)據(jù)還要進(jìn)行預(yù)處理,比如按不同標(biāo)題進(jìn)行內(nèi)容分割,確保針對(duì)同一類(lèi)型的內(nèi)容進(jìn)行分析和訓(xùn)練。
特征工程,其主要目的是突出關(guān)鍵信息,隔離無(wú)效或無(wú)用信息。在計(jì)算機(jī)視覺(jué)中,特征可以是圖像中的線(xiàn)。在自然語(yǔ)言處理中,并且短語(yǔ)或特殊詞計(jì)數(shù)可以是特征。在語(yǔ)音識(shí)別中,特征可以是單個(gè)單詞或音調(diào)。如果正確完成了特征工程,它可以通過(guò)從原始數(shù)據(jù)創(chuàng)建有助于促進(jìn)機(jī)器學(xué)習(xí)過(guò)程的特征來(lái)提高機(jī)器學(xué)習(xí)算法的預(yù)測(cè)能力。常見(jiàn)的特征形式有:計(jì)數(shù)向量、映射數(shù)值、TF-IDF向量等等。特征工程是將原始數(shù)據(jù)轉(zhuǎn)換為更能代表預(yù)測(cè)模型的基礎(chǔ)問(wèn)題的特征的過(guò)程,從而提高了對(duì)潛在數(shù)據(jù)的模型準(zhǔn)確性。
建立模型并進(jìn)行訓(xùn)練。機(jī)器學(xué)習(xí)有許多基礎(chǔ)模型,常見(jiàn)的有樸素貝葉斯分類(lèi)器、線(xiàn)性分類(lèi)器、SVM模型、隨機(jī)森林模型、Boosting模型、深度神經(jīng)網(wǎng)絡(luò)等等。針對(duì)文檔審核問(wèn)題,可以建立一種基于機(jī)器學(xué)習(xí)的文檔規(guī)范性審核模型,并依據(jù)數(shù)據(jù)集進(jìn)行模型訓(xùn)練,并對(duì)模型的求解結(jié)果進(jìn)行初步評(píng)估。模型效果不理想的,還要進(jìn)行模型參數(shù)的調(diào)整,以達(dá)到符合標(biāo)準(zhǔn)的效果;有時(shí)利用不同的模型并混合它們的輸出還可以進(jìn)一步改善結(jié)果。
在測(cè)試集上檢驗(yàn)?zāi)P?。模型?xùn)練后,還要準(zhǔn)備測(cè)試數(shù)據(jù)集對(duì)其進(jìn)行驗(yàn)證,對(duì)模型的實(shí)際審核能力進(jìn)行評(píng)估。如果模型在訓(xùn)練數(shù)據(jù)上表現(xiàn)很好但在測(cè)試數(shù)據(jù)上表現(xiàn)不佳,則表明它過(guò)度擬合。換句話(huà)說(shuō),訓(xùn)練出來(lái)的模型僅僅適用于訓(xùn)練數(shù)據(jù)上,對(duì)其他的數(shù)據(jù)集沒(méi)有普遍的適用價(jià)值。當(dāng)模型檢驗(yàn)結(jié)果不符合預(yù)期時(shí),應(yīng)該重新調(diào)整參數(shù),再次進(jìn)行訓(xùn)練,或者調(diào)整思路,更換模型和方法,以達(dá)到預(yù)取的效果。
總而言之,人工智能技術(shù)在項(xiàng)目過(guò)程文檔資料審核校驗(yàn)中的應(yīng)用,能夠很大程度上地提高工作人員的審核效率,減輕審核工作的壓力?,F(xiàn)如今,人們的日常工作也逐漸滲入了文檔內(nèi)容識(shí)別的人工智能元素。在未來(lái),人工智能技術(shù)勢(shì)必會(huì)進(jìn)一步發(fā)展,能夠幫助人處理日常事務(wù),提高人的工作效率,促進(jìn)時(shí)代的發(fā)展。