鐘錦鴻,林瑞娜,龍熠燚,孔蔭瑩
(1.廣東財經(jīng)大學經(jīng)濟學院,廣東 廣州 510320;2.廣東財經(jīng)大學會計學院,廣東 廣州 510320;3.廣東財經(jīng)大學信息學院,廣東 廣州 510320)
國務院2016年6月14日頒布的《關(guān)于在市場體系建設中建立公平競爭審查制度的意見》標志著我國公平競爭審查制度開始確立[1].公平競爭審查制度的含義是公平競爭審查主體針對立法及行政機關(guān)制定出來的法律及政策進行市場競爭影響評估,將不利于市場競爭秩序的法律及政策修改或廢止的一項評估制度[2].
在現(xiàn)階段,各地市場監(jiān)管局開展公平競爭審查的依據(jù)主要是2017年國家發(fā)展改革委發(fā)布的《公平競爭審查實施細則(暫行)》(以下簡稱《實施細則》)[3].《實施細則》提出了違反公平競爭的四類審查標準,對各類標準下的一些典型違背行為作了明確或概括性的規(guī)定,但這些規(guī)定并沒有涵蓋更多的違反公平競爭審查標準的行為,因此在實務審查中需要借助監(jiān)管人員的經(jīng)驗積累;在審查范圍上,主要是對重點行業(yè)和地區(qū)開展專項審查,難以做到對各級政府單位的統(tǒng)一監(jiān)督審查;在審查方式上,主要是依據(jù)政府監(jiān)管人員對審查公文進行逐一排查,客觀上受監(jiān)管人員能力和主觀性判斷的限制,且人工排查條件下效率較低.
隨著各級政府不斷地發(fā)布新的法規(guī)和政策文件,積累了大量的文本數(shù)據(jù).這些數(shù)據(jù)可以通過一些大數(shù)據(jù)技術(shù)來更好地幫助公平競爭審查人員去排查疑似違反公平競爭標準的文本.目前國內(nèi)有關(guān)公平競爭審查的研究主要是集中于研究如何完善公平競爭的制度以及更好地落實公平競爭制度,如謝芳琳學者考察了目前公平競爭實施制度的現(xiàn)狀并提出了關(guān)于公平競爭制度的一系列問題及有關(guān)改善的意見[5],孫考利學者和劉瀾晶學者論述了如何更好地保障公平競爭制度的實施[6],金善明反思和檢討了公平競爭審查制度并提出了要將其拓展為外部的監(jiān)督機制[7].上述學者對于公平競爭審查研究是基于法律和政治層面,對于如何利用大數(shù)據(jù)技術(shù)去處理公平競爭審查的文本分類還尚未有相關(guān)的研究.目前篩選和分類文本最常用和簡單的方法是構(gòu)建關(guān)鍵詞詞典并基于關(guān)鍵詞詞典來篩選含有關(guān)鍵詞的文本[8].除此之外,還有應用樸素貝葉斯、支持向量機、卷積神經(jīng)網(wǎng)絡、決策樹等算法進行文本分類.在應用卷積神經(jīng)網(wǎng)絡于文本分類方面,自Yoon Kim把CNN從圖像領域轉(zhuǎn)入到NLP的領域,提出了TextCNN,將CNN用于處理文本數(shù)據(jù)進行情感分析取得很好的效果后,涌現(xiàn)了許多應用該卷積神經(jīng)網(wǎng)絡的成果,如楊銳等學者應用了卷積神經(jīng)網(wǎng)絡對能源政策文本提取主題信息并進行分類[9],明建華等學者將TextCNN用于直播彈幕的過濾[10].
目前結(jié)合大數(shù)據(jù)技術(shù)去處理公平競爭審查文本的研究,國內(nèi)外還處于一片空白.針對該領域,本文創(chuàng)新性地提出了將當前比較主流的數(shù)據(jù)分析技術(shù)和深度學習中的卷積神經(jīng)網(wǎng)絡應用到公平競爭審查的人工排查過程中,能夠擴大實務中審查范圍和提高人工審查效率;同時積累建立公平競爭審查疑似案例庫,對違反《實施細則》中規(guī)定的典型市場行為做進一步補充和經(jīng)驗性總結(jié),進一步對公平競爭審查工作重點提出反饋意見,同時也為后來學者在公平競爭審查領域的研究提供另一種思路和研究方法.
中國共產(chǎn)黨的十九大報告提出了加快完善社會主義市場經(jīng)濟體制,明確指出“深化商事制度改革,打破行政性壟斷,防止市場壟斷,加快要素價格市場化改革,放寬服務業(yè)準入限制,完善市場監(jiān)管體制.”[11]公平競爭審查作為市場價格監(jiān)督與反壟斷排查的工作重點,對打破行政性壟斷、提高市場活力起者關(guān)鍵性作用.下面分別從理論層面和應用層面對項目意義進行闡述.
全面推進依法治國.應用數(shù)據(jù)政策工具健全行政機關(guān)內(nèi)部決策合法性審查機制,有助于監(jiān)督政府依法全面正確履行職能,加強政策文本的合憲性解釋,鞏固好經(jīng)濟憲法的地位,實現(xiàn)社會主義制度下的良法善治.
促進經(jīng)濟體制改革.通過大數(shù)據(jù)技術(shù)進行公平競爭文本排查,有利于完善和建立公平競爭的中國特色社會主義市場體系,同時防止政府過度干預以及不當干預市場的行為,更好地發(fā)揮市場在資源配置中所發(fā)揮的決定性作用,實現(xiàn)效益最大化和效率最優(yōu)化.
釋放市場主體活力.我國經(jīng)濟發(fā)展正處于培育和催生經(jīng)濟發(fā)展新動能的關(guān)鍵時期[12],通過目前的大數(shù)據(jù)技術(shù)手段規(guī)范政府有關(guān)行為,廢除政府部門行政壟斷的政策,有利于調(diào)動各類市場主體的積極性和創(chuàng)造性,優(yōu)化營商環(huán)境,推動大眾創(chuàng)業(yè)、萬眾創(chuàng)新.
實現(xiàn)創(chuàng)新驅(qū)動發(fā)展.隨著市場競爭機制的強化和統(tǒng)一的全國大市場的初步確立,營造公平競爭的市場環(huán)境成為了創(chuàng)新驅(qū)動發(fā)展的重要動力.通過大數(shù)據(jù)手段破除具有排除、限制競爭內(nèi)容的政策措施,能在新常態(tài)下推進經(jīng)濟穩(wěn)定持續(xù)地健康發(fā)展.
深化“放管服”改革.“放管服”改革其中一點提出政府部門要創(chuàng)新和加強監(jiān)管職能,利用新技術(shù)新體制加強監(jiān)管體制創(chuàng)新[13].通過利用大數(shù)據(jù)的技術(shù),可以提高市場監(jiān)管局的監(jiān)管能力,提高公平競爭審查工作效率,同時,通過建立公平競爭審查數(shù)據(jù)庫也可以為公平競爭審查工作起到借鑒作用.
針對政務審查中的“信息大爆炸困境”,引入大數(shù)據(jù)處理方法成為排查問題文本的有效手段和發(fā)揮監(jiān)督價值的關(guān)鍵.一方面,大數(shù)據(jù)作為信息時代的重要生產(chǎn)要素和戰(zhàn)略資源,能夠在海量信息中獲取所需要的關(guān)鍵信息;另一方面,深化電子政務審查技術(shù)的路徑革新,能夠提高國家治理能力的現(xiàn)代化水平.
需要排查的法律及政策的文本數(shù)據(jù)來源主要由廣東省市場監(jiān)督管理局官方提供和基于python的Selenium庫和Requests庫編寫的爬蟲程序從廣東省的各級政府爬取的地方性法規(guī)、政策、通告等文本數(shù)據(jù),兩者相加共2 808份文本數(shù)據(jù).將數(shù)據(jù)收集起來后,通過人工篩選先將數(shù)據(jù)分為違反了公平競爭標準和沒有違反公平競爭標準的兩類文本數(shù)據(jù),然后分別從兩類文本數(shù)據(jù)的標題中篩選出各自的關(guān)鍵詞組成關(guān)鍵詞詞庫,如表1和表2所示列出了關(guān)鍵詞詞庫的關(guān)鍵詞,表1是通過人工篩選從違反了公平競爭審查標準的文本的標題中篩選出來的關(guān)鍵詞,而表2是通過人工篩選從沒有違反公平競爭審查標準的文本的標題中篩選出來的關(guān)鍵詞.將關(guān)鍵詞詞庫和需要篩選的數(shù)據(jù)導入到MySQL數(shù)據(jù)庫中,最后使用數(shù)據(jù)庫MySQL編寫的SQL程序?qū)氲臄?shù)據(jù)進行篩選,篩選出兩類文本數(shù)據(jù).
2.2.1 研究思路
基于TextCNN的法律及政策文本的分類流程如圖1所示.
表1 違反公平競爭標準文本標題的關(guān)鍵詞
表2 沒有違反公平競爭標準文本標題的關(guān)鍵詞
圖1 基于TextCNN的文本分類流程
上述提到的基于關(guān)鍵詞詞庫篩選文本的方法雖然是很高效,但由于準確度不高,同時由于違反公平競爭標準的文本千變?nèi)f化所以關(guān)鍵詞的選擇需要不斷地更新,這種簡單的基于關(guān)鍵詞的方法難以符合當前的實際需求,因此提出了基于TextCNN來分類需要排查的文本.
首先將收集到的所有需要排查的文本數(shù)據(jù)進行人工標注,將違反了公平競爭標準的文本標注為1,將沒有違反公平競爭標準的文本標注為0.之后對數(shù)據(jù)進行清洗,使用jieba進行中文分詞等一系列數(shù)據(jù)預處理后將數(shù)據(jù)劃分為訓練數(shù)據(jù)集、驗證數(shù)據(jù)集和測試集.在訓練數(shù)據(jù)集上訓練模型,在驗證數(shù)據(jù)集上評估模型.在訓練數(shù)據(jù)集上訓練好的模型會在驗證數(shù)據(jù)集上評估模型的好壞[14],將模型在驗證數(shù)據(jù)集上所表現(xiàn)出來的性能作為不斷調(diào)整模型參數(shù)的反饋信號從而達到最佳的參數(shù).模型達到最佳的參數(shù)后就在測試數(shù)據(jù)集上進行最后一次測試,來衡量模型的泛化能力是否在其它新的數(shù)據(jù)集上也有像在驗證數(shù)據(jù)集上這么良好的性能.將輸入的經(jīng)過數(shù)據(jù)預處理后的文本數(shù)據(jù)進行one-hot編碼后輸入到基于python的keras框架搭建好的TextCNN的模型中,最后將訓練好的模型對訓練數(shù)據(jù)集進行最后一次的測試并評估模型的性能.
2.2.2 TextCNN理論模型
TextCNN最基本的模型如圖2所示.
圖2 TextCNN模型圖
設xi∈Rk表示一個句子中第i個詞的k維詞向量,其中Rk表示k個Descartes乘積集,其數(shù)學表示為:
一個長度為n的句子可以表示為:
⊕表示的是連接操作符.因此,圖2中所表示的句子“提高了準入門檻”就可以表示為 x1:7=x1⊕x2⊕…⊕x7,其中 xi∈R6.
設給定的句子的長度(詞匯數(shù))為s,用d表示詞向量的維數(shù),因此可以將句子轉(zhuǎn)化為一個s×d的維數(shù)矩陣.在圖2中有6個過濾器,每兩個過濾器分別對應一個窗口大小,一共有3個窗口,大小分別為2、3和4.如圖3所示的是一個窗口大小為4的一個過濾器,圖中的數(shù)字表示的是過濾器的參數(shù).設窗口的大小為h,某個過濾器的參數(shù)化權(quán)向量為 ω∈Rh×d,ω 包含了 h×d 個參數(shù).用 A∈Rs×d表示句子矩陣,A[i,j]表示從 i行到j行的子矩陣,如A[1,2]表示x1:2=x1⊕x2.
圖3 窗口大小為4的過濾器
句子矩陣與過濾器進行卷積運算得到:
其中,i=1…s-h(huán)+1,表示子矩陣與過濾器之間的點積運算,輸出的序列長度為s-h(huán)+1,最后通過激活函數(shù)f與偏置項b得到對應的特征向量c∈Rs-h(huán)+1:
對特征向量進行池化運算池化成一個值,并將池化后的值全都連接起來組成一個新的特征向量,并使用softmax函數(shù)進行分類.
表3 實驗環(huán)境配置情況
3.2.1 數(shù)據(jù)預處理
對由廣東省市場監(jiān)督局收集和爬取到的數(shù)據(jù)共2 808份數(shù)據(jù)首先進行人工標注分類,之后進行數(shù)據(jù)清洗,用jieba進行中文分詞,分詞后對數(shù)據(jù)進行去除停用詞處理,停用詞表采用哈爾濱工業(yè)大學的停用詞表hit_stopwords[15].將數(shù)據(jù)劃分為訓練數(shù)據(jù)集1581份,驗證數(shù)據(jù)集678份,測試數(shù)據(jù)集549份.
3.2.2 TextCNN
TextCNN模型主要由輸入層、卷積層、池化層、全連接層和輸出層構(gòu)成,其中卷積層負責進行卷積運算,池化層負責進行池化運算而全連接層是將卷積運算后的特征值連接起來[16].本文的TextCNN模型加入了嵌入層用于學習詞嵌入得到一個密集的詞向量.TextCNN模型使用基于python的keras深度學習框架來進行搭建,具體的參數(shù)如表4所示,將訓練數(shù)據(jù)集1 581份和驗證數(shù)據(jù)集678份輸入到構(gòu)建好的TextCNN模型中,訓練完成后載入訓練完成的模型對測試數(shù)據(jù)集549份進行最后一次測試,檢驗模型的泛化能力.
表4 TextCNN參數(shù)設置
為了評估模型的性能,本文使用了準確率、精確率以及召回率這3個指標作為評估的標準,計算公式如下:
準確率表示判斷正確的次數(shù)和所有判斷的次數(shù)的比值,精確率表示在所有被判斷為正樣本的樣本中有多大比例是真正的正樣本,召回率表示在所有真正的正樣本中有多大的比例是被判斷正確了[17].在本實驗中正樣本是沒有違反公平競爭標準的文本數(shù)據(jù),負樣本是違反了公平競爭標準的文本數(shù)據(jù).從實驗結(jié)果來看,該模型在判斷文本是沒有違反公平競爭標準的準確度較高,而在判斷文本是違反了公平競爭標準的這個情況下準確度卻較低,需要做進一步的改進.
表5 實驗結(jié)果評估
目前公平競爭審查流程如圖4所示,在人工工作模式下,對于公平競爭文本初步審查(即判斷公平競爭審查文本是否涉及市場經(jīng)濟活動這一部分)的工作難度不大,但是工作量龐大,對于經(jīng)驗豐富的工作人員來說是簡單重復的工作,這在一定程度上增加了人工成本.在判斷公平競爭審查文本是否違反了18條標準的判斷階段,工作人員一般需要查閱大量的法律文獻和資料作為參考,這個階段不僅耗時長,過程繁瑣,還會給判斷結(jié)果帶來一定的誤差.
圖4 公平競爭審查基本流程
本文通過實現(xiàn)卷積神經(jīng)網(wǎng)絡對公平競爭審查文本的分類能夠在一定程度上幫助到工作人員進行公平競爭審查文本的排查,初步快速地對大量的公平競爭的審查文本給出初步的判斷,同時在判斷沒有違反公平競爭審查的文本準確率較高,但是目前該算法仍然不能完全替代人工,而是作為工作人員的輔助工具.其仍然存在一定的誤差項和局限性,在面對較為復雜的審查文本的時候可能無法精準判斷仍需要人工判斷,仍然需要進一步地研究.
本文針對公平競爭審查中的人工審查的過程首先提出了基于關(guān)鍵詞過濾篩選違反公平競爭審查標準的文本,由于該方法存在準確度不是很高、難以抽全關(guān)鍵詞等問題,因此難以適應目前的實際需求.接著提出了將深度學習結(jié)合到公平審查中的方法提升了分類的準確率,實現(xiàn)通過電腦程序來自動進行公平競爭審查文本的排查,模型在訓練數(shù)據(jù)集中各項指標都達到了92.22%,驗證數(shù)據(jù)集中各項指標達到了92.48%,測試數(shù)據(jù)集中的各項指標也基本在90%左右,然而模型由于樣本數(shù)據(jù)不均衡導致了負樣本的精確率和召回率指標數(shù)很低,因此模型仍存在著一些問題需要進一步的改進.感謝廣東省市場監(jiān)督局為我們提供實習機會并提供相關(guān)的研究數(shù)據(jù)和公平競爭審查的標準,幫助我們更好地了解和掌握公平競爭審查的流程,在之后的工作中,會更加深入地研究以提高排查的準確度.