夏 會(博士),程 平(博士生導師),張 礫
隨著“互聯(lián)網(wǎng)+稅務”的日益深入,以電子稅務局為媒介,各省市稅務機關(guān)收集了大量的納稅人相關(guān)數(shù)據(jù)。金稅三期平臺的成功上線和不斷完善,進一步統(tǒng)籌了稅務部門和相關(guān)涉稅機構(gòu),使涉稅數(shù)據(jù)呈現(xiàn)指數(shù)級的增長[1]。面對海量的涉稅數(shù)據(jù),依賴于先驗知識的稅收風險管控工作已經(jīng)無法發(fā)揮優(yōu)勢,需要基于機器學習、數(shù)據(jù)挖掘等智能化模型對數(shù)據(jù)進行科學化、精細化分析,以及時發(fā)現(xiàn)納稅疑點,輔助稅收征管工作。因此,研究如何應用未標注數(shù)據(jù)集構(gòu)建高精度、可擴展、實用的稅收風險識別模型,發(fā)現(xiàn)納稅疑點,實現(xiàn)對稅收風險的有效管控具有重要的現(xiàn)實意義和價值。
當前基于大數(shù)據(jù)對稅收風險的研究主要集中在構(gòu)建稅收風險管理相關(guān)平臺的系統(tǒng)和模型上。徐壁[2]從數(shù)據(jù)的角度出發(fā),基于大數(shù)據(jù)技術(shù),構(gòu)建了稅收風險管理系統(tǒng),主要包括涉稅大數(shù)據(jù)的采集和存儲及相應的標準體系,涉稅風險防控體系及相應的指標模型,以及涉稅大數(shù)據(jù)分析與挖掘平臺。劉小瑜等[3]則提出了針對高新技術(shù)企業(yè)的稅收風險預警模型構(gòu)想,并在模型中引入了智能優(yōu)化算法以增強稅收風險識別的精度。但由于缺乏足夠的已標注的數(shù)據(jù),該模型的實施效果有待進一步的驗證。劉尚希等[4]基于某區(qū)2012 年和2013 年納稅申報數(shù)據(jù)和財務報表數(shù)據(jù),提取指標,構(gòu)建人工神經(jīng)網(wǎng)絡模型對納稅風險等級進行識別。該模型具有較高的準確性,但對于已標注的數(shù)據(jù)量有較高的要求,且模型的普遍適用性和可解釋性有待進一步提升。趙長江等[5]基于某市欠稅公告數(shù)據(jù)進行多維關(guān)聯(lián)規(guī)則挖掘以發(fā)現(xiàn)偷逃稅納稅人的特征,為后續(xù)稅收風險防范提供了有效數(shù)據(jù)支撐,但該模型也要求有足夠的已標注數(shù)據(jù)才能進行挖掘。胡國慶[6]基于實務工作進行總結(jié),認為當前稅收風險識別模型存在指標精準度不高、行業(yè)針對性不強、特定復雜事項稅收風險識別度低、各稅種稅收風險識別有效性不一等問題。
綜上,當前基于大數(shù)據(jù)對稅收風險的研究大都停留在理論或構(gòu)想層面,在實際業(yè)務中的應用相對薄弱。而聚類作為一種重要的無監(jiān)督式數(shù)據(jù)挖掘方法,能夠在無先驗知識的前提下,結(jié)合稅收風險管控業(yè)務,選擇合適的稅收風險指標,自主發(fā)現(xiàn)稅收風險疑點。在稅收風險疑點發(fā)現(xiàn)過程中,聚類不僅可以實現(xiàn)對海量數(shù)據(jù)的整體分析,而且可以輔助稅務人員精確定位稅收風險,增加稅收風控經(jīng)驗。鑒于此,本文擬提出一種改進的K-means 聚類算法并將其用于稅收風險疑點識別?;谀车貐^(qū)房地產(chǎn)類企業(yè)的股權(quán)轉(zhuǎn)讓業(yè)務驗證發(fā)現(xiàn),該方法可以在無先驗知識的前提下,更有效地發(fā)現(xiàn)異常的企業(yè)實例。該模型準確度高,可擴展性強,更具有實用性。
聚類算法作為無監(jiān)督學習方法的一種,能夠在未標注的實例集中發(fā)現(xiàn)實例之間的相似性,并將其分為若干個類。同一類中的實例盡可能相似,不同類中的實例盡可能相異。由此,包含實例較少的小類由于其特征與其他多數(shù)實例存在較大的差異,通常被視為可疑實例。聚類的這種特征構(gòu)成了稅收風險疑點發(fā)現(xiàn)的理論基礎(chǔ)。K-means 聚類算法因其典型的基于劃分的思想,具有簡單易懂、收斂速度快、擴展性強等優(yōu)勢,被廣泛應用于各類領(lǐng)域。該算法雖然可以將實例分配到不同的類,但在初始化時不能決定究竟要分幾個類以及每個類的中心。因此,使用K-means 算法時最好能了解數(shù)據(jù)的分布,以便確認初始的類別數(shù)和質(zhì)心。然而在稅收風險疑點的發(fā)現(xiàn)過程中,面對海量高維的企業(yè)數(shù)據(jù),很難具象化地獲取數(shù)據(jù)的分布情況。這直接影響了聚類的結(jié)果和運行時間。
鑒于此,本文針對初始化問題提出一種改進的K-means 聚類算法,該方法基于局部的密度信息和全局的相異性信息來確定初始的中心和聚類數(shù)目,可以有效提高聚類性能。首先基于實例的最近鄰計算各個實例的局部密度,其中密度高的實例被認為更可能成為聚類的中心;然后基于全局的相異性,篩選出彼此相似性最低的實例并將其作為初始聚類的質(zhì)心;最后基于K-means 算法分配實例至各個簇,直至簇中心不再變化為止。具體流程如下:
輸入:所有實例,最近鄰距離閾值為λ1,異常閾值為λ2。輸出:各實例所屬的類號、類中心以及異常類號。第一步,計算各個實例的局部密度:①計算實例xi與其他實例之間的距離dij(j≠i);②統(tǒng)計dij中大于等于給定最近鄰距離閾值λ1的數(shù)目ei,將其作為實例xi的局部密度ρi(i=1,2,…,n)。第二步,基于全局相異性篩選初始聚類中心:①將局部密度按從大到小的順序排列,得到序列sort_ρj,以及相應的實例序列sort_xj(j=1,2,…,n);②選取局部密度最大的實例作為初始聚類中心之一,即sort_x1?cen;③j=2,…,n,遍歷已排序的實例sort_xj,若實例sort_xk既不存在于已選擇的類中心的最近鄰中,也不與已選擇的聚類中心相似,則sort_xk?cen(k?[2,n])。第三步,基于選定的初始類中心cen,采用K-means 算法進行聚類。第四步,將實例數(shù)占總實例數(shù)比例小于異常閾值λ2的類視為異常類。
本文以股權(quán)轉(zhuǎn)讓中的稅收風險識別為例,采用改進的K-means聚類算法對稅收風險進行識別。
1.問題定位、指標選取和數(shù)據(jù)準備。股權(quán)轉(zhuǎn)讓可分為個人股權(quán)轉(zhuǎn)讓和企業(yè)股權(quán)轉(zhuǎn)讓,其中轉(zhuǎn)讓方為個人時,涉及稅種為印花稅、個人所得稅,當轉(zhuǎn)讓方為企業(yè)時,涉及稅種為印花稅、企業(yè)所得稅、契稅等。本文就某地區(qū)房地產(chǎn)類企業(yè)的個人股權(quán)轉(zhuǎn)讓情況進行分析。根據(jù)房地產(chǎn)類企業(yè)業(yè)務和涉稅的特點,擬構(gòu)建包括財務分析類、稅種分析類等27 種指標,詳見表1。
從工商部門獲得某地區(qū)2015 年427 家(其中房地產(chǎn)類企業(yè)為23 家)企業(yè)股權(quán)轉(zhuǎn)讓的數(shù)據(jù),數(shù)據(jù)包含的主要字段為:統(tǒng)一社會信用代碼、注冊號、注冊資本、生產(chǎn)經(jīng)營所在區(qū)、公司名稱、企業(yè)類型、股東名稱、認繳出資額、認繳出資日期、認繳出資比例、認繳出資方式、住所、主體身份證號碼和變更序號等。比對認繳出資金額發(fā)現(xiàn),98%以上的股權(quán)變更為平價或低價轉(zhuǎn)讓,因此,需要稅務部門對變更企業(yè)進行稅收風險評估,以檢測其是否存在不合法的避稅行為。
為了保證評估結(jié)果的準確性,特從金稅三期系統(tǒng)中采集房地產(chǎn)類企業(yè)的財務數(shù)據(jù)和納稅數(shù)據(jù)作為研究樣本。為了保證評估過程的合理性,特提取該區(qū)63 家房地產(chǎn)類企業(yè) 2015 年 1 月 1 日 ~ 2015 年 12 月31日的財務報表和納稅數(shù)據(jù)進行聚類分析。通常企業(yè)要按月、季和年填寫財務報表,并進行納稅申報。然而,在數(shù)據(jù)采集時發(fā)現(xiàn)部分企業(yè)的財務報表項目存在空缺(可能是企業(yè)零申報的原因),因此需要根據(jù)已有的數(shù)據(jù)對其進行填充,若缺失的信息太多則只能剔除。最終得到的有效實例數(shù)為51。
2.稅收風險疑點分析。基于財務報表數(shù)據(jù)和納稅數(shù)據(jù)計算51家企業(yè)的27項稅收風險指標,采用改進K-means 聚類算法對企業(yè)進行分析,聚類結(jié)果見表2。
由表2可知,51家房地產(chǎn)類企業(yè)共形成了14個類,其中有12 個類只包含一個實例,這意味著這12個類的部分指標偏差較大,相應的實例可能存在異常。進一步分析各類的收入變動率、費用變動率、成本變動率、利潤率和利潤變動率五大特征。其中,費用率是財務費用率、管理費用率和營業(yè)費用率的均值,費用變動率是財務費用變動率、管理費用變動率和營業(yè)費用變動率的均值。聚類情況如圖所示。
表1 稅收風險指標
表2 聚類結(jié)果
由圖可知,類1作為大類,其特征表現(xiàn)為五大指標分布比較均衡,這表明在當前環(huán)境下,大多數(shù)企業(yè)的收入、費用、成本和利潤變化情況是相對穩(wěn)定的,可認為該類企業(yè)的稅收風險較低。類2、6、8、9、10和11 這六類的收入、成本、費用和利潤變化雖然各不均衡,但是基本匹配,也可斷定這六類中企業(yè)的稅收風險較低。類12和14的收入、費用、成本和利潤四項變化幅度都不大,未被歸為類1 的原因是應付賬款或預收賬款出現(xiàn)大幅上漲(類12為18.54倍,類14為1.42 倍),可能存在虛構(gòu)專票、未及時確認收入等涉稅問題。此外,類4 的收入、成本和費用都出現(xiàn)了一定幅度的增加,利潤也相應地上漲。與之相類似,類13 的收入、成本和費用都出現(xiàn)了大幅的增加,利潤也相應地大幅上漲。不同的是,類4的應付賬款上漲了36.9 倍,可能存在虛構(gòu)專票等涉稅問題;類13 的應收賬款短期內(nèi)上漲了14.88倍,可能存在對外虛開票據(jù)、對外融資等涉稅問題。
聚類情況概覽圖
值得一提的是,類3的利潤出現(xiàn)大幅下滑,而收入和成本、費用相對變化不大,與利潤變化不相匹配,稅收疑點很明顯。類5 的費用大幅上漲,利潤下降,可能存在多計費用、少計收入的稅收風險。類7的利潤出現(xiàn)一定幅度的下滑,而收入和成本、費用幾乎沒有變化,與利潤變化不相匹配,稅收疑點明顯。
3.稅收風險疑點驗證。由上述分析可知,類3、5和7 中的企業(yè)(對應第9、14 和21 號企業(yè))存在明顯的稅收風險,其中第9 類中的企業(yè)在2015 年發(fā)生了股權(quán)轉(zhuǎn)讓,并且其轉(zhuǎn)讓形式為平價轉(zhuǎn)讓,轉(zhuǎn)讓情況見表3。
表3 變更前后股權(quán)占比情況
該企業(yè)創(chuàng)立于2007 年,注冊資金為16 億元。2015 年自然人股東A 將其全部股份轉(zhuǎn)讓給自然人股東B。稅務人員通過爬取并分析企業(yè)官網(wǎng)的相關(guān)信息,基于聚類結(jié)果并結(jié)合初步的取證分析,發(fā)現(xiàn)該企業(yè)在股權(quán)轉(zhuǎn)讓第一環(huán)節(jié)凈資產(chǎn)評估中存在明顯稅收風險;基于網(wǎng)上的公司介紹,粗略估計其實際總資產(chǎn)在2014年就已上漲了10.19倍,所有者權(quán)益達近9億元。因此,2015 年股權(quán)平價轉(zhuǎn)讓形式不合理。為此,稅收工作人員多次約談企業(yè)負責人和相關(guān)財務人員,并進一步調(diào)查和精確評估了其股權(quán)交易時的企業(yè)凈資產(chǎn),測算其應補繳個人所得稅近5千萬元。
值得注意的是,基于聚類的方式挖掘出的小類并不一定都存在問題,需要稅務人員對可疑企業(yè)進行進一步分析排查。聚類結(jié)果作為一種導向,可幫助稅務人員快速定位可疑企業(yè),縮小排查范圍。
本文以房地產(chǎn)類企業(yè)的財稅數(shù)據(jù)為實驗樣本,結(jié)合網(wǎng)絡爬取數(shù)據(jù),驗證了改進K-means 聚類方法在稅收疑點發(fā)現(xiàn)上的有效性?;诟倪MK-means 聚類方法的稅收風險識別兼顧了對大數(shù)據(jù)的總體分析,可發(fā)現(xiàn)與總體差異較大的異常實例,有效地提高了稅務風險監(jiān)控效率。雖然該方法下稅務人員不需要先驗知識就可進行風險識別,但在判定企業(yè)是否存在高風險時仍需要與其經(jīng)驗判斷相結(jié)合。