国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)環(huán)境下基于文本挖掘的審計數(shù)據(jù)分析框架

2017-08-16 09:32張志恒成雪嬌
會計之友 2017年16期
關(guān)鍵詞:文本挖掘大數(shù)據(jù)

張志恒++成雪嬌

【摘 要】 大數(shù)據(jù)的浪潮推動著審計技術(shù)的變革,給審計模式和審計方法都帶來了巨大的改變。傳統(tǒng)的審計數(shù)據(jù)分析方法不能對半結(jié)構(gòu)化以及非結(jié)構(gòu)化數(shù)據(jù)進行分析,也無法滿足大數(shù)據(jù)環(huán)境下審計信息化發(fā)展的要求,亟須提出新的審計數(shù)據(jù)分析思路和方法。在此背景下,文章提出了基于文本挖掘的審計數(shù)據(jù)分析框架,并闡述了采集與存儲、挖掘與分析、總結(jié)與發(fā)布詳細的審計數(shù)據(jù)分析流程。通過利用文本挖掘技術(shù)對采集的非結(jié)構(gòu)化原始審計數(shù)據(jù)進行挖掘,根據(jù)明確的審計需求建立不同的文本挖掘模型,對審計數(shù)據(jù)進行分析,進而發(fā)現(xiàn)審計疑點,最終形成可理解的審計證據(jù)和審計線索。該框架的構(gòu)建旨在為大數(shù)據(jù)審計提供新的思路,以降低大數(shù)據(jù)審計風(fēng)險,提高審計質(zhì)量。

【關(guān)鍵詞】 大數(shù)據(jù); 文本挖掘; 審計數(shù)據(jù)分析

【中圖分類號】 F239.1 【文獻標(biāo)識碼】 A 【文章編號】 1004-5937(2017)16-0117-04

引 言

大數(shù)據(jù)引發(fā)了審計領(lǐng)域的創(chuàng)新和變革,海量的數(shù)據(jù)中結(jié)構(gòu)化數(shù)據(jù)難以代表整體,非結(jié)構(gòu)化數(shù)據(jù)已經(jīng)成為大數(shù)據(jù)的關(guān)鍵組成部分。如何對這些非結(jié)構(gòu)化數(shù)據(jù)進行分析是推動大數(shù)據(jù)審計開展的重要內(nèi)容。我國當(dāng)前在審計領(lǐng)域?qū)Ψ墙Y(jié)構(gòu)化數(shù)據(jù)還未形成全面系統(tǒng)研究。以文本挖掘為代表的數(shù)據(jù)挖掘技術(shù)在大數(shù)據(jù)審計中占有舉足輕重的地位,它不再僅僅以結(jié)構(gòu)化的審計數(shù)據(jù)為分析對象,可以深入地對大量非結(jié)構(gòu)化數(shù)據(jù)進行挖掘分析和利用。所以本文提出了基于文本挖掘的審計數(shù)據(jù)分析框架,這將為大數(shù)據(jù)審計研究提供全新的分析思路。

一、文獻綜述

國外學(xué)者在研究大數(shù)據(jù)給審計帶來的影響中討論到,大數(shù)據(jù)能夠改變和影響審計師所做出的決定和收集審計證據(jù)的方式[1]。Gray et al.[2]認(rèn)為采用數(shù)據(jù)挖掘方法能提高審計程序的效率和有效性。國內(nèi)學(xué)者對大數(shù)據(jù)審計的研究始于2013年。阮哈建等[3]分析了大數(shù)據(jù)對財政審計、金融審計帶來的挑戰(zhàn)與機遇。呂勁松等[4]提出并構(gòu)建了金融審計數(shù)據(jù)分析平臺,為金融審計提供了新的思路。秦榮生[5]指出大數(shù)據(jù)環(huán)境下審計模式、審計觀念、事物之間的關(guān)系將發(fā)生轉(zhuǎn)變。之后,學(xué)者開始對大數(shù)據(jù)環(huán)境下審計技術(shù)方法進行研究,顧洪菲[6]對大數(shù)據(jù)環(huán)境下的審計數(shù)據(jù)分析方法進行初步探索,提出了對NoSQL、機器學(xué)習(xí)的需求。鮑朔望[7]探討了聚類分析、異常分析及演化分析等數(shù)據(jù)挖掘方法在政府采購中的運用。羌雨[8]探索了R語言在大數(shù)據(jù)審計分析中的優(yōu)勢及可行性。國外學(xué)者提出的審計數(shù)據(jù)分析方法有聚類[9]、隨機森林[10]、語言分析[11]和粗糙集。

縱觀國內(nèi)外學(xué)者的研究,大部分研究主要還是局限于對結(jié)構(gòu)化審計數(shù)據(jù)進行分析,在這種相對封閉的環(huán)境下研究了大數(shù)據(jù)對審計的影響以及具體的審計方法,并且大多研究著重于從大數(shù)據(jù)對審計的影響和審計技術(shù)方法這兩個方面進行探討,鮮有學(xué)者針對非結(jié)構(gòu)化審計數(shù)據(jù)進行深入研究,而且也很少研究提出關(guān)于如何構(gòu)建大數(shù)據(jù)環(huán)境下的審計數(shù)據(jù)分析框架,對于大數(shù)據(jù)審計還未形成完整的研究成果。所以,本文提出并構(gòu)建大數(shù)據(jù)環(huán)境下基于文本挖掘的審計數(shù)據(jù)分析框架,研究該框架下文本挖掘的詳細流程。

二、傳統(tǒng)的審計數(shù)據(jù)分析

審計人員如何將采集的原始數(shù)據(jù)轉(zhuǎn)化為審計證據(jù),這將直接影響到審計目標(biāo)的實現(xiàn)。從采集到獲取證據(jù)的過程中,審計人員最應(yīng)該關(guān)注的問題是能否挖掘出有價值的數(shù)據(jù)進行審計數(shù)據(jù)分析,這對審計項目的質(zhì)量和審計成果的體現(xiàn)都起著重要的作用。所以,在審計工作中最關(guān)鍵的步驟是進行審計數(shù)據(jù)分析。

目前,審計人員在審計工作中經(jīng)常采用的審計數(shù)據(jù)分析方法以及計算機輔助審計工具(CAATS)有賬戶分析、經(jīng)濟指標(biāo)比率分析、趨勢分析、統(tǒng)計分析、Excel數(shù)據(jù)分析、Access、SQL、AO審計軟件等。Excel數(shù)據(jù)分析和針對會計賬表的審計軟件被事務(wù)所熟用;SQL語句查詢、AO審計以及審計數(shù)據(jù)采集與分析等審計軟件常常被用于政府部門和事業(yè)單位的內(nèi)部審計工作中;對于企業(yè)的內(nèi)部審計,大型企業(yè)采用專門的審計平臺或在ERP中嵌入內(nèi)部審計模塊,中小企業(yè)比較依賴Excel和Access進行審計數(shù)據(jù)分析。但大數(shù)據(jù)時代的來臨,使得海量和多元異構(gòu)的數(shù)據(jù)極大地拓展了大數(shù)據(jù)審計的范圍,傳統(tǒng)的審計方法和輔助審計工具已顯得力不從心,無法對非結(jié)構(gòu)化數(shù)據(jù)進行采集和分析。

三、大數(shù)據(jù)環(huán)境下的審計數(shù)據(jù)分析

在國際數(shù)據(jù)公司(IDC)發(fā)布的一項報告中顯示,企業(yè)中最多只有5%的數(shù)據(jù)為結(jié)構(gòu)化數(shù)據(jù),其余大都是非結(jié)構(gòu)化數(shù)據(jù),并且88%的企業(yè)管理者認(rèn)為這些存儲在數(shù)據(jù)庫以外的非結(jié)構(gòu)化數(shù)據(jù),才是他們接觸和了解企業(yè)的最佳選擇目標(biāo)。數(shù)據(jù)是審計分析的核心,采用文本挖掘技術(shù)對非結(jié)構(gòu)化審計數(shù)據(jù)進行挖掘分析,將會給審計領(lǐng)域帶來一個新的技術(shù)應(yīng)用潮流。這將有助于審計人員在大數(shù)據(jù)模式下對被審計單位進行內(nèi)部控制、舞弊識別、違法違規(guī)等方面的評估。

(一)非結(jié)構(gòu)化數(shù)據(jù)

顧名思義,非結(jié)構(gòu)化數(shù)據(jù)沒有固定的結(jié)構(gòu),不能通過一般的數(shù)據(jù)庫二維邏輯表結(jié)構(gòu)來表達,也不能將其標(biāo)準(zhǔn)化和完全數(shù)字化。按照格式可以分為文本文檔、圖片、音視頻等。

(二)審計數(shù)據(jù)分析范圍

隨著“云計算—物聯(lián)網(wǎng)—大數(shù)據(jù)—智慧城市”的快速發(fā)展,數(shù)據(jù)信息將實現(xiàn)共享,數(shù)據(jù)量將以難以想象的速度爆發(fā)式增長。一方面,審計數(shù)據(jù)分析的對象將發(fā)生變化,審計對象不再局限于和被審計單位財務(wù)相關(guān)的信息,而被審計單位內(nèi)部的規(guī)章制度、會議記錄、合同、通知等非財務(wù)信息也將是審計的重點對象。與被審計單位相關(guān)的外部數(shù)據(jù)也顯得尤為重要,比如新聞文章、股吧評論、論壇發(fā)布等。另一方面,海量的數(shù)據(jù)必然會產(chǎn)生多樣的數(shù)據(jù)格式,審計數(shù)據(jù)類型從傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)向多元異構(gòu)的大數(shù)據(jù)。審計范圍的重點轉(zhuǎn)為對非結(jié)構(gòu)化的數(shù)據(jù)進行分析,可以全面有效地對被審計單位的內(nèi)部控制、違法違規(guī)行為、重大經(jīng)濟決策等內(nèi)容進行評估。

(三)審計數(shù)據(jù)分析思維

審計數(shù)據(jù)分析思維由單一的“因果分析”模式向“因果分析與關(guān)聯(lián)分析”共存的思維模式發(fā)生轉(zhuǎn)變。因果分析是分析事件因和果這兩者之間存在的必然關(guān)系,據(jù)因找果或者溯果擷因。然而,在海量的數(shù)據(jù)中,數(shù)據(jù)之間可能存在一因多果,或是一果多因的復(fù)雜關(guān)系,如果深入分析因果關(guān)系“為什么”和“是什么”需要耗費審計人員大量的時間和精力。所以,為了高效地開展審計工作,審計人員應(yīng)該更加注重數(shù)據(jù)間的相關(guān)關(guān)系。若一種現(xiàn)象的發(fā)生通常伴隨另一現(xiàn)象的出現(xiàn),那么可以推斷A和B經(jīng)常是一起發(fā)生的,進一步對兩者之間的相關(guān)關(guān)系進行仔細的研究,從而確定關(guān)聯(lián)規(guī)則。經(jīng)濟學(xué)中最成功的營銷案例——啤酒與尿布,就是把關(guān)聯(lián)分析思想運用到大數(shù)據(jù)分析中的典型例子。同樣在審計數(shù)據(jù)分析中運用相關(guān)關(guān)系分析的思維,挖掘?qū)徲嫈?shù)據(jù)之間的潛在關(guān)系,建立明確的關(guān)聯(lián)規(guī)則,可以增加審計證據(jù)的效力。

(四)審計數(shù)據(jù)分析技術(shù)方法

審計人員在審計工作中仍然運用抽樣審計的方法顯得較為保守。在大數(shù)據(jù)模式下開展審計數(shù)據(jù)分析工作,采用總體代替樣本的方法更能反映數(shù)據(jù)的本質(zhì),使得審計數(shù)據(jù)分析的內(nèi)容更加全面、質(zhì)量更加可靠。“總體即樣本”的方法可以規(guī)避由局部推算整體進行審計數(shù)據(jù)分析的局限性,避免抽樣審計風(fēng)險。隨著舞弊手段日益復(fù)雜,各種虛假信息隱藏在海量的數(shù)據(jù)中,通過一般的審計方法和工具難以對其進行察覺,因此,審計人員需要運用新的審計技術(shù)和方法對隱蔽的信息進行挖掘。以文本挖掘為代表的數(shù)據(jù)挖掘技術(shù)可以幫助審計人員分析審計數(shù)據(jù)內(nèi)部潛在的規(guī)律和本質(zhì),挖掘數(shù)據(jù)之間隱含的關(guān)系,分析異常數(shù)據(jù)。例如,與被審計單位相關(guān)的信息,可以從論壇、股吧等社交媒體網(wǎng)站中去挖掘網(wǎng)民和媒體發(fā)布的評論和報道,采用文本挖掘技術(shù)能有效地對這些信息進行挖掘整合,從而獲得全面、實時的審計數(shù)據(jù)。

四、基于文本挖掘的審計數(shù)據(jù)分析框架

文本挖掘技術(shù)主要是針對非結(jié)構(gòu)化知識進行挖掘,是大數(shù)據(jù)審計技術(shù)中不可或缺的部分。特別是隨著大數(shù)據(jù)在審計領(lǐng)域的廣泛推廣和運用,文本挖掘技術(shù)對審計數(shù)據(jù)分析的重要性已逐步凸顯。目前文本挖掘技術(shù)主要是應(yīng)用于對文檔、網(wǎng)頁中蘊含的文字說明進行分析,對于如視頻、圖片、語音等數(shù)據(jù)進行挖掘時,也是從中提煉出主要內(nèi)容并換為易于理解的文字描述。所以本文將以文本挖掘技術(shù)為重點對審計數(shù)據(jù)進行分析,構(gòu)建基于文本挖掘的審計數(shù)據(jù)分析框架,如圖1所示。

(一)審計數(shù)據(jù)的采集及存儲

審計人員首先應(yīng)對被審計單位的基本情況進行深入了解,通過分析審計目標(biāo)、審計范圍、審計內(nèi)容,確定具體的審計需求。根據(jù)明確的審計需求,采集與被審計單位相關(guān)的大量非結(jié)構(gòu)化數(shù)據(jù)是進行審計數(shù)據(jù)分析的關(guān)鍵步驟。一方面,針對來自企業(yè)外部的數(shù)據(jù)能夠通過采用網(wǎng)絡(luò)爬蟲技術(shù)和API等方式進行獲??;另一方面,可以通過各種有效的數(shù)據(jù)訪問接口對非結(jié)構(gòu)化數(shù)據(jù)進行采集。

為了保證審計數(shù)據(jù)的完整性和真實性,需要建立嚴(yán)格和規(guī)范的制度,對采集到的非結(jié)構(gòu)化數(shù)據(jù)進行科學(xué)安全的管理。通過構(gòu)建Hadoop分布式框架的HDFS文件存儲系統(tǒng),集中存儲業(yè)務(wù)系統(tǒng)的非結(jié)構(gòu)化審計數(shù)據(jù)。在此基礎(chǔ)上,還需要搭建適合用于存儲非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)庫——HBase。HBase可以彌補HDFS沒有隨即讀寫操作功能的缺陷,其內(nèi)部管理的文件全部存儲在HDFS中。

構(gòu)建基于Hadoop的分布式文件系統(tǒng)HDFS、分布式數(shù)據(jù)庫HBase以及分布式計算框架MapReduce組成的Hadoop生態(tài)系統(tǒng),如圖2所示,對非結(jié)構(gòu)化數(shù)據(jù)進行統(tǒng)一管理。這種管理模式降低了審計數(shù)據(jù)管理風(fēng)險,使各個平臺的數(shù)據(jù)實現(xiàn)共享,打破了信息孤立的尷尬局面。

(二)審計數(shù)據(jù)文本挖掘分析

1.文本預(yù)處理

審計文本預(yù)處理的過程,需要對審計文本進行分詞、刪減停用詞、特征抽取與選擇等步驟,如圖3所示。

(1)特征抽取。對審計文本進行預(yù)處理的第一步是根據(jù)審計需求,抽取出能夠代表審計文本特征信息的詞或者短語,要求獲取的這些特征對審計文本的類別能起到區(qū)分和識別的作用。通過向量模型對審計文本的內(nèi)容進行抽取,建立文本表示模型,將非結(jié)構(gòu)審計文本轉(zhuǎn)化為計算機能處理的表達形式。

(2)特征選擇。根據(jù)明確的審計需求,優(yōu)先采用對審計文本內(nèi)容具有較強表達能力的特征。審計人員還需根據(jù)審計目的需要,對經(jīng)過特征抽取的文本特征集采用卡方檢驗、TF-IDF等特征選擇方法進行進一步選取,在進行審計文本挖掘前避免垃圾數(shù)據(jù),保證獲取的數(shù)據(jù)能很好地表達審計文本信息的特征項。

2.文本挖掘

文本挖掘是審計數(shù)據(jù)分析的核心內(nèi)容,本階段需要對經(jīng)過清理和篩選出的文本數(shù)據(jù)根據(jù)不同的審計目標(biāo)選擇不同的文本挖掘方法(文本摘要、關(guān)聯(lián)規(guī)則分析、文本分類、文本聚類、等技術(shù))進行挖掘分析,發(fā)現(xiàn)數(shù)據(jù)之間的異常關(guān)系,為審計疑點和線索提供有效的審計證據(jù)。

文本摘要,是指用極其簡短的語言對文檔的內(nèi)容進行高度概括,達到完整清晰地傳遞文本主題思想的目的。將文本摘要技術(shù)運用在審計數(shù)據(jù)分析中,可以通過求取中心文檔的方式對審計文本的摘要進行獲取。文本摘要可以幫助審計人員通過方便的瀏覽方式和快速的審計線索查詢方法來提高審計數(shù)據(jù)分析效率,不需要對審計文檔的全部內(nèi)容進行分析,只需獲取審計文本摘要即可。

關(guān)聯(lián)分析,關(guān)聯(lián)分析技術(shù)在文本挖掘中主要針對知識進行關(guān)聯(lián)。大量的審計文本信息之間本質(zhì)上存在著潛在的知識關(guān)聯(lián),可以通過推理規(guī)則、知識檢索、語義分析等技術(shù)來表示審計文本信息之間存在的這種關(guān)系,針對審計非結(jié)構(gòu)化文本進行關(guān)聯(lián)分析,研究審計文檔之間可能存在的某種隱含的關(guān)系,從中獲取審計事項和審計目標(biāo)的本質(zhì)聯(lián)系。這是借助一般的審計數(shù)據(jù)分析方法和工具不能完成的任務(wù)。

文本分類,屬于有監(jiān)督的學(xué)習(xí)。首先,對文檔的類別設(shè)定主題,根據(jù)主題對文本進行分類,將符合同一主題的文本作為相同的類別。通過對預(yù)先設(shè)定的文本類別進行描述,建立分類模型對訓(xùn)練文本進行分類訓(xùn)練和準(zhǔn)確率評估,最后利用確定好的模型對測試樣本進行分類。將文本分類技術(shù)運用到審計數(shù)據(jù)分析中,可以幫助審計師針對不同的審計需求和審計目的,對審計文本快速有效地進行分類,并結(jié)合相應(yīng)的審計方法有針對性地開展審計數(shù)據(jù)分析工作。

文本聚類,聚類分析是基于同類文本之間文本差異最小化的思想,反之亦然。文本聚類的優(yōu)勢是無須進行監(jiān)督學(xué)習(xí),不需要通過訓(xùn)練進行模擬,屬于無導(dǎo)師學(xué)習(xí)。由于一些難以發(fā)覺的信息以特殊的形式隱藏在大數(shù)據(jù)中,一般的審計數(shù)據(jù)分析方法很難挖掘出這些異常信息,而采用文本聚類的算法能夠彌補這個缺陷。這些異常信息往往是審計人員重點審查的對象,可以對舞弊和違規(guī)行為的評估提供審計證據(jù)。對審計文本進行聚類后,可以按類別對每類文本進行具體的分析、比較和總結(jié),分析異常數(shù)據(jù)存在的原因,大大減輕了審計人員進行審計數(shù)據(jù)分析的工作量。

3.結(jié)果可視化

結(jié)果可視化的主要思想是將復(fù)雜的審計數(shù)據(jù)通過可供使用者所理解的方式表達出來。結(jié)果可視化可以把文本挖掘所獲取的知識通過可視化的視覺符號(網(wǎng)絡(luò)圖、樹狀圖、維恩圖、坐標(biāo)等)清晰地進行展示,審計人員可以根據(jù)審計目標(biāo)和評估指標(biāo),對可視化的結(jié)果進行分析、解釋和評價,從不同的角度對審計數(shù)據(jù)進行更加深入的觀察和更加全面的多維分析。

(三)總結(jié)和發(fā)布

總結(jié)和發(fā)布是審計數(shù)據(jù)分析流程的最終階段。審計人員和技術(shù)人員共同將上一階段可視化分析所展現(xiàn)的結(jié)果進行篩選、歸類、整理和深入分析,總結(jié)出有價值和有效的審計知識進行標(biāo)準(zhǔn)化,形成審計經(jīng)驗和審計線索,供審計人員分析取證。最后對被審計單位做出相關(guān)的評價,得出審計結(jié)論。

大數(shù)據(jù)環(huán)境下的文本挖掘?qū)徲嫈?shù)據(jù)分析主要是借助文本挖掘技術(shù)進行審計數(shù)據(jù)分析。根據(jù)明確的審計需求,采集與被審計單位相關(guān)的原始審計數(shù)據(jù)進行預(yù)處理,建立不同的文本挖掘模型對審計數(shù)據(jù)進行分析,最后對可視化的結(jié)果進行分析和評價,為審計報告提供參考意見。如果文本挖掘的結(jié)果無法滿足審計目的和審計需求,則需要分析審計過程中存在的問題,不能達到審計目的的原因以及該過程中存在的薄弱環(huán)節(jié),比如是否需要考慮重新選擇文本挖掘模型和參數(shù)。所以從開始采集原始數(shù)據(jù)到獲取審計證據(jù)的審計數(shù)據(jù)分析過程不是一次性能夠順利完成的,需要通過不斷總結(jié)和完善某些環(huán)節(jié),達到預(yù)先設(shè)定的審計目標(biāo)。

五、結(jié)論與展望

大數(shù)據(jù)環(huán)境下,為了給審計研究提供新的思路和審計運用提供新的方法,本文從審計數(shù)據(jù)分析工作實際需要的角度出發(fā),提出了基于文本挖掘的審計數(shù)據(jù)分析框架。該框架是基于Hadoop生態(tài)系統(tǒng),結(jié)合文本挖掘技術(shù),建立融審計數(shù)據(jù)的采集、存儲、分析處理、結(jié)果可視化為一體的審計數(shù)據(jù)分析框架。本文的研究旨在為大數(shù)據(jù)環(huán)境下審計數(shù)據(jù)分析提供參考,但還未對此進行實證分析。可以肯定的是,利用文本挖掘技術(shù)可以彌補傳統(tǒng)審計技術(shù)方法的不足,如何實現(xiàn)和驗證文本挖掘技術(shù)在審計工作中的運用,將是后續(xù)研究的重點內(nèi)容?!?/p>

【參考文獻】

[1] MOFFITT K C, VASARHELYI M A. AIS in an age of Big Data[J]. Journal of Information Systems,2013,27(2):68-92.

[2] GRAY G L, DEBRECENY R S. A taxonomy to guide research on the application of data mining to fraud detection in financial statement audits[D]. Working paper,California State University,Northridge,2013.

[3] 阮哈建,劉西友.大數(shù)據(jù)與審計機關(guān)的應(yīng)對策略[J].中國內(nèi)部審計,2013(6):84-85.

[4] 呂勁松,王忠.金融審計中的數(shù)據(jù)分析[J]. 審計研究,2014(5):26-31.

[5] 秦榮生.大數(shù)據(jù)時代的會計、審計發(fā)展趨勢[J].會計之友,2014(32):81-84.

[6] 顧洪菲.大數(shù)據(jù)環(huán)境下審計數(shù)據(jù)分析技術(shù)方法初探[J].中國管理信息化,2015(3):45-47.

[7] 鮑朔望.大數(shù)據(jù)環(huán)境下政府采購審計思路和技術(shù)方法探討[J].審計研究,2016(6):13-18.

[8] 羌雨.基于R語言的大數(shù)據(jù)審計方法研究[J].中國管理信息化,2016(21):46-49.

[9] LENARD M J,ALAM P ,BOOTH D. An analysis of fuzzy clustering and a hybrid model for the auditors going concern assessment[J]. Decision Sciences,2000,31(4):861-884.

[10] YEH C, CHI D,LIN Y. Going-concern prediction using hybrid random forests and rough set approach[J]. Information Sciences,2014,254(1):98-110.

[11] LOUGHRAN T,B MCDONALD. When is a liability not a liability? Textual analysis,dictionaries, and 10-Ks[J]. The Journal of Finance,2011,66(1):35-65.

猜你喜歡
文本挖掘大數(shù)據(jù)
數(shù)據(jù)挖掘技術(shù)在電站設(shè)備故障分析中的應(yīng)用
基于LDA模型的95598熱點業(yè)務(wù)工單挖掘分析
文本數(shù)據(jù)挖掘在電子商務(wù)網(wǎng)站個性化推薦中的應(yīng)用
大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
慧眼識璞玉,妙手煉渾金
文本觀點挖掘和情感分析的研究
邓州市| 图木舒克市| 上林县| 阿勒泰市| 康保县| 山东| 曲沃县| 拜泉县| 隆德县| 沅陵县| 齐齐哈尔市| 崇明县| 灌南县| 芮城县| 江孜县| 依兰县| 贵港市| 高雄市| 庆元县| 澄江县| 武宁县| 长寿区| 克拉玛依市| 张家港市| 都匀市| 丹棱县| 腾冲县| 聂荣县| 双流县| 西安市| 青神县| 湄潭县| 阜阳市| 墨江| 小金县| 珠海市| 正镶白旗| 四川省| 汽车| 安丘市| 普宁市|