【摘要】 XBRL在財務信息的準備、分析和交流方面帶來了極大便利,成為會計師、投資者和監(jiān)管者的有力工具。由于缺少形式語義,對XBRL格式數(shù)據(jù)的推理存在許多限制。文章首先討論利用XBRL技術進行財務信息搜索、集成和深入分析的需求,以及現(xiàn)有XBRL的不足。從技術角度分析XBRL與語義網(wǎng)技術融合的方法,綜述近年來在增強XBRL語義方面的研究進展,提出了基于本體的XBRL元數(shù)據(jù)分析和研究框架。
【關鍵詞】 XBRL;元數(shù)據(jù);語義網(wǎng);本體
一、引言
作為應用于財務信息領域的最新技術,XBRL(eXtensible Business Reporting Language)處理非結構化信息,利用標記元數(shù)據(jù)來識別和描述財務報告中的財務信息項。通過這些標記和分類標準,使計算機能夠“讀懂”財務報告,并利用內(nèi)置驗證機制“分析”財務信息。近年來,國內(nèi)外各大證券交易所紛紛要求上市公司提供XBRL財務報告,已積累了相當數(shù)量的XBRL數(shù)據(jù),同時也暴露出XBRL缺少形式語義的缺陷,并開始制約XBRL數(shù)據(jù)的質(zhì)量和對財務信息的集成、分析利用。
XBRL主要有三個組成部分:XBRL技術規(guī)范(Specification)是XBRL的技術總綱,定義XBRL的各種專業(yè)術語,用于規(guī)范XBRL文檔的結構,說明如何建立分類標準以及實例文檔;XBRL分類標準(Taxonomy)是不同國家、行業(yè)或團體根據(jù)XBRL規(guī)范和自身的會計行業(yè)準則以及條件定義的適用于本地區(qū)本行業(yè)的詞匯表,是一個術語字典,由XBRL Schema和鏈接庫兩部分組成,分別定義概念和描述概念之間的關系及相關文檔,鏈接庫包括定義、計算、展示、標簽和引用五種文件;XBRL實例文檔(Instance)是企業(yè)根據(jù)XBRL技術規(guī)范和分類標準做出的XBRL格式財務報告,是基于一個或多個分類標準所定義的概念的XBRL事實值的集合。另外,為了增強對財務數(shù)據(jù)的背景描述和計算能力,同時也考慮到XBRL技術規(guī)范的穩(wěn)定性,XBRL技術規(guī)范還有兩個外加可選模塊,即Dimensions和Formulas。Dimensions規(guī)范描述財務數(shù)據(jù)的多維信息,提供表達XBRL背景之間關系的能力;Formulas規(guī)范表述會計的業(yè)務規(guī)則,彌補計算鏈接庫的不足,提供跨背景的計算關系。
語義網(wǎng)(Semantic Web)通過增加網(wǎng)絡信息的形式語義支持,對現(xiàn)有Web網(wǎng)進行變革和延伸,目標是幫助計算機在一定程度上理解數(shù)據(jù)的含義,實現(xiàn)高效的網(wǎng)絡信息搜索和智能協(xié)同。學術界和產(chǎn)業(yè)界都已經(jīng)認識到語義網(wǎng)能夠有效促進企業(yè)內(nèi)部和外部業(yè)務流程的集成和互操作,從而推動建立共享文檔和數(shù)據(jù)的全球基礎設施,使信息搜索和重用更加容易。
語義形式化是指將數(shù)據(jù)中的含義按某種數(shù)學規(guī)則用符號方式精確表示出來,以適合于計算機的理解和推理。筆者首先討論利用XBRL技術進行財務信息搜索、集成和深入分析的需求,以及現(xiàn)有XBRL的不足,然后從技術角度分析XBRL與語義網(wǎng)技術融合的方法,綜述近年來在增強XBRL語義方面的研究進展,最后,提出基于本體的XBRL財務信息分析和研究框架。
二、XBRL財務信息的集成和分析需求
計算機和互聯(lián)網(wǎng)的發(fā)展正改變著社會經(jīng)濟生活的方方面面。在會計領域,互聯(lián)網(wǎng)顛覆了傳統(tǒng)公司報告的生產(chǎn)、披露與傳播方式,使得信息供求雙方獲取及傳播信息的可用方法和途徑發(fā)生了空前變化。美國證交會(SEC)早已要求上市公司從2005年開始自愿呈報XBRL財務報告,并強制要求美國國內(nèi)外大型、按美國GAAP編制財務報表的公司,且全球公開發(fā)行普通股權益達50億美元以上的公司從2009年開始提交XBRL財務報告;從2005年開始,中國滬深兩市的所有上市公司也開始采用XBRL對定期財務報告進行全文披露;SEC還要求美國基金公司從2011年開始必須提交XBRL格式的風險/回報摘要;日本、西班牙的央行都要求其監(jiān)管的銀行定期提交XBRL格式的財務數(shù)據(jù)。因而,隨著XBRL的推廣應用,需要處理大量的XBRL數(shù)據(jù)。
可以將XBRL數(shù)據(jù)處理需求分為兩類:
?。ㄒ唬?shù)據(jù)收集和報告
公司和其他財務數(shù)據(jù)生產(chǎn)者能夠自動采集、匯總數(shù)據(jù)并轉(zhuǎn)換成XBRL格式。利用XBRL數(shù)據(jù)可以容易地生成多種形式的報告,分別適用于內(nèi)部管理、財務報表、稅務文件和信用報告。要求能進行自動處理、錯誤檢驗和一致性驗證。
?。ǘ?shù)據(jù)使用和分析
收到XBRL格式數(shù)據(jù)的用戶能夠進行自動化處理,節(jié)約數(shù)據(jù)核對和重復錄入的時間。軟件能夠立即驗證數(shù)據(jù),發(fā)現(xiàn)錯誤并立即報告數(shù)據(jù)缺失,也可以幫助進行數(shù)據(jù)分析、選擇和重用數(shù)據(jù)處理。特別是滿足投資分析的信息需求,簡化數(shù)據(jù)的選擇和比較,深入進行公司經(jīng)營分析。可以降低貸款成本,加快放款速度。監(jiān)管和政府部門能夠有效地整合、驗證和評估相關的財務信息。
作為XML的一種應用,XBRL的目標是為有關財務數(shù)據(jù)增加語義,特別是采用XLink實現(xiàn)的多種鏈接庫能定義多個數(shù)據(jù)項之間的、形式的計算關系。但是,總體來看,目前XBRL仍然只是解決信息的語法表達問題,尚不能實現(xiàn)大多數(shù)形式語義表達。如標簽和引用文檔、包含關系都缺少形式語義,常常導致XBRL實例文檔中出現(xiàn)大段的文本塊,僅供人工閱讀,無法支持用計算機實現(xiàn)分析、推理工作,從而難以滿足上述需求。
XBRL財務報告分類標準采用自然語言定義標記元數(shù)據(jù),可能降低財務數(shù)據(jù)質(zhì)量。劉勤(2006)針對XBRL的應用優(yōu)勢, 從標準技術、管理、實施等多個角度進行剖析,通過質(zhì)疑,發(fā)現(xiàn)目前XBRL在分類標準、多個分類的差異、處理成本等方面都存在一系列問題,其實質(zhì)是標記元數(shù)據(jù)的不一致性。Debreceny等(2005)的研究也指出,應從技術性、可用性、完整性、可及性、一致性等方面來驗證分類標準元數(shù)據(jù)的充分性。
Berners-Lee繼發(fā)明Web之后,于1998年提出了將Web延伸為語義網(wǎng)的思想。此后引起學術界對語義網(wǎng)的研究熱潮,控制Web標準的W3C組織也相繼發(fā)布了多種相關的規(guī)范和技術,如RDF、OWL、SPARQL等。多年以來XBRL和語義網(wǎng)在各自領域發(fā)展迅速,互不相交。近年來,XBRL的發(fā)展引起W3C組織的關注,2008年Raggett開始作為W3C Fellow加入到XBRL國際組織的標準委員會,國外學術界對將語義網(wǎng)技術應用于XBRL的研究正逐漸形成熱點。
三、XBRL數(shù)據(jù)的語義形式化方法
從語義網(wǎng)的基本技術來看,目前主要關注資源描述框架(RDF)和本體的應用。通常認為本體是共享概念模型明確的形式化規(guī)范說明。作為智能知識處理的核心技術,本體提供了共享特定領域信息內(nèi)容的框架,使多Agent能夠共享對交互信息的語義理解,并在數(shù)據(jù)挖掘、信息檢索、知識獲取、知識管理、信息集成等領域中獲得大量應用。XBRL數(shù)據(jù)的語義形式化實質(zhì)上是對XBRL標記元數(shù)據(jù)的語義形式化。
?。ㄒ唬┲苯踊诒倔w增加形式語義
較早的研究主要探索對基金、上市公司的XBRL格式數(shù)據(jù)轉(zhuǎn)換成RDF/OWL本體,主要涉及兩種語言間不同表示構件的映射關系、不一致性的處理,僅限于較小數(shù)據(jù)量。在實驗系統(tǒng)建立過程中也發(fā)現(xiàn)需要增加XBRL的形式語義,并擴充OWL的計算能力。這種方法的主要關鍵是建立一個明確的信息模型,即OWL本體。
為了增強XBRL的形式語義支持,大量研究涉及開發(fā)基于本體的XBRL數(shù)據(jù)管理方法和架構。Declerck等(2006)研究將XBRL分類標準直接轉(zhuǎn)換成描述邏輯的方法,最終用Protégé工具獲得一種“本體化”的XBRL分類標準。Li等(2009)通過在XBRL規(guī)范之上附加增強本體的方法,也采用Protégé和Jena工具建立了財務數(shù)據(jù)的分析環(huán)境,但這些應用基本上還是基于傳統(tǒng)方式的有限擴展,未采用SPARQL支持推理查詢。
?。ǘΧ啾倔w之間的異構語義的不一致處理
在一個分布式的網(wǎng)絡環(huán)境中,跨企業(yè)、跨行業(yè)的XBRL分類標準、實例文檔和內(nèi)部數(shù)據(jù)實際上都存在語義上的異構,因此如何實現(xiàn)多種分類標準的語義融合,容忍不一致性是實現(xiàn)XBRL財務數(shù)據(jù)互操作集成和分析的基本前提。Zhu等(2007)提出利用模式匹配和情境中介技術解決XBRL財務報告分類標準和報告實例中的語義歧義;Núnez等(2008)提出在一種協(xié)同的網(wǎng)絡環(huán)境中,建立上層的抽象OWL本體,以期達到對多種跨分類標準的XBRL財務報告的比較和交換的目標。
XBRL財務數(shù)據(jù)和元數(shù)據(jù)結構的本體表示的核心動機是增強企業(yè)分析應用的潛力。這種企業(yè)分析應用是構建在多種結構化和非結構化集成數(shù)據(jù)而形成的財務報告數(shù)據(jù)之上的。如果將這種應用與推理引擎相結合,就能夠顯著增強合規(guī)管理。為了定義一個合適的XBRL的本體表示,Spies(2010)深入分析了XBRL元數(shù)據(jù)分類標準的原理,討論了相應的細分系統(tǒng),提出了采用OWL語言為公認會計準則XBRL分類標準建立本體的方法,且與OMG的本體元模型(ODM)兼容。
?。ㄈ┗谡Z義的XBRL與商務智能應用的融合
隨著證券市場上越來越多的欺詐交易,監(jiān)管部門、投資者和公眾普遍關注及時、準確發(fā)現(xiàn)可疑交易,避免造成嚴重損失。這類應用需要結合XBRL數(shù)據(jù)與商務智能技術。為了能有效融合這兩種技術,XBRL數(shù)據(jù)必須進行語義解釋或擴充。Hou等(2006)試圖利用本體驅(qū)動的方法建立一個高效管理證券數(shù)據(jù)并準確發(fā)現(xiàn)可疑非法交易的系統(tǒng)。首先基于大量的案例和工業(yè)標準建立一個反映實體特征及其關系的證券領域本體模型,然后將各種系統(tǒng)中的數(shù)據(jù)按XBRL格式導入本體庫成為本體實例,從而形成可進一步推理的各種關系基礎,最后,用戶通過發(fā)出語義SPARQL查詢找出可疑交易。通過精確語義定位的分析過程,提供了查詢?nèi)蝿盏臏蚀_性和效率。
隨著互聯(lián)網(wǎng)的普及推廣,可以從網(wǎng)上及時獲取大量企業(yè)的財務數(shù)據(jù),特別是XBRL的運用大大推進了企業(yè)相關數(shù)據(jù)的集成效率,但海量數(shù)據(jù)必須進行提煉和濃縮才能被有效利用,達到持續(xù)報告的目標。Mendez-Nunez等(2010)利用語義網(wǎng)和感知計算理論,提出了從財務數(shù)據(jù)歸納生成簡短報告的框架和方法。這種簡短報告由幾個自然語言句子構成,可以幫助定義產(chǎn)生本體。
歐盟著名的MUSING項目提出建立XBRL本體用于元數(shù)據(jù)的形式化表達,從而支持新一代商務智能分析系統(tǒng)。以XBRL作為主要支撐,新型應用程序通過集成語義技術將知識管理、先進的預測分析和智能的第三方數(shù)據(jù)訪問結合起來。用于集成這些知識和項目結果的基礎性骨干在本體中被形式化,而本體自身作為模式為MUSING知識基礎庫服務。MUSING的合作伙伴德國人工智能研究中心開發(fā)了一個類似于XBRL本體的方法,并將其在PDF2XBRL的翻譯過程中用作骨干模式。這個方法通過使用自然語言處理將資產(chǎn)負債表的信息歸類到XBRL分類標準,把數(shù)據(jù)翻譯成機器可讀可處理的、可重用的信息。另一方面,在MUSING里所有的知識都被概念化到本體中。
四、XBRL元數(shù)據(jù)分析和研究框架
從以上討論可看到,為了提高XBRL數(shù)據(jù)質(zhì)量,滿足深入分析的需求,關鍵是解決XBRL標記元數(shù)據(jù)的質(zhì)量問題,特別是通過元數(shù)據(jù)的語義形式化能實現(xiàn)計算機的自動推理、變換和分析。XBRL規(guī)范的推廣使用,形成XBRL標記元數(shù)據(jù)的分布式使用環(huán)境。根據(jù)以上的XBRL數(shù)據(jù)處理需求和現(xiàn)有的研究情況來看,學術界至少面臨以下挑戰(zhàn):
·現(xiàn)有OWL的功能擴展,需要擴展描述邏輯理論
·對多個本體之間的語義歧義的處理
·尋找高效的自動推理方法
為了解決這些問題,需要進行以下研究:
一是面向情境的XBRL元數(shù)據(jù)形式化語義表達與推理
作為分布式元數(shù)據(jù)一致性的研究基礎,首先從本地應用情境出發(fā),研究情境信息建模方法,探索描述邏輯在行為及財務領域的擴展,然后試圖提出基于動態(tài)描述邏輯的一般元數(shù)據(jù)形式化描述,關注局部的具體知識,并構造對應的推理方法。
二是分布式元數(shù)據(jù)形式化語義表達與推理
以網(wǎng)絡環(huán)境為背景,研究分布式XBRL中的元數(shù)據(jù)語義精確表達與推理。首先根據(jù)分布式XBRL的元數(shù)據(jù)特點和需求,研究描述異構靜態(tài)和動態(tài)知識的統(tǒng)一形式化邏輯組成框架,然后擴充描述邏輯,按容納不一致的思路,研究基于分布式描述邏輯的標記元數(shù)據(jù)形式化表達,構造適合分布特點的全局推理方法。
三是本體管理中對不一致知識的處理機制
在精確表達XBRL標記元數(shù)據(jù)語義的基礎上,采用本體元建模理論,引入知識分區(qū)的多個本體空間思想,研究在元數(shù)據(jù)本體的注冊、演化和映射的管理過程中對不一致知識的處理機制。
四是XBRL元數(shù)據(jù)的一致性自動檢測和消解方法
XBRL的語義形式化為一致性自動檢測和消解方法提供了堅實基礎。綜合以上對本地和網(wǎng)絡信息的探索,區(qū)分多種認知歧義和沖突矛盾類型,研究分布式元數(shù)據(jù)一致性的自動檢測算法和輔助消解方法。
這些研究將有助于進一步完善描述邏輯理論,構造有效的XBRL一致性邏輯檢測方法,加速語義網(wǎng)技術的實用化。
五、結論
在財務信息領域存在大量復雜、有價值、動態(tài)的信息,各種用戶需要通過一種通用的信息模型最大限度地分析和利用信息。經(jīng)過多年的努力,XBRL成為各方公認的這種信息模型,從而為信息共享提供了堅實的基礎。但XBRL缺少形式語義的不足,也形成進一步深入分析數(shù)據(jù)的主要障礙?,F(xiàn)有的語義增強方法主要集中于利用本體技術規(guī)定靜態(tài)的精確概念及其關系,進一步的研究應主要致力于解決分布式網(wǎng)絡環(huán)境中的XBRL元數(shù)據(jù)形式語義表達和推理方法,解決多種本體間的不一致問題,并提供高效的推理機制。
【參考文獻】
?。?] R.Debreceny, C.Felden, B.Ochocki, et al. XBRL for Interactive Data[M]. New York: Springer, 2009.
?。?] Cardoso J, Hepp M, Lytras M. The Semantic Web: Real-World Applications from Industry[M]. New York: Springer, 2008.
?。?] 劉勤. 對當前一些有關流行觀點的思考[J]. 會計研究, 2006(8): 80-85.
?。?] Debreceny R. Financial reporting in XBRL on the SEC’s EDGAR system: a critique and evaluation[J]. Journal of Information Systems, 2005, 19(2): 191-210.
?。?] Klyne G, Carroll J. Resource Description Framework (RDF): Concepts and Abstract Syntax, W3C Recommendation[EB/OL]. http://www.w3.org/TR/rdf-concepts/, 2011-5-1.
[6] Smith M, Welty C, McGuinness D. OWL Web Ontology language Guide[EB/OL]. http://www.w3.org/TR/owl-guide/, 2011-5-1.
[7] W3C. SPARQL query language for RDF [EB/OL]. http://www.w3.org/TR/2004/WD-rdf-sparql-query-20041012/, 2011-5-1.
?。?] Lara R, Cantador I, Castells P. XBRL Taxonomies and OWL Ontologies for Investment Funds [C]. ER Workshops 2006, LNCS 4231, 2006, pp. 271-280.
?。?] Méndez S, Labra J, Andrés J, et al. Analysis of XBRL documents containing accounting information of listed firms using Semantic Web Technologies[C]. Metadata and Semantics, 2009, pp.375-381.
[10] Declerck X, Krieger H. TranslnIvgo053hzykktLl8cb/5g==ating XBRL into description logic[C]. The 9th International Conference on Business Information Systems, Klagenfurt, Austria, 2006.
[11] Li B, Liu M. An ontology-augmented XBRL extended model for financial information analysis[C]. IEEE International Conference on Intelligent Computing and Intelligent Systems, 2009, (3): 99-103.
[12] Zhu H, Madnick SE. Semantic integration approach to efficient business data supply chain: integration approach to inter-operable XBRL[R]. MIT Sloan School of Management, 2007.
?。?3] Núnez SM, Suárez JA, Gayo JE. A Semantic Based Collaborative System for the Interoperability of XBRL Accounting Information[C]. Emerging Technologies and Information Systems for the Knowledge Society, LNCS 5288, 2008, pp. 593-599.
?。?4] Spies M. An ontology modeling perspective on business reporting[J]. Information Systems, 2010, 35(4): 404-416.
?。?5] Hou X, Hu G, Ma L, et al. Ontology Driven Securities Data Management and Analysis[C]. Frontiers of WWW Research and Development-APWeb 2006, LNCS 3841, 2006, pp. 1083-1095.
?。?6] Mendez-Nunez S, Trivino G. Combining semantic Web technologies and computational theory of perceptions for text generation in financial analysis. IEEE International Conference on Fuzzy Systems (FUZZ), 2010, pp.1-8.
[17] MUSING.http://cordis.europa.eu/fp6/dc/index.cfm?fuseaction
=UserSite.FP6HomePage. 2011-4-20.