武瑞敏 張志強(qiáng)
摘? ?要:大數(shù)據(jù)時(shí)代,新興前沿技術(shù)的迅猛發(fā)展對(duì)網(wǎng)絡(luò)計(jì)量學(xué)提出了新的發(fā)展要求,文章在學(xué)科信息學(xué)的學(xué)科體系框架下提出了一個(gè)全新的概念——“網(wǎng)絡(luò)信息學(xué)”。從網(wǎng)絡(luò)信息學(xué)興起的背景出發(fā),概述了從網(wǎng)絡(luò)計(jì)量學(xué)到網(wǎng)絡(luò)信息學(xué)的發(fā)展過(guò)程;明確了網(wǎng)絡(luò)信息學(xué)的概念內(nèi)涵、數(shù)據(jù)基礎(chǔ)以及關(guān)鍵理論方法技術(shù);重點(diǎn)剖析了在網(wǎng)絡(luò)信息學(xué)框架下,重要跨學(xué)科領(lǐng)域的知識(shí)發(fā)現(xiàn)、學(xué)術(shù)影響力與競(jìng)爭(zhēng)力評(píng)價(jià)等四個(gè)方面的知識(shí)發(fā)現(xiàn)前沿與進(jìn)展。并由此提出,網(wǎng)絡(luò)信息學(xué)利用新興前沿信息技術(shù)挖掘網(wǎng)絡(luò)大數(shù)據(jù)以揭示有價(jià)值的知識(shí),是網(wǎng)絡(luò)大數(shù)據(jù)時(shí)代的網(wǎng)絡(luò)數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)學(xué)科,也是網(wǎng)絡(luò)信息研究新范式的支撐學(xué)科,但其發(fā)展也存在諸如網(wǎng)絡(luò)大數(shù)據(jù)質(zhì)量的控制、專門(mén)技術(shù)工具的發(fā)展等方面的關(guān)鍵問(wèn)題。隨著網(wǎng)絡(luò)信息學(xué)的深入發(fā)展,未來(lái)網(wǎng)絡(luò)大數(shù)據(jù)知識(shí)庫(kù)、網(wǎng)絡(luò)信息學(xué)專門(mén)技術(shù)工具及其應(yīng)用領(lǐng)域都將得到蓬勃發(fā)展,網(wǎng)絡(luò)信息學(xué)也或?qū)⒊蔀閷W(xué)科信息學(xué)的領(lǐng)頭學(xué)科。
關(guān)鍵詞:網(wǎng)絡(luò)信息學(xué);學(xué)科信息學(xué);網(wǎng)絡(luò)計(jì)量學(xué);大數(shù)據(jù);數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)
中圖分類號(hào):G201? ?文獻(xiàn)標(biāo)識(shí)碼:A? ?DOI:10.11968/tsyqb.1003-6938.2023009
Abstract In the big data era, the rapid development of new frontier technologies has put forward new requirements for the development of webometrics. So,we put forward a new concept here under the framework of the"subject-informatics",which is"cyber-informatics". Starting from the background of the rise of cyber-informatics, this paper introduces the development process from webometrics to cyber-informatics. Secondly, the definition, data basis and key theories and methods of cyber-informatics are clarified. Finally, the research advances of knowledge discovery in interdisciplinary field, academic influence and competitiveness evaluation of cyber-informatics is analyzed.Cyber-informatics is a subject of network data mining and knowledge discovery in the era of network big data, and a supporting subject of the new paradigm of network information research. However, there are still some key problems, such as the quality control of big data and the development of specialized technical tools. With the further development of cyber-informatics, the knowledge base of network big data, the specialized technical tools of cyber-informatics and its application fields will be vigorously developed in the future.In addition cyber-informatics may become the leading subject of subject-informatics.
Key words? cyber-informatics; subject-informatics; webometrics; big data; data mining and knowledge discovery
在大數(shù)據(jù)時(shí)代,大數(shù)據(jù)的“5V”特征[1]加劇了網(wǎng)絡(luò)信息的復(fù)雜性、集合性和交叉性,同時(shí),互聯(lián)網(wǎng)+、新興前沿計(jì)算機(jī)、大數(shù)據(jù)等技術(shù)的迅猛發(fā)展,突破了人腦的計(jì)算速度與耐力限制,可以彌合大量可用知識(shí)與人的能力有限之間的差距。以網(wǎng)絡(luò)信息為研究對(duì)象的網(wǎng)絡(luò)計(jì)量學(xué)深受沖擊與影響[2],傳統(tǒng)的網(wǎng)絡(luò)計(jì)量學(xué)利用文獻(xiàn)計(jì)量學(xué)的理論方法對(duì)小數(shù)據(jù)的定量描述與統(tǒng)計(jì)分析已經(jīng)不足以支撐網(wǎng)絡(luò)大數(shù)據(jù)之間復(fù)雜關(guān)聯(lián)關(guān)系、模式結(jié)構(gòu)以及重要隱性知識(shí)的揭示。因此,網(wǎng)絡(luò)計(jì)量學(xué)必須向前發(fā)展,以適應(yīng)在大數(shù)據(jù)與人工智能等前沿技術(shù)融合的復(fù)雜信息環(huán)境中開(kāi)展網(wǎng)絡(luò)數(shù)據(jù)信息分析與重要知識(shí)發(fā)現(xiàn)的研究任務(wù)。
此外,在科學(xué)研究進(jìn)入數(shù)據(jù)密集型研究的第四范式的大背景下,張志強(qiáng)和范少萍提出了一個(gè)統(tǒng)一的學(xué)科概念——“學(xué)科信息學(xué)”(Subject informatics),認(rèn)為其是應(yīng)用信息科學(xué)與計(jì)算科學(xué)的技術(shù)、手段與方法,進(jìn)行科學(xué)數(shù)據(jù)收集、存儲(chǔ)、處理、再分析、可視化和知識(shí)發(fā)現(xiàn),從而創(chuàng)造新知識(shí)、發(fā)現(xiàn)新方法、提供學(xué)科戰(zhàn)略決策咨詢的交叉性學(xué)科,重點(diǎn)突出了對(duì)學(xué)科信息、數(shù)據(jù)的計(jì)量分析與挖掘分析[3]。
在上述雙重背景下,基于網(wǎng)絡(luò)計(jì)量學(xué)與網(wǎng)絡(luò)大數(shù)據(jù)分析的專門(mén)學(xué)科信息學(xué)——“網(wǎng)絡(luò)信息學(xué)”(cyber-informatics)應(yīng)運(yùn)而生。一方面,網(wǎng)絡(luò)信息學(xué)是網(wǎng)絡(luò)計(jì)量學(xué)的新發(fā)展,是網(wǎng)絡(luò)大數(shù)據(jù)時(shí)代的新型網(wǎng)絡(luò)計(jì)量學(xué),是網(wǎng)絡(luò)計(jì)量學(xué)在大數(shù)據(jù)和前沿技術(shù)浪潮的沖擊下煥發(fā)出的新的生命力;另一方面,網(wǎng)絡(luò)信息學(xué)是網(wǎng)絡(luò)大數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn)的專門(mén)學(xué)科信息學(xué),是學(xué)科信息學(xué)在網(wǎng)絡(luò)信息計(jì)量分析、數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)領(lǐng)域的具體化表現(xiàn),是大數(shù)據(jù)時(shí)代基于網(wǎng)絡(luò)大數(shù)據(jù)開(kāi)展知識(shí)發(fā)現(xiàn)的新型數(shù)據(jù)分析型學(xué)科。文章旨在分析研究網(wǎng)絡(luò)信息學(xué)的興起、內(nèi)涵、研究?jī)?nèi)容、應(yīng)用實(shí)踐及其未來(lái)發(fā)展。首先在概述網(wǎng)絡(luò)信息學(xué)興起背景的基礎(chǔ)上,介紹網(wǎng)絡(luò)信息學(xué)的內(nèi)涵及其理論方法技術(shù);其次,從重要跨學(xué)科領(lǐng)域知識(shí)發(fā)現(xiàn)、學(xué)術(shù)影響力與競(jìng)爭(zhēng)力評(píng)價(jià)、重要信息的檢測(cè)與識(shí)別和面向決策咨詢的網(wǎng)絡(luò)大數(shù)據(jù)預(yù)測(cè)分析等四個(gè)方面闡述了網(wǎng)絡(luò)信息學(xué)知識(shí)發(fā)現(xiàn)的研究進(jìn)展;最后,對(duì)網(wǎng)絡(luò)信息學(xué)的發(fā)展進(jìn)行了總結(jié)與展望。隨著數(shù)據(jù)分析與信息技術(shù)的快速發(fā)展,網(wǎng)絡(luò)信息學(xué)將成為探索網(wǎng)絡(luò)虛擬世界未知的有力工具。
1? ?網(wǎng)絡(luò)信息學(xué)發(fā)展概述
1.1? ? 從網(wǎng)絡(luò)計(jì)量學(xué)到網(wǎng)絡(luò)信息學(xué)
一般認(rèn)為,網(wǎng)絡(luò)計(jì)量學(xué)(webometrics)由阿曼德(Almind)和英格維森(Ingwersen)于1997年提出,即將文獻(xiàn)計(jì)量方法用于“萬(wàn)維網(wǎng)”上信息的計(jì)量研究[4]。1998年,英格維森提出了利用網(wǎng)頁(yè)的影響因子對(duì)一段時(shí)間內(nèi)網(wǎng)頁(yè)瀏覽關(guān)注情況進(jìn)行分析,這對(duì)網(wǎng)絡(luò)計(jì)量學(xué)的發(fā)展起到了十分重要的作用[5-6],網(wǎng)絡(luò)計(jì)量學(xué)也逐漸從傳統(tǒng)的信息計(jì)量學(xué)脫離出來(lái)成為一門(mén)獨(dú)立的新興學(xué)科。
國(guó)內(nèi)網(wǎng)絡(luò)計(jì)量學(xué)的研究以1999年徐久齡等的研究[7]為開(kāi)端(網(wǎng)絡(luò)計(jì)量學(xué)在我國(guó)的發(fā)展歷程見(jiàn)圖1)。2000年,“webometrics”首次被譯為“網(wǎng)絡(luò)信息計(jì)量學(xué)[8],并被定義為“采用數(shù)學(xué)、統(tǒng)計(jì)學(xué)等各種定量研究方法,對(duì)網(wǎng)上信息的組織、存儲(chǔ)、分布、傳遞、相互引證和開(kāi)發(fā)利用等進(jìn)行定量描述和統(tǒng)計(jì)分析,以便揭示其數(shù)量特征和內(nèi)在規(guī)律的一門(mén)新興分支學(xué)科”[9]。隨著理論和實(shí)踐的發(fā)展,2010年,網(wǎng)絡(luò)計(jì)量學(xué)理論、方法和應(yīng)用被系統(tǒng)研究,也統(tǒng)一了將“網(wǎng)絡(luò)計(jì)量學(xué)”這一更廣泛的概念作為學(xué)科命名[10],名稱的統(tǒng)一,標(biāo)志著我國(guó)網(wǎng)絡(luò)計(jì)量學(xué)的研究趨于成熟。經(jīng)過(guò)20余年的發(fā)展,網(wǎng)絡(luò)計(jì)量學(xué)研究隊(duì)伍不斷壯大,成果不斷豐碩,豐富了我國(guó)網(wǎng)絡(luò)計(jì)量學(xué)的理論、方法以及應(yīng)用,形成了一套完整的理論體系。
網(wǎng)絡(luò)計(jì)量學(xué)的發(fā)展與網(wǎng)絡(luò)環(huán)境的變遷和網(wǎng)絡(luò)結(jié)構(gòu)的演化息息相關(guān),隨著云計(jì)算、互聯(lián)網(wǎng)+、大數(shù)據(jù)技術(shù)的興起,網(wǎng)絡(luò)計(jì)量學(xué)面臨許多新的挑戰(zhàn)[11]。過(guò)去,網(wǎng)絡(luò)計(jì)量學(xué)的研究普遍是通過(guò)網(wǎng)絡(luò)小數(shù)據(jù)以既定的方法和分析模式實(shí)現(xiàn)的,小數(shù)據(jù)的特征是為回答特定問(wèn)題而量身定制的抽樣數(shù)據(jù)[12]。大數(shù)據(jù)時(shí)代,網(wǎng)絡(luò)計(jì)量學(xué)面對(duì)的已不僅僅是單方面的數(shù)據(jù),還有海量、無(wú)序、多樣、異構(gòu)的網(wǎng)絡(luò)大數(shù)據(jù)集合單元,傳統(tǒng)的網(wǎng)絡(luò)計(jì)量學(xué)研究方法面對(duì)網(wǎng)絡(luò)大數(shù)據(jù)顯得力不從心。與此同時(shí),人工智能等前沿技術(shù)在大數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)中的應(yīng)用越來(lái)越深入,通過(guò)復(fù)雜計(jì)算能夠發(fā)現(xiàn)無(wú)法通過(guò)有限檢索策略與傳統(tǒng)分析方法發(fā)現(xiàn)的隱藏在大數(shù)據(jù)中的各種潛在相關(guān)模式。
網(wǎng)絡(luò)信息學(xué)便在大數(shù)據(jù)和前沿技術(shù)浪潮中應(yīng)運(yùn)而生。如果說(shuō),網(wǎng)絡(luò)計(jì)量學(xué)試圖利用小數(shù)據(jù)從狹窄的縫隙中開(kāi)采“黃金”,那么網(wǎng)絡(luò)信息學(xué)便是試圖利用大數(shù)據(jù)通過(guò)最先進(jìn)的機(jī)器通過(guò)露天開(kāi)采、挖掘和篩選大片土地來(lái)開(kāi)采“黃金”。
1.2? ? 網(wǎng)絡(luò)信息學(xué)的內(nèi)涵
1.2.1? ?網(wǎng)絡(luò)信息學(xué)內(nèi)涵界定
科學(xué)史告訴我們,任何科學(xué)的產(chǎn)生和發(fā)展都是由一定的科學(xué)背景和特定條件所決定的[13]。結(jié)合網(wǎng)絡(luò)信息學(xué)興起的時(shí)代與技術(shù)背景,網(wǎng)絡(luò)信息學(xué)的內(nèi)涵可以概述為:(1)研究對(duì)象為網(wǎng)絡(luò)大數(shù)據(jù),具體有網(wǎng)絡(luò)公共知識(shí)庫(kù)、以網(wǎng)絡(luò)資源為基礎(chǔ)的新一代知識(shí)庫(kù)、搜索引擎、社交媒體以及網(wǎng)絡(luò)上存在的其它有價(jià)值的數(shù)據(jù)與行為印跡的數(shù)據(jù)集等;(2)核心是挖掘并研究網(wǎng)絡(luò)大數(shù)據(jù)中潛藏的有價(jià)值的信息與知識(shí);(3)技術(shù)方法支撐是深度學(xué)習(xí)等新興計(jì)算機(jī)技術(shù)、通信技術(shù)、數(shù)學(xué)理論與方法等,涉及數(shù)據(jù)的挖掘、加工、分析等全過(guò)程;(4)學(xué)科基礎(chǔ)為網(wǎng)絡(luò)計(jì)量學(xué)、學(xué)科信息學(xué)、信息科學(xué)、知識(shí)發(fā)現(xiàn)、計(jì)算機(jī)科學(xué)、數(shù)據(jù)科學(xué)、網(wǎng)絡(luò)科學(xué)、復(fù)雜性科學(xué)等;(5)研究目的主要是:揭示網(wǎng)絡(luò)大數(shù)據(jù)間蘊(yùn)含的重要的隱性知識(shí)、識(shí)別科學(xué)研究中的重要趨勢(shì)與機(jī)制、重要信息的監(jiān)測(cè)與識(shí)別、面向決策服務(wù)的網(wǎng)絡(luò)大數(shù)據(jù)的預(yù)測(cè)分析等。
基于此,網(wǎng)絡(luò)信息學(xué)可以定義為:是利用數(shù)學(xué)理論與方法、計(jì)量學(xué)方法和計(jì)算機(jī)科學(xué)(深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò))等多學(xué)科的技術(shù)方法,對(duì)海量網(wǎng)絡(luò)信息進(jìn)行知識(shí)挖掘和知識(shí)發(fā)現(xiàn)研究,揭示網(wǎng)絡(luò)大數(shù)據(jù)中潛藏的有價(jià)值的信息與知識(shí)的一門(mén)新型數(shù)據(jù)分析學(xué)科。
此外,網(wǎng)絡(luò)信息學(xué)是一個(gè)新概念,目前還沒(méi)有英文譯名,由于網(wǎng)絡(luò)計(jì)量學(xué)的英名稱為“webometrics”[4]或“cybermetrics”(1997年由西班牙科學(xué)信息與文獻(xiàn)中心創(chuàng)辦的期刊得名),而學(xué)科信息學(xué)的英文名稱為“subject informatics”[3]。因此,基于“X-informatics”學(xué)科群的理論,此處將“cyber-informatics”作為網(wǎng)絡(luò)信息學(xué)的英文表達(dá)(“webo”是一個(gè)沒(méi)有單獨(dú)的含義詞根,為了保持學(xué)科群格式的一致,此處不考慮“weboinformatics”)。
1.2.2? ?網(wǎng)絡(luò)信息學(xué)相關(guān)概念辨析
為了厘清網(wǎng)絡(luò)信息學(xué)相關(guān)概念的繼承關(guān)系以及辨析各個(gè)概念之間的界限,此處使用維恩圖(Venn diagram)來(lái)直觀展示(見(jiàn)圖2)。
首先,網(wǎng)絡(luò)信息學(xué)根植于網(wǎng)絡(luò)計(jì)量學(xué),屬于網(wǎng)絡(luò)計(jì)量學(xué)內(nèi)容體系的一部分,是網(wǎng)絡(luò)大數(shù)據(jù)時(shí)代的新型網(wǎng)絡(luò)計(jì)量學(xué);其次,學(xué)科信息學(xué)學(xué)科群分為專門(mén)領(lǐng)域?qū)W科信息學(xué)(醫(yī)學(xué)信息學(xué)、生物信息學(xué)等)和工具型學(xué)科信息學(xué)(政策信息學(xué)、專利信息學(xué)等)兩大類別,網(wǎng)絡(luò)信息學(xué)作為學(xué)科信息學(xué)在網(wǎng)絡(luò)信息計(jì)量分析、數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)領(lǐng)域的具體化表現(xiàn),是工具型學(xué)科信息學(xué)體系中的重要一支。
1.3? ? 網(wǎng)絡(luò)信息學(xué)的數(shù)據(jù)源及方法工具
1.3.1? ?數(shù)據(jù)來(lái)源
網(wǎng)絡(luò)信息學(xué)的研究基礎(chǔ)是各類網(wǎng)絡(luò)大數(shù)據(jù)集合單元,如網(wǎng)絡(luò)公共知識(shí)數(shù)據(jù)庫(kù)、以互聯(lián)網(wǎng)資源為基礎(chǔ)的新一代知識(shí)庫(kù)、行業(yè)/領(lǐng)域垂直知識(shí)庫(kù)、個(gè)人自建知識(shí)庫(kù)、搜索引擎、社交媒體以及網(wǎng)絡(luò)上存在的其它有價(jià)值的數(shù)據(jù)與行為印跡的數(shù)據(jù)集等。由于搜索引擎和社交媒體是傳統(tǒng)的網(wǎng)絡(luò)計(jì)量學(xué)以及補(bǔ)充計(jì)量學(xué)(altmetrics)的研究數(shù)據(jù)源,在此不做詳細(xì)介紹。
(1)網(wǎng)絡(luò)公共知識(shí)數(shù)據(jù)庫(kù)。數(shù)量龐大的可用知識(shí)使得人類無(wú)法閱讀甚至訪問(wèn)全部知識(shí),適當(dāng)?shù)赝诰蚬仓R(shí)數(shù)據(jù)庫(kù)(如維基百科Wikipedia)可以使我們超越這種限制,揭示遙遠(yuǎn)的學(xué)科內(nèi)容元素之間驚人的關(guān)系[14]。這類公共知識(shí)庫(kù)是由人工或?qū)<覙?gòu)建的知識(shí)庫(kù),如維基百科(Wikipedia)、百度百科、概念網(wǎng)(ConceptNet)、詞匯網(wǎng)絡(luò)(Wordnet)等。
(2)以互聯(lián)網(wǎng)資源為基礎(chǔ)的新一代知識(shí)庫(kù)(知識(shí)圖譜)。從蒂姆·伯納斯·李1998年提出語(yǔ)義網(wǎng)至今[15],涌現(xiàn)出大量以互聯(lián)網(wǎng)資源為基礎(chǔ)的新一代知識(shí)庫(kù),這些知識(shí)庫(kù)以“主語(yǔ)、謂語(yǔ)、賓語(yǔ)”三元組的形式表示并儲(chǔ)存了海量對(duì)象的結(jié)構(gòu)化信息[16](見(jiàn)表1)。
(3)領(lǐng)域垂直知識(shí)庫(kù)。垂直領(lǐng)域知識(shí)庫(kù)是針對(duì)某個(gè)學(xué)科領(lǐng)域、某個(gè)行業(yè)或者是某種媒體類型而構(gòu)建的,根據(jù)某個(gè)學(xué)科領(lǐng)域/行業(yè)/媒體類型的數(shù)據(jù)來(lái)構(gòu)建的知識(shí)庫(kù),相比于通用知識(shí)庫(kù),更強(qiáng)調(diào)知識(shí)的深度,其數(shù)據(jù)來(lái)源相對(duì)較窄(國(guó)內(nèi)外代表性的領(lǐng)域垂直知識(shí)庫(kù)見(jiàn)表2)。
除了上述數(shù)據(jù)源外,網(wǎng)絡(luò)上還存在大量的個(gè)人自建的知識(shí)庫(kù)(如利用Trilium建立個(gè)人維基、Baumard等建立的古代文學(xué)小說(shuō)數(shù)據(jù)庫(kù)[18]等),這類知識(shí)庫(kù)數(shù)據(jù)量大、覆蓋面廣且往往是利用網(wǎng)絡(luò)爬蟲(chóng)等技術(shù)來(lái)獲取數(shù)據(jù),因此也可作為網(wǎng)絡(luò)信息學(xué)數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)的數(shù)據(jù)源。
1.3.2? ?網(wǎng)絡(luò)信息學(xué)理論方法技術(shù)
網(wǎng)絡(luò)信息學(xué)的研究,需要采用恰當(dāng)?shù)睦碚撝闻c方法技術(shù),除了網(wǎng)絡(luò)計(jì)量學(xué)的基本理論以及所常用的連接分析法、統(tǒng)計(jì)分析法以及圖論分析法等以外,根據(jù)當(dāng)前國(guó)內(nèi)外研究發(fā)展來(lái)看,方法技術(shù)主要有復(fù)雜網(wǎng)絡(luò)、數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)、深度機(jī)器學(xué)習(xí)以及常用的網(wǎng)絡(luò)大數(shù)據(jù)挖掘與分析工具等。
網(wǎng)絡(luò)信息學(xué)框架下網(wǎng)絡(luò)大數(shù)據(jù)分析的理論方法技術(shù)框架,主要分為四大類(見(jiàn)圖3):一是信息科學(xué)(計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)、信息學(xué)、信息論等),是網(wǎng)絡(luò)信息學(xué)開(kāi)展研究的理論基礎(chǔ)與保障;二是網(wǎng)絡(luò)科學(xué)(復(fù)雜網(wǎng)絡(luò)),自21世紀(jì)以來(lái),隨著可計(jì)算設(shè)備和互聯(lián)網(wǎng)的飛速發(fā)展,人們開(kāi)始收集和處理大規(guī)模的實(shí)際網(wǎng)絡(luò)數(shù)據(jù),涌現(xiàn)出許多基于復(fù)雜網(wǎng)絡(luò)理論的應(yīng)用研究[19-20],復(fù)雜網(wǎng)絡(luò)為洞見(jiàn)網(wǎng)絡(luò)大數(shù)據(jù)之間的復(fù)雜關(guān)系提供了一種系統(tǒng)的、整體的視野;三是數(shù)據(jù)挖掘[21]與知識(shí)發(fā)現(xiàn)[22],基于算法的知識(shí)發(fā)現(xiàn)技術(shù)(在人工智能、信息檢索、數(shù)據(jù)庫(kù)、統(tǒng)計(jì)學(xué)、模糊集和粗糙集理論基礎(chǔ)上發(fā)展起來(lái)的)和基于可視化的知識(shí)發(fā)現(xiàn)技術(shù)(在圖形學(xué)、科學(xué)可視化、和信息可視化的理論基礎(chǔ)上發(fā)展起來(lái)的)實(shí)現(xiàn)了對(duì)海量網(wǎng)絡(luò)信息的挖掘與信息間的聯(lián)系的發(fā)現(xiàn)。其中,人工智能的核心技術(shù)是深度機(jī)器學(xué)習(xí)[23-24],該技術(shù)應(yīng)用于數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn),能夠很好地解釋隱藏在數(shù)據(jù)中極為錯(cuò)綜復(fù)雜的結(jié)構(gòu)或模式,并找出表示數(shù)據(jù)的最佳方式[23];四是網(wǎng)絡(luò)大數(shù)據(jù)挖掘與分析工具,在網(wǎng)絡(luò)信息學(xué)框架下,對(duì)于從事數(shù)據(jù)挖掘與分析的人員來(lái)說(shuō),除了掌握理論方法,還需要學(xué)習(xí)和了解各種類型的數(shù)據(jù)分析與挖掘工具,隨著技術(shù)的愈發(fā)成熟、軟件的迭代,當(dāng)前可以選用帶有不同算法的工具來(lái)進(jìn)行數(shù)據(jù)分析與挖掘(常用的數(shù)據(jù)挖掘與分析工具以及機(jī)器學(xué)習(xí)工具見(jiàn)表3)。需要注意的是,大多數(shù)數(shù)據(jù)挖掘和分析工具或方案以及機(jī)器學(xué)習(xí)工具,都用到了R和Python兩種主要編程語(yǔ)言。
2? ?網(wǎng)絡(luò)信息學(xué)學(xué)科框架下的知識(shí)發(fā)現(xiàn)前沿與進(jìn)展
當(dāng)前,已經(jīng)有很多研究人員基于網(wǎng)絡(luò)大數(shù)據(jù)的挖掘分析來(lái)進(jìn)行知識(shí)發(fā)現(xiàn)研究,網(wǎng)絡(luò)信息學(xué)的提出則為這些實(shí)踐提供了學(xué)科理論基礎(chǔ),并為這些研究找到了學(xué)科歸屬。在網(wǎng)絡(luò)信息學(xué)框架下,這些研究涉及了知識(shí)發(fā)現(xiàn)、識(shí)別、評(píng)價(jià)、預(yù)測(cè)等各個(gè)方面,本節(jié)主要介紹網(wǎng)絡(luò)信息學(xué)學(xué)科框架下,重要跨學(xué)科領(lǐng)域知識(shí)發(fā)現(xiàn)、學(xué)術(shù)影響力與競(jìng)爭(zhēng)力評(píng)價(jià)、重要信息(網(wǎng)絡(luò)輿情、虛假信息、國(guó)家安全情報(bào)等)的監(jiān)測(cè)與識(shí)別以及面向決策咨詢的網(wǎng)絡(luò)大數(shù)據(jù)預(yù)測(cè)分析等方面的知識(shí)發(fā)現(xiàn)研究進(jìn)展。
2.1? ? 重要跨學(xué)科領(lǐng)域知識(shí)發(fā)現(xiàn)
近幾十年來(lái),人們提出了不同的方法來(lái)探究不同學(xué)科領(lǐng)域的知識(shí)聯(lián)系[25-29],但跨學(xué)科研究仍然缺乏在不同學(xué)科之間建立定量聯(lián)系的有效工具。在網(wǎng)絡(luò)信息學(xué)的框架下,適當(dāng)技術(shù)工具地應(yīng)用可能導(dǎo)致隱藏在大數(shù)據(jù)網(wǎng)絡(luò)中的知識(shí)自現(xiàn),不僅可以顯示學(xué)科間的知識(shí)流動(dòng),還可以量化連接不同知識(shí)領(lǐng)域的元素的個(gè)體和集體行為。
Schwartz利用維基百科中的數(shù)據(jù)對(duì)愛(ài)因斯坦(Einstein)和畢加索(Picasso)在20世紀(jì)初的作品之間的關(guān)系,回答了畢加索幾乎在愛(ài)因斯坦發(fā)表相對(duì)論的同時(shí)發(fā)展了立體主義是否是巧合、是否回答了同樣的問(wèn)題、是否受到相同人物/作品的的影響的問(wèn)題[14]。類似的,Baumard等建立了一個(gè)覆蓋3800年、77個(gè)歷史時(shí)期以及19個(gè)地理區(qū)域的古代文學(xué)小說(shuō)數(shù)據(jù)庫(kù)來(lái)研究了愛(ài)情在文化史中的演變,揭示了經(jīng)濟(jì)發(fā)展水平越高,敘事小說(shuō)中的愛(ài)情元素出現(xiàn)頻率就越高的現(xiàn)象[18]。Lai等使用中國(guó)銀聯(lián)支付網(wǎng)絡(luò)的高頻精細(xì)數(shù)據(jù)研究了溫度沖擊對(duì)消費(fèi)的影響,表明溫度與消費(fèi)之間呈倒U型關(guān)系[30]。Yin等使用Overton數(shù)據(jù)集揭示了應(yīng)對(duì)新冠疫情相關(guān)的政策文件占比能反映出病例數(shù)量的變化,提供了科學(xué)研究為政策提供信息的科學(xué)證據(jù)[31]。此外,清華大學(xué)電子系數(shù)據(jù)科學(xué)與智能實(shí)驗(yàn)室聯(lián)合斯坦福大學(xué)、哈佛商學(xué)院等研究機(jī)構(gòu)基于國(guó)內(nèi)社交電商之一的貝店網(wǎng)站(https://beidian.com/)的千萬(wàn)用戶的購(gòu)買(mǎi)數(shù)據(jù)的系列研究,系統(tǒng)揭示了以社交電商為代表的社會(huì)關(guān)系與經(jīng)濟(jì)行為耦合新范式[32-38]。
2.2? ? 學(xué)術(shù)影響力與競(jìng)爭(zhēng)力評(píng)價(jià)
學(xué)術(shù)影響力與競(jìng)爭(zhēng)力體現(xiàn)了科研人員在所屬科研領(lǐng)域中的學(xué)術(shù)地位及其研究成果所具有的科研學(xué)術(shù)價(jià)值,也體現(xiàn)了在被學(xué)術(shù)同行、專家群體外的社會(huì)大眾所認(rèn)知和了解的程度[11]。長(zhǎng)久以來(lái),學(xué)術(shù)界對(duì)于論文質(zhì)量的評(píng)價(jià),往往基于引文提出各類指標(biāo),如引用頻次、h指數(shù)(h-index)和期刊影響因子(journal impact factor,JIF)等,這類指標(biāo)只能提供不完善、不一致且容易操縱的研究質(zhì)量度量,并不能代表論文的質(zhì)量或潛力。當(dāng)前科研成果發(fā)表數(shù)量的激增,使得科研人員需要花費(fèi)大量的時(shí)間尋找有價(jià)值的研究方向,去進(jìn)行更有突破性的研究。
在網(wǎng)絡(luò)信息學(xué)框架下,可以借助機(jī)器學(xué)習(xí)利用多源異構(gòu)更大體量的數(shù)據(jù)去評(píng)價(jià)科研成果的價(jià)值。經(jīng)由機(jī)器學(xué)習(xí),可以綜合利用多個(gè)網(wǎng)絡(luò)的指標(biāo),為研究者指出最新研究中有潛力的那部分,以輔助科技管理決策,從而提升科研決策的效率。Weis和Jacobson利用千萬(wàn)級(jí)別的科技文獻(xiàn)數(shù)據(jù),基于復(fù)雜網(wǎng)絡(luò)模型構(gòu)建了一種機(jī)器學(xué)習(xí)框架——DELPHI模型,可以通過(guò)分析從科技文獻(xiàn)中計(jì)算得到的一系列特征之間的高維關(guān)系來(lái)預(yù)測(cè)未來(lái)可能的“高影響力”研究[39]。Wang等借助科研資助數(shù)據(jù)構(gòu)建了評(píng)估科學(xué)影響力的模型GImpact來(lái)評(píng)估科學(xué)影響力[40]。Wen和Deng基于網(wǎng)絡(luò)大數(shù)據(jù),提出了一種通過(guò)局部信息維度識(shí)別復(fù)雜網(wǎng)絡(luò)中節(jié)點(diǎn)影響力的新方法,實(shí)驗(yàn)結(jié)果表明了該方法的優(yōu)越性,該研究為高效識(shí)別復(fù)雜科研網(wǎng)絡(luò)中有影響力的節(jié)點(diǎn)提供了新的思路[41]。Li等基于Microsoft academic graph中的數(shù)據(jù)構(gòu)建科研合作網(wǎng)絡(luò),研究了科研合作網(wǎng)絡(luò)中個(gè)體研究人員生產(chǎn)力和影響力的網(wǎng)絡(luò)效應(yīng)[42]。
2.3? ? 重要信息的監(jiān)測(cè)與識(shí)別
2.3.1? ?基于深度學(xué)習(xí)的網(wǎng)絡(luò)輿情的檢測(cè)與分析
互聯(lián)網(wǎng)已經(jīng)成為人們?nèi)粘I钪蝎@取信息的重要方式,截至2021年12月,我國(guó)網(wǎng)民規(guī)模為10.32億,人均每周上網(wǎng)時(shí)長(zhǎng)為28.5個(gè)小時(shí)[43]。作為一個(gè)開(kāi)放的平臺(tái),互聯(lián)網(wǎng)也為公眾提供了一個(gè)多元開(kāi)放的輿論環(huán)境,促進(jìn)了公眾輿情觀點(diǎn)表達(dá)以及傳播,積累了海量復(fù)雜的網(wǎng)絡(luò)輿情數(shù)據(jù)。這類數(shù)據(jù)中匯聚了眾多對(duì)社會(huì)發(fā)展有益的觀點(diǎn),也存在著對(duì)社會(huì)穩(wěn)定具有潛在威脅的信息,因此有必要對(duì)網(wǎng)絡(luò)輿情大數(shù)據(jù)進(jìn)行有效檢測(cè)與分析。
越來(lái)越多的證據(jù)表明,人類情感也會(huì)在網(wǎng)絡(luò)社交媒體中傳播,然而這種情緒傳染的潛在機(jī)制在過(guò)去由于很少被研究。隨著社交媒體用戶群體不斷擴(kuò)大,其累計(jì)的數(shù)據(jù)也越來(lái)越龐雜,加之人工智能等技術(shù)的愈發(fā)成熟,對(duì)網(wǎng)絡(luò)用戶情緒的分析引起了研究人員的關(guān)注。許峰和張柳均嘗試設(shè)計(jì)并構(gòu)建情感識(shí)別模型以用于實(shí)際的網(wǎng)絡(luò)大數(shù)據(jù)輿情檢測(cè)與分析[44-45]。Fan等、Hossny等基于社交媒體(微博、推特等)的百萬(wàn)推文研究社交媒體中的弱關(guān)系加劇了憤怒情感的蔓延[46-47]。Xie等建模分析了由1億用戶形成的網(wǎng)絡(luò)結(jié)構(gòu)以及18萬(wàn)多的用戶的傳播行為數(shù)據(jù)并輔以大量推特(Twitter)數(shù)據(jù)。研究發(fā)現(xiàn),社交媒體聲音集中程度和正反饋效應(yīng)都被以往輿情檢測(cè)大大低估,龐大的社交網(wǎng)絡(luò)將進(jìn)一步加劇人們通過(guò)社交媒體表達(dá)觀點(diǎn)的失衡[48]。
新冠肺炎疫情對(duì)人們生活生產(chǎn)的方方面面產(chǎn)生了重要影響,并引發(fā)世界輿論的廣泛關(guān)注,研究網(wǎng)絡(luò)用戶對(duì)于新冠肺炎疫情的態(tài)度及其隨著時(shí)間的變化,有助于政府及時(shí)掌握真實(shí)社會(huì)輿論情況,科學(xué)高效地做好疫情防控宣傳和輿情引導(dǎo)工作,對(duì)此研究人員進(jìn)行了大量的相關(guān)研究。Kruspe等和chandra等均嘗試?yán)米匀徽Z(yǔ)言處理(NLP)和深度學(xué)習(xí)技術(shù),檢測(cè)和分析了新冠大流行期間推特億萬(wàn)的推文所表現(xiàn)出來(lái)的情緒[49-50]。Wang等基于100多個(gè)國(guó)家的6.54億條帶有地理標(biāo)簽的社交媒體帖子開(kāi)發(fā)了一個(gè)表達(dá)情感指數(shù)的全球數(shù)據(jù)集,以跟蹤國(guó)家和國(guó)家以下級(jí)別的日常情感狀態(tài),研究表明社交媒體數(shù)據(jù)與機(jī)器學(xué)習(xí)技術(shù)相結(jié)合時(shí),可以提供對(duì)人們情感狀態(tài)的實(shí)時(shí)測(cè)量[51]。
2.3.2? ?網(wǎng)絡(luò)虛假信息甄別與分析
虛假信息是指向目標(biāo)個(gè)人、群體或國(guó)家傳遞、提供或確認(rèn)的虛假、不完整或誤導(dǎo)信息(RAND,2021)[52],社交媒體和互聯(lián)網(wǎng)的普及以及人工智能、社交機(jī)器人的興起,使得虛假信息能夠以前所未有的速度傳遞給目標(biāo)受眾。2016年美國(guó)大選中,特朗普利用新型社交媒體開(kāi)展競(jìng)選活動(dòng)并獲得勝利使世界開(kāi)始意識(shí)到網(wǎng)絡(luò)虛假信息的嚴(yán)重欺騙性。
在網(wǎng)絡(luò)信息學(xué)的框架下,基于網(wǎng)絡(luò)大數(shù)據(jù)利用人工智能新技術(shù)建立自動(dòng)檢測(cè)框架以快速檢測(cè)和識(shí)別虛假信息、抵制“信息操縱”、防止虛假信息收割民智已經(jīng)引起相關(guān)研究人員高度關(guān)注。Cao等提出了一種基于圖的方法Sybil Rank以識(shí)別社交機(jī)器人進(jìn)而檢測(cè)社交網(wǎng)絡(luò)海量信息中的虛假信息[53]。Wang等、Sharma等都積極探索開(kāi)發(fā)基于深度神經(jīng)網(wǎng)絡(luò)的模型來(lái)從海量網(wǎng)絡(luò)新聞中識(shí)別網(wǎng)絡(luò)虛假信息[54-55]。此外,Shu等利用Buzzfeed和Pllotifact兩個(gè)新聞網(wǎng)站的數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)新聞源以及新聞作者可以成為網(wǎng)絡(luò)新聞可信度監(jiān)測(cè)的一個(gè)有力指標(biāo),該方法可以改進(jìn)傳統(tǒng)以內(nèi)容特征進(jìn)行虛假新聞檢測(cè)的方法[56]。
2017年,一位名叫“Deepfakes”的用戶在美國(guó)Reddit網(wǎng)站上分享了篡改人臉的色情視頻,將深度偽造技術(shù)帶到了大眾面前并引起了研究深度偽造技術(shù)的熱潮,但是深度偽造技術(shù)在帶來(lái)新奇的同時(shí)也帶來(lái)了非常大的隱患,通過(guò)制造虛假視頻、虛假音頻進(jìn)行誣陷、誹謗、詐騙、勒索等違法行為和事例已屢見(jiàn)不鮮[57]。為此,越來(lái)越多的研究者開(kāi)展了深度偽造的音頻、視頻識(shí)別展開(kāi)深入研究,基于 CelebA、FaceForensics、UADFV、WildDeepfake等深度偽造數(shù)據(jù)[58-61],提出識(shí)別檢測(cè)深度偽造信息的方法,如Mo等、Li等、Nguyen等均基于以上數(shù)據(jù)集嘗試通過(guò)深度神經(jīng)網(wǎng)絡(luò)來(lái)檢測(cè)識(shí)別別偽造圖像和視頻[62-64]。
2020年初,世界衛(wèi)生組織(WHO)宣布全球正在陷入信息流行?。↖nfodemic[65])。虛假信息的傳播已對(duì)公共衛(wèi)生和新冠肺炎疫情的成功管控構(gòu)成很大的威脅[66],現(xiàn)在比以往任何時(shí)候都更需要找到方法來(lái)揭穿、糾正以及分析網(wǎng)上的虛假信息。Wang等[54]設(shè)計(jì)并收集了一個(gè)帶不同的注釋的新型冠狀病毒肺炎推特?cái)?shù)據(jù)集,其中包含了可用于檢測(cè)和分析虛假信息的檢測(cè)模型。Gallotti等、Johnson等和張帥等收集了新冠肺炎疫情流行期間社交媒體上的與新冠肺炎疫情有關(guān)的信息,發(fā)現(xiàn)社交網(wǎng)絡(luò)中關(guān)于疫情的信息大多是未經(jīng)驗(yàn)證的、錯(cuò)誤的,且虛假信息的傳播更為分散[67-69]。這些發(fā)現(xiàn)既為有關(guān)部門(mén)治理疫情相關(guān)網(wǎng)絡(luò)虛假信息提供了有益參考,也為相關(guān)平臺(tái)遏制網(wǎng)絡(luò)虛假信息的傳播提供了有效途徑。
2.3.3? ?基于網(wǎng)絡(luò)開(kāi)源信息的國(guó)家安全情報(bào)監(jiān)測(cè)與分析
開(kāi)源情報(bào)(OSINT)是利用對(duì)公開(kāi)數(shù)據(jù)和信息的搜集、處理、分析而成的情報(bào)[70]。開(kāi)源情報(bào)近年來(lái)獲得了相當(dāng)顯著的地位[71-73],其對(duì)一個(gè)國(guó)家的戰(zhàn)略決策、軍事領(lǐng)域、科研活動(dòng)、社會(huì)經(jīng)濟(jì)等都有強(qiáng)大的支持價(jià)值。
基于開(kāi)源的網(wǎng)絡(luò)大數(shù)據(jù),利用人工智能等先進(jìn)的技術(shù)手段監(jiān)測(cè)與分析威脅國(guó)家和社會(huì)安全的情報(bào)也成為了網(wǎng)絡(luò)信息學(xué)研究的一個(gè)熱點(diǎn)。Lindley通過(guò)類比凝膠來(lái)描述人類社交網(wǎng)絡(luò)群體建立了網(wǎng)絡(luò)群體模型以識(shí)別極端恐怖組織,這一研究為檢測(cè)與識(shí)別網(wǎng)絡(luò)信息中存在的威脅國(guó)家、社會(huì)穩(wěn)定與安全的情報(bào)提供了一個(gè)很好的機(jī)制[74]。Dionísio等提出了使用深度神經(jīng)網(wǎng)絡(luò)對(duì)推特(Twitter)進(jìn)行開(kāi)源威脅情報(bào)監(jiān)測(cè)[75]。崔琳等深入分析了威脅情報(bào)挖掘的一百多篇相關(guān)文獻(xiàn),提出了一個(gè)基于網(wǎng)絡(luò)海量信息,挖掘網(wǎng)絡(luò)開(kāi)源威脅情報(bào)的分析框架,集成了多種計(jì)算機(jī)技術(shù)對(duì)多源的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行挖掘與分析,已有絕大部分開(kāi)源威脅情報(bào)挖掘的研究工作都可以納入到該框架中[76]。
2.4? ? 面向決策咨詢的網(wǎng)絡(luò)大數(shù)據(jù)預(yù)測(cè)分析
預(yù)測(cè)是決策的基礎(chǔ),是進(jìn)行科學(xué)決策的前提條件,預(yù)測(cè)為決策服務(wù)。數(shù)據(jù)的核心是“預(yù)測(cè)”,即基于海量數(shù)據(jù)的數(shù)學(xué)運(yùn)算來(lái)“預(yù)測(cè)事物發(fā)生的可能性,從而成為新發(fā)現(xiàn)、新發(fā)明和新服務(wù)可能的源泉[3]。網(wǎng)絡(luò)信息學(xué)框架下,科研人員基于海量的各行業(yè)數(shù)據(jù)(如城市時(shí)空流量數(shù)據(jù)、環(huán)境數(shù)據(jù)、氣候數(shù)據(jù)、移動(dòng)數(shù)據(jù)、科研數(shù)據(jù)、經(jīng)濟(jì)數(shù)據(jù)等),利用深度學(xué)習(xí)等技術(shù)方法,提出了大量的預(yù)測(cè)模型以期為決策提供參考。
隨著城市化進(jìn)程的發(fā)展,基于預(yù)測(cè)的城市規(guī)劃成為城市科學(xué)一個(gè)新型研究熱點(diǎn),Gong等和京東智能城市時(shí)空AI團(tuán)隊(duì)均基于真實(shí)的城市交通流量數(shù)據(jù)構(gòu)建了能夠動(dòng)態(tài)預(yù)測(cè)城市交通流量、區(qū)域客流量的深度神經(jīng)網(wǎng)絡(luò)框架,為城市交通規(guī)劃(如地鐵修建)以及智能城市化應(yīng)用建設(shè)提供了一定的決策參考和前期支撐[77-79]。Verbavatz和Barthelemy基于真實(shí)城市人口數(shù)據(jù),構(gòu)建了一個(gè)能夠精準(zhǔn)預(yù)測(cè)城市人口數(shù)量變化并解釋城市人口分布狀況的數(shù)學(xué)模型,該模型能夠動(dòng)態(tài)地預(yù)測(cè),在一個(gè)較長(zhǎng)的時(shí)間尺度內(nèi),哪些城市可能會(huì)衰敗,又有哪些城市的人口會(huì)增長(zhǎng),對(duì)城市規(guī)劃與城市基礎(chǔ)建設(shè)具有重要的參考意義[80]。
隨著計(jì)算科學(xué)、網(wǎng)絡(luò)科學(xué)和統(tǒng)計(jì)學(xué)在氣候建模和預(yù)測(cè)方面的作用變得越來(lái)越重要,應(yīng)用機(jī)器學(xué)習(xí)研究預(yù)測(cè)氣候問(wèn)題,幫助解決氣候危機(jī)的相關(guān)性已經(jīng)引起科研人員的注意。Amato等基于空間不規(guī)則分布的時(shí)間序列數(shù)據(jù)提出了一種基于深度學(xué)習(xí)的氣候和環(huán)境數(shù)據(jù)時(shí)空預(yù)測(cè)框架[81]。Ludescher等利用歷史上觀察到的火災(zāi)相關(guān)時(shí)空變量提出了一個(gè)機(jī)器學(xué)習(xí)模型來(lái)約束預(yù)測(cè)并揭示森林火災(zāi)增加帶來(lái)的全球社會(huì)經(jīng)濟(jì)風(fēng)險(xiǎn)[82]。Xu等挖掘了近年來(lái)出現(xiàn)的大量人口、土地利用和氣候信息數(shù)據(jù),搜集了過(guò)去幾千年人類生活的氣候條件資料,對(duì)人類氣候宜居帶進(jìn)行了分析和預(yù)測(cè),研究結(jié)果預(yù)言了如果按照當(dāng)今的碳排放軌跡,未來(lái)50年間,會(huì)有35億人的生存由于全球變暖而受到嚴(yán)重威脅[83]。
此外,基于網(wǎng)絡(luò)大數(shù)據(jù)的預(yù)測(cè)也體現(xiàn)在科研合作、科研機(jī)構(gòu)影響力預(yù)測(cè)、商業(yè)分析等方面。Bai等利用Microsoft Academic Graph的數(shù)據(jù),并基于XGBoost模型構(gòu)建了一個(gè)綜合考慮多種因素的新的預(yù)測(cè)模型來(lái)預(yù)測(cè)科研機(jī)構(gòu)的影響力[84]。Filletti和Grech通過(guò)挖掘真實(shí)的財(cái)務(wù)數(shù)據(jù)以及行業(yè)新聞文章報(bào)道提出了一個(gè)用于預(yù)測(cè)公司破產(chǎn)的框架[85]。Bonaventura等通過(guò)由crunchbase提供的1990-2015年期間全世界的創(chuàng)業(yè)公司數(shù)據(jù),構(gòu)建了全球初創(chuàng)企業(yè)之間的關(guān)系網(wǎng)絡(luò)——WWS網(wǎng)絡(luò)。該網(wǎng)絡(luò)對(duì)公司的長(zhǎng)期潛力進(jìn)行無(wú)風(fēng)險(xiǎn)的的評(píng)估,借此模型投資人和政策制定者能夠?qū)?chuàng)業(yè)公司的長(zhǎng)期潛力進(jìn)行更客觀地評(píng)估并進(jìn)行相應(yīng)的干預(yù)措施[86]。
3? ?結(jié)語(yǔ)與展望
3.1? ? 網(wǎng)絡(luò)信息學(xué)發(fā)展總結(jié)
當(dāng)前,大數(shù)據(jù)與計(jì)算機(jī)技術(shù)的融合在情報(bào)學(xué)的應(yīng)用已經(jīng)成為了當(dāng)前情報(bào)學(xué)實(shí)踐發(fā)展方向與發(fā)展趨勢(shì)。網(wǎng)絡(luò)信息學(xué)提出了利用前沿計(jì)算技術(shù)挖掘網(wǎng)絡(luò)大數(shù)據(jù)的方法來(lái)揭示有價(jià)值的知識(shí),為人們從海量網(wǎng)絡(luò)信息中挖掘隱含的知識(shí)提供堅(jiān)實(shí)的理論方法支撐,是網(wǎng)絡(luò)信息研究新范式的支撐學(xué)科,支撐科研人員發(fā)現(xiàn)重要跨學(xué)科知識(shí)、檢測(cè)識(shí)別重要信息和模式、識(shí)別學(xué)科領(lǐng)域研究新興前沿以及創(chuàng)新科研評(píng)價(jià)方式等。
同時(shí),網(wǎng)絡(luò)信息學(xué)借助海量的網(wǎng)絡(luò)信息資源和前沿計(jì)算技術(shù),能夠比較準(zhǔn)確地揭示出客觀事物運(yùn)行中的本質(zhì)聯(lián)系,勾畫(huà)出未來(lái)事物發(fā)展的基本輪廓,使研究者具有戰(zhàn)略眼光,提出各種可以互相替代的發(fā)展方案,使決策有了充分的科學(xué)依據(jù)。
3.2? ? 網(wǎng)絡(luò)信息學(xué)發(fā)展展望
3.2.1? ?網(wǎng)絡(luò)信息學(xué)發(fā)展的關(guān)鍵問(wèn)題
網(wǎng)絡(luò)信息學(xué)的概念才剛提出,正處于學(xué)科發(fā)展的起步階段,在其發(fā)展過(guò)程中必然會(huì)產(chǎn)生諸多難以預(yù)料的問(wèn)題。
首先,保障和控制網(wǎng)絡(luò)大數(shù)據(jù)的數(shù)據(jù)質(zhì)量對(duì)于網(wǎng)絡(luò)信息學(xué)發(fā)展是關(guān)鍵基礎(chǔ),也是迫切需要有效解決的關(guān)鍵問(wèn)題,盡管已有各種研究提出各種模型來(lái)[87-90]來(lái)嘗試控制數(shù)據(jù)質(zhì)量,但是,大數(shù)據(jù)的“5V”特征以及數(shù)據(jù)模式高度復(fù)雜化,導(dǎo)致保證數(shù)據(jù)質(zhì)量暫時(shí)還沒(méi)有非常行之有效的措施;其次,探索開(kāi)發(fā)面向非程序員的技術(shù)門(mén)檻低、通用的、開(kāi)源的大數(shù)據(jù)分析工具,也是網(wǎng)絡(luò)信息學(xué)發(fā)展面臨的關(guān)鍵問(wèn)題。機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等人工智能技術(shù)的應(yīng)用需要一定的計(jì)算機(jī)學(xué)科專業(yè)背景知識(shí),這使得多數(shù)不具備相關(guān)技能的相關(guān)領(lǐng)域的研究人員受困于技術(shù)門(mén)檻,不利于推動(dòng)網(wǎng)絡(luò)信息學(xué)的向前發(fā)展;再次,專業(yè)人才的培養(yǎng)是學(xué)科發(fā)展的關(guān)鍵要素,隨著網(wǎng)絡(luò)大數(shù)據(jù)類型愈加多樣化和立體化、結(jié)構(gòu)和模式愈加復(fù)雜化,對(duì)于網(wǎng)絡(luò)數(shù)據(jù)的挖掘分析會(huì)越來(lái)越依賴于大數(shù)據(jù)挖掘技術(shù)、機(jī)器學(xué)習(xí)等人工智能技術(shù),這對(duì)網(wǎng)絡(luò)信息學(xué)研究人員的能力提出了更高的要求;最后,與專業(yè)領(lǐng)域知識(shí)相融合的網(wǎng)絡(luò)大數(shù)據(jù)的分析才是知識(shí)發(fā)現(xiàn)的前提,網(wǎng)絡(luò)信息學(xué)作為一種方法和工具性學(xué)科,其必須應(yīng)用到有關(guān)的專門(mén)專業(yè)領(lǐng)域中的數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn)。因此,從學(xué)科和領(lǐng)域等專業(yè)角度出發(fā),合理且最大化地利用專業(yè)知識(shí)解釋大數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,是網(wǎng)絡(luò)大數(shù)據(jù)充分發(fā)揮價(jià)值的前提,也是網(wǎng)絡(luò)信息學(xué)發(fā)展應(yīng)用的關(guān)鍵環(huán)節(jié)。
3.2.2? ?網(wǎng)絡(luò)信息學(xué)發(fā)展前瞻
網(wǎng)絡(luò)信息學(xué)以網(wǎng)絡(luò)大數(shù)據(jù)為數(shù)據(jù)基礎(chǔ),是網(wǎng)絡(luò)信息研究新范式的支撐學(xué)科。隨著實(shí)踐的不斷深入,未來(lái),網(wǎng)絡(luò)信息學(xué)的理論框架、方法工具、應(yīng)用領(lǐng)域、人才隊(duì)伍都將快速且持續(xù)的發(fā)展完善。
一是網(wǎng)絡(luò)信息學(xué)或成為信息學(xué)的領(lǐng)頭學(xué)科。網(wǎng)絡(luò)信息學(xué)學(xué)科作為一門(mén)工具型學(xué)科,網(wǎng)絡(luò)信息理論方法與技術(shù)工具可以移植到其它的專門(mén)領(lǐng)域?qū)W科信息學(xué)中為其所用,助力其發(fā)展;二是網(wǎng)絡(luò)大數(shù)據(jù)知識(shí)庫(kù)將蓬勃發(fā)展,大數(shù)據(jù)的“5V”特征使得有必要對(duì)網(wǎng)絡(luò)信息和知識(shí)進(jìn)行實(shí)時(shí)動(dòng)態(tài)的大規(guī)模的收集和整理,將某類網(wǎng)絡(luò)大數(shù)據(jù)通過(guò)組織使之成為不斷動(dòng)態(tài)更新的網(wǎng)絡(luò)大數(shù)據(jù)知識(shí)庫(kù);三是網(wǎng)絡(luò)大數(shù)據(jù)挖掘的相應(yīng)技術(shù)與工具不斷開(kāi)發(fā),未來(lái),在網(wǎng)絡(luò)大數(shù)據(jù)分析的強(qiáng)勁需求驅(qū)動(dòng)下,需要開(kāi)發(fā)專門(mén)的、技術(shù)門(mén)檻低的網(wǎng)絡(luò)信息學(xué)專門(mén)技術(shù)工具以支撐網(wǎng)絡(luò)信息學(xué)的研究人員更好地開(kāi)展研究;四是網(wǎng)絡(luò)信息學(xué)研究應(yīng)用領(lǐng)域?qū)⒖焖贁U(kuò)展,海量的網(wǎng)絡(luò)數(shù)據(jù)迅速引起了各個(gè)領(lǐng)域科學(xué)研究的重視,幾乎各個(gè)領(lǐng)域行業(yè)都需要更寬廣的視野和長(zhǎng)久的策略以全面應(yīng)對(duì)網(wǎng)絡(luò)大數(shù)據(jù)時(shí)代研究的挑戰(zhàn),即挖掘、計(jì)算、分析各領(lǐng)域的海量的網(wǎng)絡(luò)數(shù)據(jù),以發(fā)現(xiàn)隱藏在數(shù)據(jù)中的新的模式,而這些均屬于網(wǎng)絡(luò)信息學(xué)的學(xué)科范疇;五是網(wǎng)絡(luò)信息學(xué)“高、精、?!比瞬抨?duì)伍的培養(yǎng),要促進(jìn)網(wǎng)絡(luò)信息學(xué)的發(fā)展和應(yīng)用,未來(lái)需要建設(shè)一個(gè)全面、多維、兼顧理論與技術(shù)的網(wǎng)絡(luò)信息學(xué)教育體系,培養(yǎng)既掌握扎實(shí)的相關(guān)多學(xué)科的理論知識(shí),又精通大數(shù)據(jù)挖掘技術(shù)、人工智能技術(shù)的網(wǎng)絡(luò)信息學(xué)專業(yè)分析人才。
參考文獻(xiàn):
[1]? Bechini A,Marcelloni F,Segatori A.A MapReduce solution for associative classification of big data[J].Information Sciences,2016,332:33-55.
[2]? 邱均平,鄺玉林.人工智能對(duì)“五計(jì)學(xué)”的影響研究——以網(wǎng)絡(luò)計(jì)量學(xué)為例[J].圖書(shū)館理論與實(shí)踐,2020(6):17-22.
[3]? 張志強(qiáng),范少萍.論學(xué)科信息學(xué)的興起與發(fā)展[J].情報(bào)學(xué)報(bào),2015,34(10):1011-1023.
[4]? Almind V C,Ingwersen V P.Informetric analyses on the world wide web:methodological approaches to‘webometrics[J].Journal of Documentation,1997,53(4):404-426.
[5]? 夏旭.高屋建瓴 臻于至善——《網(wǎng)絡(luò)計(jì)量學(xué)》評(píng)介[J].圖書(shū)情報(bào)知識(shí),2012(3):125-129.
[6]? 趙蓉英,張心源,張揚(yáng),等.我國(guó)“五計(jì)學(xué)”演化過(guò)程及其進(jìn)展研究[J].圖書(shū)情報(bào)工作,2018,62(13):127-138.
[7]? 徐久齡,劉春茂,劉亞軒.網(wǎng)絡(luò)計(jì)量學(xué)的研究[J].情報(bào)學(xué)進(jìn)展,1998.
[8]? 邱均平,陳敬全.網(wǎng)絡(luò)信息計(jì)量學(xué)及其應(yīng)用研究[J].情報(bào)理論與實(shí)踐,2001(3):161-163.
[9]? 邱均平.網(wǎng)絡(luò)計(jì)量學(xué)[M].北京:科學(xué)出版社,2010.
[10]? 趙蓉英,郭鳳嬌,譚潔.基于Altmetrics的學(xué)術(shù)論文影響力評(píng)價(jià)研究——以漢語(yǔ)言文學(xué)學(xué)科為例[J].中國(guó)圖書(shū)館學(xué)報(bào),2016,42(1):96-108.
[11]? 蘇令銀.大數(shù)據(jù)時(shí)代的小數(shù)據(jù)會(huì)消亡嗎[J].探索與爭(zhēng)鳴,2019(7):74-84,158.
[12]? 邱均平.“文獻(xiàn)計(jì)量學(xué)”定義的發(fā)展[J].情報(bào)雜志,1988(4):45-47,31.
[13]? Schwartz G A.Complex networks reveal emergent interdisciplinary knowledge in Wikipedia[J].Humanities and Social Sciences Communications,2021,8(1):1-6.
[14]? Anastasia Analyti,Nicolas Spyratos,Panos Constantopoulos.On the Semantics of a Semantic Network[J].Fundamenta Informaticae,1998,36(2-3):109-144.
[15]? Saxena A,Tripathi A,Talukdar P.Improving Multi-hop Question Answering over Knowledge Graphs using Knowledge Base Embeddings[A].Proceedings of the 58th annual meeting of the association for computational linguistics[C].2020:4498-4507.
[16]? 王志春,李邦祺,李凱曼,等.全球通信光纜知識(shí)圖譜構(gòu)建及應(yīng)用[J].北京師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2021,57(6):883-887.
[17]? Baumard N,Huillery E,Hyafil A,et al.The cultural evolution of love in literary history[J].Nature Human Behaviour,2022,6(4):506-522.
[18]? Watts D J,Strogatz S H.Collective dynamics of 'small-world' networks[J].Nature,1998,393(6684):440-442.
[19]? Barabási A L,Albert R,Jeong H.Mean-field theory for scale-free random networks[J].Physica A,1999,272(1):173-187.
[20]? Frawley W J,Piatetsky-Shapiro G.Knowledge Discovery in Databases: An Overview.Cambridge[M].MIT Press,1991.
[21]? Usama M.Fayyad,Gregory Piatetsky-Shapiro,Padhraic Smyth.From Data Mining to Knowledge Discovery in Databases[J].AI Magazine,1996,17(3):37
[22]? 王大順,(匈牙利)艾伯特-拉斯洛·巴拉巴西.賈韜,汪小帆,譯.給科學(xué)家的科學(xué)思維[M].天津:天津科學(xué)技術(shù)出版社,2021.
[23]? Arel I,Rose D,C Karnowski,et al.Deep Machine Learning-A New Frontier in Artificial Intelligence Research[J].IEEE computational intelligence magazine,2010,5(4):13-18.
[24]? 劉清堂,吳林靜,黃煥.網(wǎng)絡(luò)資源聚合研究綜述[J].情報(bào)科學(xué),2015,33(10):154-161.
[25]? 韓金廷.基于社會(huì)網(wǎng)絡(luò)分析的科研合著研究[D].長(zhǎng)沙:國(guó)防科學(xué)技術(shù)大學(xué),2016.
[26]? 沈思,李成名,吳鵬.基于時(shí)態(tài)語(yǔ)義的Web信息檢索實(shí)踐進(jìn)展與研究綜述[J].中國(guó)圖書(shū)館學(xué)報(bào),2018,44(4):109-129.
[27]? Xujian Zhao,Peiquan Jin,Lihua Yue.Discovering topic time from web news[J].Information Processing and Management,2015(6):869-890.
[28]? Mostafa Keikha,F(xiàn)abio Crestani.Linguistic aggregation methods in blog retrieval[J].Information Processing and Management,2012,48(3):467-475.
[29]? Lai W,Li S,Liu Y,et al.Adaptation mitigates the negative effect of temperature shocks on household consumption[J].Nature Human Behaviour,2022(6):837-846.
[30]? Yin Y,Gao J,Jones B F,et al.Coevolution of policy and science during the pandemic[J].Science,2021,371:6525(128-130).
[31]? Cao H,Chen Z,Cheng M,et al.You Recommend,I Buy:How and Why People Engage in Instant Messaging Based Social Commerce[C].In Proceedings of the ACM on Human-Computer Interaction 5.CSCW1,2021:1-25.
[32]? Cao H,Chen Z,Xu F,et al.When Your Friends Become Sellers:An Empirical Study of Social Commerce Site Beidian[C].In Proceedings of the International AAAI Conference on Web and Social Media,2020(14):83-94.
[33]? Cao Q,Sirivianos M,Yang X,et al. Aiding the Detection of Fake Accounts in Large Scale Social Online Services[C].Proceedings of the 9th USENIX conference on Networked Systems Design and Implementation(NSDI'12),2012:15.
[34]? Xu F,Han Z,Piao J,et al.“I Think Youll Like It”Modelling the Online Purchase Behavior in Social E-Commerce[C].Proceedings of the ACM on Human-Computer Interaction 3.CSCW,2019:1-23.
[35]? Xu F,Lian J,Han Z,et al.Relation-Aware Graph Convo-lutional Networks for Agent-Initiated Social E-Commerce Recommendation[C].Proceedings of the 28th ACM International Conference on Information and Knowledge Management,2019:529-538.
[36]? Xu F,Zhang G,Yuan Y,et al. Understanding the Invitation Acceptance in Agent-Initiated Social E-Commerce[C].Proceedings of the International AAAI Conference on Web and Social Media,2021(5):820-829.
[37]? Chen Z,Cao H,Lan X,et al.Beyond Virtual Bazaar:How Social Commerce Promotes Inclusivity for the Traditionally Underserved Community in Chinese Developing Regions[C].Proceedings of the 2022 CHI Conference on Human Factors in Computing Systems,2022:1-15.
[38]? Weis J W,Jacobson Joseph M.Learning on knowledge graph dynamics provides an early warning of impactful research[J].Nature biotechnology,2021,39(10):1300-1307.
[39]? Wang Y,Long Y,Tu L,et al.Delivering Scientific Influence Analysis as a Service on Research Grants Repository[J/OL].[2022-06-19].https://arxiv.org/pdf/1908.08715.pdf.
[40]? Wen T,Deng Y. Identification of influencers in complex networks by local information dimension[J/OL].[2022-06-19].https://arxiv.org/pdf/1908.11298.pdf.
[41]? Li W,Zhang S,Zheng Z,et al.Untangling the network effects of productivity and prominence among scientists[J].Nat Commun ,2022(13):4907.
[42]? 中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC).第49次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[EB/OL].[2022-06-20].https://www.cauc.edu.cn/jsjxy/upfiles/202203/20220318171634656.
[43]? 許峰.基于深度學(xué)習(xí)的網(wǎng)絡(luò)輿情識(shí)別研究[D].北京:北京郵電大學(xué),2019.
[44]? 張柳.社交網(wǎng)絡(luò)輿情用戶主題圖譜構(gòu)建及輿情引導(dǎo)策略研究[D].長(zhǎng)春:吉林大學(xué),2021.
[45]? Fan R,Xu K,Zhao J.Weak ties strengthen anger contagion in social media[J].arxiv preprint arxiv:2005.01924,2020.
[46]? Hossny,Ahmad Hany,Lewis Mitchell.Event Detection in Twitter:A Keyword Volume Approach[A].2018 IEEE International Conference on Data Mining Workshops(ICDMW)[C].2018:1200-1208.
[47]? Xie J,Meng F,Sun J,et al.Detecting and modelling real percolation and phase transitions of information on social media[J].Nature Human Behaviour,2021,5(9):1161-1168.
[48]? Kruspe A,Hberle M,Zhu X.Cross-language sentim-ent analysis of European Twitter messages during the COVID-19 pandemic[EB/OL].[2022-06-17].https://aclanthology.org/2020.nl pcovid19-acl.14.pdf.
[49]? Sukhwal P C,Kankanhalli A.Determining containment policy impacts on public sentiment during the pandemic using social media data[J].Proceedings of the National Academy of Sciences of the United States of America,2022,119(19):e211
7292119.
[50]? Wang J H,F(xiàn)an Y C,Palacios Juan,et al.Global evidence of expressed sentiment alterations during the COVID-19 pandemic[J].Nature human behaviour,2022,6(3):349-358.
[51]? RAND Corporation.Combating Foreign Disinformation on Social Media[EB/OL].[2022-06-23].https://www.rand.org/paf/projects/combating-foreign-disinformation.html.
[52]? Cao Q,Sirivianos M,Yang X,et al.Aiding the Detection of Fake Accounts in Large Scale Social Online Services[C].Proceedings of the 9th USENIX conference on Networked Systems Design and Implementation (NSDI'12),2012:197-210.
[53]? Wang Y,Ma F,Jin Z,et al.EANN:Event Adversarial Neural Networks for Multi-Modal Fake News Detection[C].KDD18:Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining,2018:849-857.
[54]? Sharma K,F(xiàn)errara E,Liu Y.Identifying Coordinated Accounts in Disinformation Campaigns[J].2020.
[55]? Shu,K,Wang S,Lee D,et al.Mining Disinformation and Fake News:Concepts,Methods,and Recent Advancements[J].Disinformation,misinformation,and fake news in social media:Emerging research challenges and opportunities,2020:1-19.
[56]? 清華大學(xué)人工智能研究院,北京瑞萊智慧科技有限公司,清華大學(xué)智媒研究中心.深度合成十大趨勢(shì)報(bào)告[EB/OL].[2022-06-17].http://www.chuangze.cn/third_down.asp?Txtid=4762.
[57]? Liu Z W,Luo P,Wang X G,et al.Deep Learning Face Attributes in the Wild[C].Praeedings of the IEEE intermational conference on computer vision,2015:3730-3738.
[58]? Rssler A,Cozzolino D,Verdoliva L,et al. FaceForensics:a large -scale video dataset for forgery detection in human faces[J].arxiv preprint arxiv:1803.09179,2018.
[59]? Yang X,Li Y,Lyu S.Exposing Deep Fakes Using Inconsistent Head Poses[C].ICASSP 2019-2019 IEEE International Conference on Acoustics,Speech and Signal Processing,2019:8261-8265.
[60]? Zi B,Chang M,Chen J.WildDeepfake:A Challenging Real-World Dataset for Deepfake Detection[C].Proceedings of the 28th ACM international conference on multimedia,2020:2382-2390.
[61]? Mo H X,Chen B L,Luo W Q.Fake Faces Identification via Convolutional Neural Network[P].Information Hiding and Multimedia Security,2018.
[62]? Li L,Bao J,Zhang T,et al.Face X-ray for more general face forgery detection[C].Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2020:5001-5010.
[63]? Nguyen H H,Tieu N D T,Nguyen-Son H Q,et al.Modular Convolutional Neural Network for Discriminating between Computer-Gener ated Images and Photographic Images[C].Proceedings of the 13th International Conference on Availability,Reliability and Security,2018:1-10.
[64]? Chiolero Arnaud.How infodemic intoxicates public health surveillance:from a big to a slow data culture[J].Journal of epidemiology and community health,2022,76(6):623-625.
[65]? van der Linden Sander.Misinformation:susceptibility,spread,and interventions to immunize the public[J].Nature medicine,2022,28(3):460-467.
[66]? Gallotti Riccardo,Valle Francesco,Castaldo Nicola,et al.Assessing the risks of‘infodemicsin response to COVID-19 epidemics[J].Nature human behaviour,2020,4(12):1285-1293.
[67]? Johnson N F,Velásquez N,Restrepo N J,et al.The online competition between pro-and anti-vaccination views[J].Nature,2020(582):230-233.
[68]? 張帥,劉運(yùn)梅,司湘云.信息疫情下網(wǎng)絡(luò)虛假信息的傳播特征及演化規(guī)律[J].情報(bào)理論與實(shí)踐,2021,44(8):112-118.
[69]? 劉昊,張志強(qiáng),武瑞敏.建設(shè)適應(yīng)科技競(jìng)爭(zhēng)與國(guó)家安全的科技情報(bào)發(fā)展體系[J].圖書(shū)與情報(bào),2022(1):39-48.
[70]? 馬海群.專題導(dǎo)語(yǔ):開(kāi)源情報(bào)的高價(jià)值——聚沙成塔、匯流成海[J].現(xiàn)代情報(bào),2022,42(1):4.
[71]? 白云,李白楊,王施運(yùn).面向新型跨境網(wǎng)絡(luò)有組織犯罪的開(kāi)源情報(bào)獲取與利用方法[J].信息資源管理學(xué)報(bào),2022,12(2):65-75.
[72]? Rai B K,Verma R,Tiwari S.Using Open Source Intelligence as a Tool for Reliable Web Searching[J].SN Computer Science,2021,2(5):402.
[73]? Lindley D.Identifying early signs of online extremist groups[J].Physics,2018,11:76.
[74]? Dionísio N,Alves F,F(xiàn)erreira P M,et al.Cyberthreat Detection from Twitter using Deep Neural Networks[C].2019 International Joint Conference on Neural Networks(IJCNN),2019:1-8.
[75]? 崔琳,楊黎斌,何清林,等.基于開(kāi)源信息平臺(tái)的威脅情報(bào)挖掘綜述[J].信息安全學(xué)報(bào),2022,7(1):1-26.
[76]? Gong Y,Li Z,Zhang J,et al.Potential Passenger Flow Prediction:A Novel Study for Urban Transportation Development[C].Proceedings of the AAAI Conference on Artificial Intelligence,2020,34(4):4020-4027.
[77]? Zhang X,Huang C,Xu Y,et al.Traffic Flow Forecasting with Spatial-Temporal Graph Diffusion Network[C].Proceedings of the AAAI comference on artificial intelligence,2021,35(17):15008-15015.
[78]? Qin H,Ke S,Yang X,et al.Robust Spatio-Temporal Purchase Prediction via Deep Meta Learning[C].Proceedings of the AAAI comference on Artificial intelligence,2021,35(5):4312-4319.
[79]? Verbavatz V,Barthelemy M.The growth equation of cities[J].Nature,2020,587(7834):397-401.
[80]? Amato F,Guignard F,Robert S. A novel framework for spatio-temporal prediction of environmental data using deep learning[J].Scientific reports,2020,10(1):22243.
[81]? Ludescher J,Martin M,Boers N,et al.Network-based forecasting of climate phenomena[J].Proceedings of the National Academy of Sciences,2021,118(47):e1922872118.
[82]? Xu C,Kohler T A,Lenton T M,et al.Future of the human climate niche[J].Proceedings of the National Academy of Sciences of the United States of America,2020,117(21):1350-1355.
[83]? Filletti M,Grech A.Using News Articles and Financial Data to predict the likelihood of bankruptcy[J].arxiv Preprint.arxiv:2003.13414.2020.
[84]? Bonaventura M,Ciotti V,Panzarasa P.Predicting success in the worldwide start-up network[J].Scientific reports,2020,10(1):345.
[85]? 汪應(yīng)洛,黃偉,朱志祥.大數(shù)據(jù)產(chǎn)業(yè)及管理問(wèn)題的一些初步思考[J].科技促進(jìn)發(fā)展,2014(1):15-19.
[86]? Taleb I,Serhani M A,Dssouli R.Big Data Quality:A Survey[C].2018 IEEE International Congress on Big Data(Big Data Congress),2018:166-173.
[87]? 劉冰,龐琳.國(guó)內(nèi)外大數(shù)據(jù)質(zhì)量研究述評(píng)[J].情報(bào)學(xué)報(bào),2019,38(2):217-226.
[88]? Merino J,Caballero I,Rivas B,et al.A data quality in use modelfor big data[J].Future Generation Computer Systems,2016(63):123-130.
作者簡(jiǎn)介:武瑞敏(1997-),女,中國(guó)科學(xué)院成都文獻(xiàn)情報(bào)中心博士研究生,研究方向:情報(bào)理論方法與應(yīng)用、學(xué)科信息學(xué)與學(xué)科知識(shí)發(fā)現(xiàn);張志強(qiáng)(1964-),男,中國(guó)科學(xué)院成都文獻(xiàn)情報(bào)中心研究員,博士生導(dǎo)師,研究方向:學(xué)科信息學(xué)與學(xué)科知識(shí)發(fā)現(xiàn)、科技政策與管理、科技戰(zhàn)略與規(guī)劃、情報(bào)理論方法與應(yīng)用、科學(xué)計(jì)量與科技評(píng)價(jià)。