国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

開源數(shù)據(jù)的質(zhì)量評(píng)估指標(biāo)體系研究*

2023-09-22 09:34陳天瑩
信息安全與通信保密 2023年7期
關(guān)鍵詞:樣例新鮮度字段

李 霄,陳天瑩

(中國(guó)電子科技集團(tuán)公司第三十研究所,四川 成都 610041)

0 引 言

開源數(shù)據(jù)是指在開放環(huán)境下,通過(guò)合法方法從公開資料中獲取的數(shù)據(jù),數(shù)據(jù)可被任何人自由訪問(wèn)、重復(fù)使用與共享,沒有版權(quán)、專利或其他限制。

隨著互聯(lián)網(wǎng)、大數(shù)據(jù)技術(shù)的快速發(fā)展,網(wǎng)絡(luò)環(huán)境中的開源數(shù)據(jù)量井噴式增長(zhǎng),占據(jù)數(shù)據(jù)體量的95%。開源數(shù)據(jù)具備類型多樣、及時(shí)性、開放性、海量多維等特點(diǎn),為開源數(shù)據(jù)的深度分析與挖掘提供了堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。但是開源數(shù)據(jù)的多源異構(gòu)、無(wú)組織管理、碎片化等特點(diǎn),讓人們無(wú)法對(duì)數(shù)據(jù)進(jìn)行多維度評(píng)估,使得數(shù)據(jù)本身的不確定性、欺騙性等問(wèn)題尤為突出,給網(wǎng)絡(luò)安全威脅檢測(cè)、網(wǎng)絡(luò)攻擊溯源、重大公共事件處置等帶來(lái)了嚴(yán)峻挑戰(zhàn)。

當(dāng)前,開源數(shù)據(jù)主要面臨的質(zhì)量問(wèn)題如下:

(1)缺乏開源數(shù)據(jù)質(zhì)量評(píng)估體系。業(yè)界主要從通用質(zhì)量評(píng)估角度,考慮數(shù)據(jù)的完整性、一致性、及時(shí)性和準(zhǔn)確性等方面的質(zhì)量,忽略了開源數(shù)據(jù)的不確定性、欺騙性等特點(diǎn),未形成開源數(shù)據(jù)完整的質(zhì)量評(píng)估體系。

(2)數(shù)據(jù)質(zhì)量問(wèn)題識(shí)別困難。大數(shù)據(jù)環(huán)境下,開源數(shù)據(jù)來(lái)源多樣、數(shù)據(jù)源規(guī)格不統(tǒng)一,導(dǎo)致數(shù)據(jù)的元數(shù)據(jù)描述及理解錯(cuò)誤、數(shù)據(jù)真假難辨,數(shù)據(jù)質(zhì)量問(wèn)題難以識(shí)別。

(3)數(shù)據(jù)質(zhì)量評(píng)估效果難以量化。開源數(shù)據(jù)質(zhì)量問(wèn)題不盡相同,不同質(zhì)量維度在其整體效果評(píng)估中權(quán)重不同,很難用數(shù)值進(jìn)行多維度量化。

(4)數(shù)據(jù)質(zhì)量問(wèn)題無(wú)法有效閉環(huán),溯源困難。業(yè)內(nèi)的數(shù)據(jù)質(zhì)量評(píng)估流程是通過(guò)定義數(shù)據(jù)質(zhì)量規(guī)則,發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問(wèn)題并告警,但未對(duì)質(zhì)量問(wèn)題進(jìn)行持續(xù)跟蹤、閉環(huán)與回溯,無(wú)法形成良性循環(huán),提升整體數(shù)據(jù)質(zhì)量。

本文研究開源數(shù)據(jù)質(zhì)量評(píng)估體系,構(gòu)建全面實(shí)用的開源數(shù)據(jù)質(zhì)量維度、評(píng)估理論、跟蹤方法,幫助增加開源數(shù)據(jù)的實(shí)效性、完整性、關(guān)聯(lián)性,為開源數(shù)據(jù)分析與使用提供堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ),支撐輿情監(jiān)測(cè)、威脅分析和網(wǎng)絡(luò)安全態(tài)勢(shì)感知等業(yè)務(wù)應(yīng)用。

1 國(guó)內(nèi)外現(xiàn)狀

開源數(shù)據(jù)質(zhì)量評(píng)估是指對(duì)開源數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行評(píng)估和驗(yàn)證,以確保其準(zhǔn)確性、完整性和一致性。國(guó)內(nèi)學(xué)術(shù)界在開源數(shù)據(jù)質(zhì)量評(píng)估方面的研究相對(duì)較少,大部分研究還停留在數(shù)據(jù)質(zhì)量評(píng)估框架和方法的探討階段。例如:2019 年,鄒培等人[1]借鑒全面質(zhì)量管理原則與情境關(guān)聯(lián)思路,針對(duì)開源數(shù)據(jù)本身具有的領(lǐng)域特征,提出了基于過(guò)程、情境關(guān)聯(lián)和領(lǐng)域知識(shí)集成三位一體的開源數(shù)據(jù)評(píng)估模式,并以實(shí)際案例對(duì)此模式的實(shí)施進(jìn)行具體闡述;2020 年,李曉彤[2]針對(duì)數(shù)據(jù)質(zhì)量水平參差不齊,重創(chuàng)造輕管理、重?cái)?shù)量輕質(zhì)量、重開放輕利用的問(wèn)題,分析了國(guó)內(nèi)外數(shù)據(jù)質(zhì)量評(píng)價(jià)框架并構(gòu)建數(shù)據(jù)質(zhì)量評(píng)價(jià)框架;2022 年,汪春播等人[3]提出基于元數(shù)據(jù)的開放政府?dāng)?shù)據(jù)質(zhì)量自動(dòng)評(píng)估系統(tǒng),研究基于元數(shù)據(jù)的林業(yè)開放政府?dāng)?shù)據(jù)質(zhì)量的自動(dòng)獲取、實(shí)時(shí)監(jiān)測(cè)和定期評(píng)估,為一般性開放政府?dāng)?shù)據(jù)質(zhì)量評(píng)估提供借鑒和參考。

在國(guó)外,開源數(shù)據(jù)已經(jīng)成為一個(gè)戰(zhàn)略性的數(shù)據(jù)資源,對(duì)開源數(shù)據(jù)質(zhì)量評(píng)估的研究比較豐富。例如:2016 年,Ackerman 等人[4]對(duì)經(jīng)常用于社會(huì)科學(xué)分析的開源事件數(shù)據(jù)集的來(lái)源和可信度進(jìn)行評(píng)估與分析,他們開發(fā)了一個(gè)樣本來(lái)源評(píng)估模式,目的是在案例、來(lái)源和變量層面對(duì)開源事件數(shù)據(jù)的有效性進(jìn)行測(cè)量;2016 年,Van Schalkwyk 等人[5]考慮了開放數(shù)據(jù)的供應(yīng)、需求和使用,表明開源數(shù)據(jù)有可能改善大學(xué)作為公共機(jī)構(gòu)的管理方法。2018 年,Monika 等人[6]研究了鏈接開源數(shù)據(jù)領(lǐng)域的質(zhì)量評(píng)估方法;2018 年,Blasio 等人[7]研究了法國(guó)、意大利和英國(guó)的政府開源數(shù)據(jù)領(lǐng)域的質(zhì)量評(píng)估理論;2021 年,?libar等人[8]闡述了開源數(shù)據(jù)質(zhì)量評(píng)估的重要性,對(duì)與開源數(shù)據(jù)相關(guān)的研究論文中使用的數(shù)據(jù)質(zhì)量維度、子維度和度量進(jìn)行了概述,同時(shí)列舉了多個(gè)領(lǐng)域的開源數(shù)據(jù)評(píng)估研究方法。

綜上可知,開源數(shù)據(jù)質(zhì)量是數(shù)據(jù)分析挖掘的基礎(chǔ),如何結(jié)合開源數(shù)據(jù)特征,探索開源數(shù)據(jù)質(zhì)量評(píng)估體系、評(píng)估流程,提升開源數(shù)據(jù)質(zhì)量,為開源數(shù)據(jù)的分析挖掘提供可靠性高、準(zhǔn)確度高的數(shù)據(jù)基礎(chǔ),是開源數(shù)據(jù)工程亟須解決的問(wèn)題。

2 開源數(shù)據(jù)質(zhì)量評(píng)估體系

開源數(shù)據(jù)質(zhì)量評(píng)估體系是開源數(shù)據(jù)質(zhì)量評(píng)估能夠落地的前提。從開源數(shù)據(jù)特征、數(shù)據(jù)內(nèi)容、效能作用等角度出發(fā),構(gòu)建開源數(shù)據(jù)質(zhì)量檢測(cè)指標(biāo)和評(píng)估體系,滿足不同的數(shù)據(jù)質(zhì)量評(píng)估需求。數(shù)據(jù)質(zhì)量評(píng)估體系包括數(shù)據(jù)置信度評(píng)估、數(shù)據(jù)核查評(píng)估、數(shù)據(jù)價(jià)值度評(píng)估、數(shù)據(jù)綜合質(zhì)量評(píng)估和專采數(shù)據(jù)核準(zhǔn)5 大類型,由數(shù)據(jù)及時(shí)性、數(shù)據(jù)完整性、數(shù)據(jù)波動(dòng)性、數(shù)據(jù)唯一性、數(shù)據(jù)規(guī)范性、數(shù)據(jù)使用度、數(shù)據(jù)缺失性、數(shù)據(jù)相似性、數(shù)據(jù)新鮮度、數(shù)據(jù)覆蓋度10 個(gè)維度組成,通過(guò)多維度組合完成相應(yīng)的質(zhì)量評(píng)估。開源數(shù)據(jù)質(zhì)量評(píng)估體系如圖1 所示。

圖1 開源數(shù)據(jù)質(zhì)量評(píng)估體系

2.1 開源數(shù)據(jù)質(zhì)量評(píng)估體系

開源數(shù)據(jù)質(zhì)量評(píng)估體系基于質(zhì)量檢測(cè)指標(biāo),面向網(wǎng)絡(luò)威脅檢測(cè)、威脅溯源分析、重大事件真假研判、重要目標(biāo)畫像生成等不同的應(yīng)用場(chǎng)景,形成數(shù)據(jù)置信度評(píng)估、數(shù)據(jù)核查評(píng)估、數(shù)據(jù)價(jià)值度評(píng)估、數(shù)據(jù)綜合質(zhì)量評(píng)估和專采數(shù)據(jù)核準(zhǔn)5 大類型。

2.1.1 數(shù)據(jù)置信度評(píng)估

數(shù)據(jù)置信度評(píng)估主要針對(duì)開源數(shù)據(jù)來(lái)源多、類型龐雜、數(shù)據(jù)內(nèi)容沖突等因素引起的數(shù)據(jù)真實(shí)性、可用性等問(wèn)題,結(jié)合數(shù)據(jù)缺失度、數(shù)據(jù)規(guī)范性、數(shù)據(jù)新鮮度、多源數(shù)據(jù)間的相似性等維度,構(gòu)建數(shù)據(jù)置信度模型,計(jì)算數(shù)據(jù)置信度。

2.1.2 數(shù)據(jù)核查評(píng)估

數(shù)據(jù)核查評(píng)估主要是對(duì)上級(jí)機(jī)關(guān)下發(fā)的數(shù)據(jù)清單以及業(yè)務(wù)部門提出的數(shù)據(jù)需求進(jìn)行存量數(shù)據(jù)的核查與評(píng)估。數(shù)據(jù)核查評(píng)估通過(guò)構(gòu)建存量數(shù)據(jù)的“數(shù)據(jù)指紋”結(jié)合數(shù)據(jù)缺失性、完整性、新鮮度、相似性、及時(shí)性等維度,對(duì)開源數(shù)據(jù)進(jìn)行監(jiān)測(cè),生成數(shù)據(jù)核查評(píng)估分析結(jié)果。

2.1.3 數(shù)據(jù)價(jià)值度評(píng)估

數(shù)據(jù)價(jià)值度評(píng)估主要是在數(shù)據(jù)服務(wù)選擇階段和數(shù)據(jù)使用階段對(duì)數(shù)據(jù)價(jià)值進(jìn)行評(píng)估。其中,數(shù)據(jù)服務(wù)選擇階段主要是為用戶提供數(shù)據(jù)的對(duì)比,智能化、多維度地評(píng)估最優(yōu)質(zhì)量數(shù)據(jù),為數(shù)據(jù)選擇提供決策依據(jù),確保獲取或者購(gòu)買開源數(shù)據(jù)服務(wù)達(dá)到最優(yōu)。一般采用鏡像開源樣例數(shù)據(jù),從覆蓋度、新鮮度、規(guī)范性、完整性、及時(shí)性、唯一性等維度與存量數(shù)據(jù)比對(duì),綜合評(píng)價(jià)價(jià)值度;數(shù)據(jù)使用階段主要是為用戶梳理存量數(shù)據(jù)資源的使用情況,確保數(shù)據(jù)資源最優(yōu)的服務(wù)與業(yè)務(wù)分析工作的支撐,一般采用接口、共享庫(kù)兩種方式,深度分析數(shù)據(jù)的使用頻率、使用范圍、使用者等,構(gòu)建綜合評(píng)價(jià)模型,生成數(shù)據(jù)的使用價(jià)值度評(píng)估分析結(jié)果。

2.1.4 數(shù)據(jù)綜合質(zhì)量評(píng)估

數(shù)據(jù)綜合質(zhì)量評(píng)估提供通用的數(shù)據(jù)質(zhì)量評(píng)估模型,可設(shè)置每類數(shù)據(jù)的不同質(zhì)量檢測(cè)指標(biāo)的權(quán)重,生成數(shù)據(jù)綜合質(zhì)量評(píng)估模型,得到綜合質(zhì)量評(píng)分。

2.1.5 專采數(shù)據(jù)核準(zhǔn)

專采數(shù)據(jù)核準(zhǔn)主要面向網(wǎng)絡(luò)安全的特殊業(yè)務(wù)要求,例如,對(duì)特定數(shù)據(jù)項(xiàng)進(jìn)行高頻開源數(shù)據(jù)采集,實(shí)時(shí)檢測(cè)數(shù)據(jù)是否按照采集要求來(lái)進(jìn)行數(shù)據(jù)采集,確保業(yè)務(wù)所需開源數(shù)據(jù)的高可用性和正確性。

2.2 開源數(shù)據(jù)多維質(zhì)量檢測(cè)指標(biāo)構(gòu)建

開源數(shù)據(jù)多維質(zhì)量檢測(cè)指標(biāo)在全國(guó)信息技術(shù)標(biāo)準(zhǔn)化技術(shù)委員會(huì)的數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)指導(dǎo)下,在規(guī)范性、完整性、準(zhǔn)確性、一致性、及時(shí)性等維度的基礎(chǔ)上,結(jié)合開源數(shù)據(jù)的特征,擴(kuò)充缺失度、新鮮度、唯一性、波動(dòng)性和使用度,形成全面、多維的指標(biāo)檢測(cè)體系。

2.2.1 數(shù)據(jù)及時(shí)性

數(shù)據(jù)及時(shí)性是指開源數(shù)據(jù)的產(chǎn)生、傳遞、處理等過(guò)程的時(shí)效。主要從數(shù)據(jù)采集及時(shí)性、數(shù)據(jù)入庫(kù)及時(shí)性、數(shù)據(jù)推送及時(shí)性以及數(shù)據(jù)治理及時(shí)性4 個(gè)方面來(lái)評(píng)估數(shù)據(jù)的及時(shí)性,涵蓋了數(shù)據(jù)的產(chǎn)生、采集、推送、存儲(chǔ)、治理全生命周期的評(píng)估。

2.2.2 數(shù)據(jù)完整性

數(shù)據(jù)完整性是按照數(shù)據(jù)規(guī)則要求,數(shù)據(jù)元素被賦予數(shù)值的程度。主要包括數(shù)據(jù)空置率、數(shù)據(jù)字段完整度、數(shù)據(jù)內(nèi)容完整度。其中,數(shù)據(jù)空置率是開源數(shù)據(jù)字段為空所占該類型數(shù)據(jù)整體的比例;數(shù)據(jù)字段完整度是開源數(shù)據(jù)字段與原有數(shù)據(jù)字段的數(shù)量是否一致,是否存在新增字段或原來(lái)不存在的字段;數(shù)據(jù)內(nèi)容完整度是指數(shù)據(jù)字段的內(nèi)容是否與字段本身的類型和含義一致。

2.2.3 數(shù)據(jù)波動(dòng)性

數(shù)據(jù)波動(dòng)性是指開源數(shù)據(jù)在一定時(shí)間范圍內(nèi)的變化情況。主要包括數(shù)據(jù)分類波動(dòng)性和字段波動(dòng)性。其中,數(shù)據(jù)分類波動(dòng)性是指統(tǒng)計(jì)某一類型數(shù)據(jù)的數(shù)據(jù)采集量、采集頻率及采集周期的變化情況;字段波動(dòng)性是指統(tǒng)計(jì)某一類型數(shù)據(jù)的某些字段的數(shù)據(jù)采集量、采集頻率及采集周期的變化情況。

2.2.4 數(shù)據(jù)唯一性

數(shù)據(jù)唯一性是指開源數(shù)據(jù)內(nèi)容和含義的唯一性。主要包括數(shù)據(jù)重復(fù)率和字段一致性。其中,數(shù)據(jù)重復(fù)率是指同一數(shù)據(jù)源、同一類型的數(shù)據(jù)及字段的重復(fù)比例;字段一致性是指數(shù)據(jù)內(nèi)容與字段的含義存在沖突或相同內(nèi)容的字段的數(shù)據(jù)含義存在歧義。

2.2.5 數(shù)據(jù)規(guī)范性

數(shù)據(jù)規(guī)范性是指數(shù)據(jù)符合數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)模型、業(yè)務(wù)規(guī)則、元數(shù)據(jù)或權(quán)威參考數(shù)據(jù)的程度。主要包括文件數(shù)據(jù)接入規(guī)范性、數(shù)據(jù)流接入規(guī)范性、數(shù)據(jù)庫(kù)接入規(guī)范性。其中,文件數(shù)據(jù)接入規(guī)范性是指文件接入過(guò)程中的各類規(guī)范性問(wèn)題檢測(cè),如文件系統(tǒng)連接失敗、文件讀取失敗、文件目錄為空、文件格式錯(cuò)誤等;數(shù)據(jù)流接入規(guī)范性是指數(shù)據(jù)流接入過(guò)程中的各類規(guī)范性問(wèn)題,如消息中間件連接失敗、獲取topic 失敗、topic 配置異常等;數(shù)據(jù)庫(kù)接入規(guī)范性是指數(shù)據(jù)庫(kù)接入過(guò)程中的各類規(guī)范性問(wèn)題,如數(shù)據(jù)庫(kù)連接失敗、字段獲取失敗、數(shù)據(jù)寫入失敗等。

2.2.6 數(shù)據(jù)使用度

數(shù)據(jù)使用度是指根據(jù)數(shù)據(jù)的使用頻度來(lái)衡量數(shù)據(jù)的使用價(jià)值。數(shù)據(jù)使用度需要借助數(shù)據(jù)接口或者數(shù)據(jù)使用日志分析的方式進(jìn)行使用度檢測(cè)。

2.2.7 數(shù)據(jù)缺失性

數(shù)據(jù)缺失性是指結(jié)合歷史數(shù)據(jù)評(píng)價(jià)樣例數(shù)據(jù)的缺失情況。主要包括字段缺失性和數(shù)據(jù)內(nèi)容缺失性。其中,字段缺失性是對(duì)比樣例數(shù)據(jù)和歷史數(shù)據(jù)的字段項(xiàng)是否存在缺失的情況;數(shù)據(jù)內(nèi)容缺失性是對(duì)比樣例數(shù)據(jù)和歷史數(shù)據(jù)的內(nèi)容是否存在缺失的情況。

2.2.8 數(shù)據(jù)相似性

數(shù)據(jù)相似性是指樣例數(shù)據(jù)與歷史數(shù)據(jù)的相似程度。主要包括字段相似性和數(shù)據(jù)內(nèi)容相似性。其中,字段相似性是指樣例數(shù)據(jù)和歷史數(shù)據(jù)的字段之間的相似程度;數(shù)據(jù)內(nèi)容相似性是指樣例數(shù)據(jù)和歷史數(shù)據(jù)的內(nèi)容之間的相似程度。

2.2.9 數(shù)據(jù)新鮮度

數(shù)據(jù)新鮮度是指樣例數(shù)據(jù)與歷史數(shù)據(jù)產(chǎn)生事件的比較。主要包括時(shí)間新鮮度和內(nèi)容新鮮度。其中,時(shí)間新鮮度是對(duì)比樣例數(shù)據(jù)和歷史數(shù)據(jù)的產(chǎn)生時(shí)間,判斷樣例數(shù)據(jù)的時(shí)間是否晚于歷史數(shù)據(jù);內(nèi)容新鮮度是對(duì)比樣例數(shù)據(jù)和歷史數(shù)據(jù)的內(nèi)容,判斷樣例數(shù)據(jù)的內(nèi)容是否比歷史數(shù)據(jù)豐富。

2.2.10 數(shù)據(jù)覆蓋度

數(shù)據(jù)覆蓋度是指計(jì)算樣例數(shù)據(jù)內(nèi)容覆蓋歷史數(shù)據(jù)的程度。

3 開源數(shù)據(jù)質(zhì)量評(píng)估流程

開源數(shù)據(jù)質(zhì)量評(píng)估流程是在開源數(shù)據(jù)評(píng)估體系的基礎(chǔ)上,通過(guò)開源數(shù)據(jù)源配置、多維數(shù)據(jù)質(zhì)量檢測(cè)模型配置、數(shù)據(jù)質(zhì)量評(píng)估模型配置、數(shù)據(jù)質(zhì)量跟蹤與閉環(huán)、結(jié)果反饋與優(yōu)化等流程,實(shí)現(xiàn)開源數(shù)據(jù)質(zhì)量評(píng)估體系落地。主要流程如圖2 所示。

圖2 開源數(shù)據(jù)質(zhì)量評(píng)估流程

(1)開源數(shù)據(jù)源配置。配置開源數(shù)據(jù)源的基礎(chǔ)信息,實(shí)現(xiàn)實(shí)時(shí)、離線與文件類數(shù)據(jù)源的接入,自動(dòng)對(duì)數(shù)據(jù)源進(jìn)行語(yǔ)義分析,提取數(shù)據(jù)指紋。

(2)多維數(shù)據(jù)質(zhì)量檢測(cè)模型配置?;跀?shù)據(jù)質(zhì)量原子級(jí)指標(biāo),結(jié)合不同網(wǎng)絡(luò)安全業(yè)務(wù)需求,構(gòu)建適用于不同業(yè)務(wù)的數(shù)據(jù)質(zhì)量檢測(cè)模型。

(3)數(shù)據(jù)質(zhì)量評(píng)估模型配置?;陂_源數(shù)據(jù)質(zhì)量評(píng)估的安全業(yè)務(wù)需求,組合不同的數(shù)據(jù)質(zhì)量檢測(cè)維度,形成數(shù)據(jù)核查評(píng)估、數(shù)據(jù)價(jià)值度評(píng)估、數(shù)據(jù)綜合質(zhì)量評(píng)估、數(shù)據(jù)置信度評(píng)估和專采數(shù)據(jù)核準(zhǔn)等不同類型的質(zhì)量評(píng)估模型。

(4)數(shù)據(jù)質(zhì)量跟蹤與閉環(huán)。依據(jù)策略或規(guī)則自動(dòng)檢測(cè)數(shù)據(jù)質(zhì)量問(wèn)題,實(shí)時(shí)告警,持續(xù)對(duì)數(shù)據(jù)質(zhì)量問(wèn)題進(jìn)行跟蹤與閉環(huán),綜合評(píng)估數(shù)據(jù)質(zhì)量,為數(shù)據(jù)質(zhì)量打分,并自動(dòng)生成數(shù)據(jù)質(zhì)量報(bào)告。

(5)結(jié)果反饋與優(yōu)化。為數(shù)據(jù)使用各環(huán)節(jié)提供質(zhì)量結(jié)果,系統(tǒng)依據(jù)結(jié)果反饋,設(shè)備自動(dòng)對(duì)數(shù)據(jù)質(zhì)量評(píng)估結(jié)果進(jìn)行動(dòng)態(tài)計(jì)算,優(yōu)化數(shù)據(jù)質(zhì)量評(píng)估效果。

4 結(jié) 語(yǔ)

目前,我國(guó)的開源數(shù)據(jù)質(zhì)量研究尚處于初級(jí)階段,在理論、方法和技術(shù)上還需深入地探索和突破。生成式大模型作為新一代的人工智能技術(shù),數(shù)據(jù)主要來(lái)源于開源數(shù)據(jù),一旦數(shù)據(jù)存在錯(cuò)誤,就會(huì)導(dǎo)致大模型輸出的準(zhǔn)確性和公正性存在偏差,帶來(lái)大量的虛假信息,嚴(yán)重干擾分析、研判和處置結(jié)果。因此,亟須將大數(shù)據(jù)、人工智能與開源數(shù)據(jù)質(zhì)量評(píng)估體系深度結(jié)合,提升開源數(shù)據(jù)的質(zhì)量,使其真正成為網(wǎng)絡(luò)安全積極防御的倍增器。

猜你喜歡
樣例新鮮度字段
圖書館中文圖書編目外包數(shù)據(jù)質(zhì)量控制分析
樣例呈現(xiàn)方式對(duì)概念訓(xùn)練類別表征的影響
“樣例教學(xué)”在小學(xué)高年級(jí)數(shù)學(xué)中的應(yīng)用
CNMARC304字段和314字段責(zé)任附注方式解析
基于樣例學(xué)習(xí)研究的幾點(diǎn)展望
無(wú)正題名文獻(xiàn)著錄方法評(píng)述
基于TTI的冷鮮羊肉新鮮度研究
不同新鮮度金槍魚肉蒸煮品質(zhì)的研究
幾種魚體新鮮度快速檢測(cè)方法的研究進(jìn)展
樣例教學(xué)法回歸課堂教學(xué)之新認(rèn)識(shí)
日土县| 江口县| 阿图什市| 临朐县| 桐乡市| 蓝田县| 平邑县| 陕西省| 武穴市| 读书| 章丘市| 沙田区| 清水河县| 木兰县| 沅江市| 丽江市| 奎屯市| 琼中| 广西| 都匀市| 霍城县| 德保县| 高青县| 宁晋县| 万山特区| 苍山县| 宁武县| 大足县| 吉林市| 汝南县| 科尔| 栾城县| 永修县| 庄浪县| 卢龙县| 大悟县| 册亨县| 区。| 武鸣县| 长沙县| 中牟县|