国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于用戶畫像的檔案信息資源共享平臺安全策略研究

2022-02-11 08:08:14黃小淋安林昊
北京檔案 2022年1期
關(guān)鍵詞:用戶畫像共享平臺檔案信息

黃小淋 安林昊

摘要:本文論述了構(gòu)建用戶畫像的流程及如何根據(jù)用戶畫像設(shè)置風(fēng)險(xiǎn)預(yù)警,建議檔案館基于用戶畫像,構(gòu)建以保護(hù)用戶隱私為基礎(chǔ)的服務(wù)理念、以數(shù)據(jù)為導(dǎo)向的反饋優(yōu)化機(jī)制、以技術(shù)為支撐的創(chuàng)新策略迭代機(jī)制,從而組合成共享平臺安全策略,實(shí)現(xiàn)檔案用戶對檔案信息資源的安全、有效利用。

關(guān)鍵詞:用戶畫像 檔案信息 共享平臺 安全策略

2021年,中共中央辦公廳、國務(wù)院辦公廳印發(fā)的《“十四五”全國檔案事業(yè)發(fā)展規(guī)劃》對檔案安全體系建設(shè)做出了明確要求,強(qiáng)調(diào)提升檔案數(shù)字資源安全管理能力,要從檔案信息安全和軟硬件環(huán)境安全保障、風(fēng)險(xiǎn)管理和應(yīng)急處置等多個方面,筑牢檔案服務(wù)利用的安全防線。隨著各類檔案館信息資源共享平臺等共享資源基礎(chǔ)設(shè)施的建設(shè),平臺安全策略的有效配置將是保障檔案資源處于安全利用環(huán)境下的一道防線。本文提出利用用戶畫像技術(shù),在搜集、分析用戶利用檔案的類別、頻次等行為信息的基礎(chǔ)上,整合多維度用戶行為特征,抽象出構(gòu)成復(fù)雜的、標(biāo)簽化的用戶模型,[1]從而有效識別普通檔案用戶利用特征,并對不正常的利用行為進(jìn)行預(yù)警。

基于用戶畫像的安全策略構(gòu)建思路是按照時間、業(yè)務(wù)等維度,關(guān)聯(lián)主體行為狀態(tài),將用戶屬性轉(zhuǎn)換為計(jì)算機(jī)可識別的、可理解的、可處理的數(shù)據(jù)格式,對用戶行為實(shí)施精準(zhǔn)、實(shí)時的統(tǒng)計(jì)與審計(jì),設(shè)計(jì)分析邏輯并推斷出非正常狀態(tài),從而實(shí)現(xiàn)預(yù)警功能。因此,用戶畫像的生成需要經(jīng)過以下三個步驟:檔案用戶行為分析與數(shù)據(jù)采集、構(gòu)建檔案用戶標(biāo)簽、檔案用戶畫像可視化呈現(xiàn)。

(一)檔案用戶行為分析與數(shù)據(jù)采集

檔案用戶行為是用戶在自身產(chǎn)生檔案信息資源需求基礎(chǔ)上做出的使用檔案信息資源服務(wù)平臺獲得信息資源的意愿,以及由此引起的各種使用活動的總和。通常來說,不同類別檔案用戶產(chǎn)生的用戶行為不同,因此我們需區(qū)別分析。如查檔用戶行為主要是查詢、瀏覽、下載、打印等,服務(wù)利用接待人員行為主要是查詢、瀏覽、授權(quán)、下載、打印等,檔案部門領(lǐng)導(dǎo)行為則是在上述行為基礎(chǔ)上加入審批、管理等行為。基于以上行為分析,用戶數(shù)據(jù)采集類別一般可總結(jié)為兩類:用戶靜態(tài)數(shù)據(jù)與用戶動態(tài)數(shù)據(jù)。用戶靜態(tài)數(shù)據(jù)統(tǒng)計(jì)來源于數(shù)據(jù)庫中用戶的注冊信息,動態(tài)數(shù)據(jù)則來源于用戶查詢、利用檔案時多節(jié)點(diǎn)產(chǎn)生的行為數(shù)據(jù)。系統(tǒng)會實(shí)時對用戶靜態(tài)數(shù)據(jù)及動態(tài)數(shù)據(jù)進(jìn)行采集、統(tǒng)計(jì),而后基于用戶的基本屬性和行為數(shù)據(jù)將用戶畫像標(biāo)簽化,以建立用戶標(biāo)簽體系。

平臺對用戶注冊信息及網(wǎng)頁日志數(shù)據(jù)進(jìn)行采集后,通常需對數(shù)據(jù)進(jìn)行預(yù)處理,通過標(biāo)準(zhǔn)化配置對數(shù)據(jù)源進(jìn)行類型劃分,從而將日志格式進(jìn)行統(tǒng)一轉(zhuǎn)化、分類,并根據(jù)劃分后的數(shù)據(jù)類型進(jìn)行過濾、歸并、補(bǔ)全等操作,形成結(jié)構(gòu)化數(shù)據(jù),以完成數(shù)據(jù)篩選及特征抽取工作。這里的常用方法包括統(tǒng)計(jì)分析、文本挖掘( TFIDF、LDA)、分類聚類計(jì)算(神經(jīng)網(wǎng)絡(luò)、K-means)等。檔案用戶畫像數(shù)據(jù)結(jié)構(gòu)圖如圖1所示。

(二)構(gòu)建檔案用戶標(biāo)簽

這一步驟是指在收集用戶數(shù)據(jù)的基礎(chǔ)上,基于用戶行為邏輯,建立用戶屬性維度,通過對屬性內(nèi)容的組合進(jìn)行建模,刻畫用戶異常行為模型,從而生成用戶標(biāo)簽,實(shí)現(xiàn)檔案用戶異常行為的識別。

1.檔案用戶畫像模型。檔案用戶在應(yīng)用檔案信息服務(wù)平臺過程中,將產(chǎn)生用戶基本信息數(shù)據(jù)和行為數(shù)據(jù)。由于平臺用戶人員類別不同,這里所產(chǎn)生的行為數(shù)據(jù)通常具有較大差別。因此,平臺需對不同用戶角色的行為數(shù)據(jù)進(jìn)行區(qū)別分析?;诖?,本文提出從用戶基礎(chǔ)屬性維度、角色屬性維度及行為屬性維度,構(gòu)建檔案用戶模型。

對于基礎(chǔ)屬性維度項(xiàng)數(shù)據(jù),我們可通過用戶注冊信息表進(jìn)行抽取,抽取元素通常包含用戶姓名、單位、預(yù)授權(quán)限、查檔需求(目的)等數(shù)據(jù)內(nèi)容。對于角色屬性維度項(xiàng)數(shù)據(jù),我們主要根據(jù)用戶在注冊時所填寫的人員所屬類別得到,比如部門領(lǐng)導(dǎo)、服務(wù)利用接待人員、查檔用戶等。對于行為屬性維度項(xiàng)數(shù)據(jù),我們可通過對用戶日志中產(chǎn)生的動態(tài)半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行挖掘而獲得,[2]比如檔案敏感詞查詢、點(diǎn)擊、瀏覽閱讀時間等數(shù)據(jù)。

2.生成檔案用戶標(biāo)簽。檔案用戶標(biāo)簽包含用戶正常行為、用戶非正常行為兩種標(biāo)簽。檔案用戶標(biāo)簽生成流程如圖2所示,重點(diǎn)在模型層。在模型層,平臺采用孤立森林(iForest)等機(jī)器學(xué)習(xí)算法,挖掘異常數(shù)據(jù),對用戶行為過程進(jìn)行概率分析,進(jìn)行訓(xùn)練數(shù)據(jù)的學(xué)習(xí)模型訓(xùn)練,生成訓(xùn)練模型。而后,平臺通過對測試模型中用戶行為特征的匹配、篩選、識別用戶異常行為,判定是否符合測試模型行為,進(jìn)而生成檔案用戶標(biāo)簽。

(三)檔案用戶畫像可視化呈現(xiàn)

進(jìn)行檔案用戶畫像可視化呈現(xiàn),是為了更生動地展示和分析用戶行為。這一步驟是在提取用戶標(biāo)簽數(shù)據(jù)后,利用數(shù)據(jù)可視化技術(shù),通過直方圖、雷達(dá)圖等統(tǒng)計(jì)圖形及多維度多層級標(biāo)簽,直觀地以動態(tài)圖譜形式展示出用戶畫像和模型驗(yàn)證的對應(yīng)結(jié)果。在用戶畫像管理模塊,管理人員可根據(jù)近期預(yù)警情況和用戶反饋情況,優(yōu)化數(shù)據(jù)搜集類別及分析結(jié)果的排序、展現(xiàn)方式,實(shí)現(xiàn)圖譜展示內(nèi)容的自定義調(diào)整和完善。用戶畫像管理模塊可包含用戶訪問記錄展示、用戶行為統(tǒng)計(jì)分析界面、行為特征庫提取界面、異常行為報(bào)警界面等。[3]

(一)檔案用戶風(fēng)險(xiǎn)行為

由于不同類型的檔案用戶在平臺上的檔案利用行為有所區(qū)別,因此平臺對用戶風(fēng)險(xiǎn)行為的判斷應(yīng)與角色屬性識別相結(jié)合。例如,部門領(lǐng)導(dǎo)通常做審批工作居多,具體查檔工作相比較于服務(wù)利用接待人員較少,若某段時間,部門領(lǐng)導(dǎo)查檔頻次多、頻率極高,則可能產(chǎn)生風(fēng)險(xiǎn)行為;服務(wù)利用接待人員若在工作時間外進(jìn)行查檔的在線時間超過設(shè)定時間范圍,則可能產(chǎn)生風(fēng)險(xiǎn)行為;所有檔案用戶查詢敏感詞數(shù)量及頻次較高,例如30分鐘內(nèi)查詢敏感詞次數(shù)超過5次等,或是反饋評價內(nèi)容情感表現(xiàn)負(fù)面程度較深、使用敏感詞匯較多,則可能產(chǎn)生風(fēng)險(xiǎn)行為。

在風(fēng)險(xiǎn)行為分析過程中,平臺應(yīng)加入聚類分析方法,對比待分析用戶的行為是否偏離具有相同角色的用戶整體的行為,以減少異常檢測中虛警過高的問題,從而在相同用戶角色的角度進(jìn)一步分析異常行為,提高異常判斷的置信度。另外,平臺可結(jié)合百度AI開放平臺情感傾向分析接口(BaiduNLP)進(jìn)行用戶評價的情感分析,判斷用戶情緒風(fēng)險(xiǎn);還可利用華為云內(nèi)容檢測語料庫對敏感詞庫進(jìn)行擴(kuò)充,[4]并標(biāo)記敏感詞權(quán)重,以權(quán)重降序記錄權(quán)重較高敏感詞出現(xiàn)的頻率。

(二)根據(jù)風(fēng)險(xiǎn)行為設(shè)置風(fēng)險(xiǎn)預(yù)警

平臺應(yīng)根據(jù)異常行為次數(shù)與用戶角色屬性中業(yè)務(wù)節(jié)點(diǎn)維度的屬性閾值偏離程度、異常行為權(quán)重排序等異常行為事件與異常事件規(guī)則的匹配度來判定是否屬于異常行為,并進(jìn)行風(fēng)險(xiǎn)預(yù)警。

平臺根據(jù)異常的程度,記錄異常情況的影響性排序,對于容易產(chǎn)生重大不良影響的行為,判定為高風(fēng)險(xiǎn)行為,給予實(shí)時警告,并限制用戶暫時訪問平臺,待平臺管理人員審核,做出解除限制或繼續(xù)限制的操作,再恢復(fù)或永久限制用戶權(quán)限。對于用戶的一般敏感情形,平臺可判定為低風(fēng)險(xiǎn)行為,記錄用戶行為信息,并提示平臺管理人員審核、判定用戶行為后,進(jìn)行手動處理。平臺技術(shù)人員應(yīng)定期對風(fēng)險(xiǎn)預(yù)警數(shù)據(jù)進(jìn)行模型分析,并將該模型作為機(jī)器學(xué)習(xí)的數(shù)據(jù)源。

(一)構(gòu)建以保護(hù)用戶隱私為基礎(chǔ)的服務(wù)理念

平臺數(shù)據(jù)及運(yùn)行的安全,是保障檔案數(shù)據(jù)資源能夠被有效利用和精準(zhǔn)為用戶服務(wù)的基礎(chǔ)。基于用戶畫像構(gòu)建安全策略需要檔案館通過平臺深度掌握用戶動向,構(gòu)建檔案利用態(tài)勢展示平臺,用于動態(tài)展示利用數(shù)據(jù)、監(jiān)控用戶訪問和利用行為,但在用戶畫像數(shù)據(jù)抽取、分析等一系列過程中,很容易造成用戶隱私數(shù)據(jù)的泄露。因此,檔案館一是應(yīng)當(dāng)加強(qiáng)對用戶數(shù)據(jù)的維護(hù),避免數(shù)據(jù)的流失、損壞、泄露,配套建立相關(guān)的用戶數(shù)據(jù)隱私保護(hù)法規(guī)體系,識別技術(shù)應(yīng)用的算法風(fēng)險(xiǎn),規(guī)范算法應(yīng)用行為,[5]在用戶畫像建模過程中融入隱私保護(hù)相關(guān)技術(shù),如通過進(jìn)行用戶數(shù)據(jù)脫敏、建立隱藏式標(biāo)簽等方式實(shí)現(xiàn)用戶敏感數(shù)據(jù)隱藏[6];二是應(yīng)當(dāng)注重提高檔案工作人員的職業(yè)道德素養(yǎng)。在構(gòu)建及利用檔案用戶畫像過程中,平臺管理及相關(guān)專業(yè)技術(shù)人員通常是用戶數(shù)據(jù)的“知曉者”“處理者”和“監(jiān)管者”,因此增強(qiáng)檔案工作人員的安全保密意識,使其養(yǎng)成良好的工作行為習(xí)慣尤為必要。對于此,檔案館可定期組織或參與行業(yè)內(nèi)有關(guān)檔案職業(yè)道德和職業(yè)素養(yǎng)的培訓(xùn),并進(jìn)行相關(guān)考核,依法懲處竊取隱私的行為,全力保障檔案用戶數(shù)據(jù)的內(nèi)部使用安全,[7]營造健康、可靠的檔案資源共享環(huán)境。

(二)以數(shù)據(jù)為導(dǎo)向建立反饋優(yōu)化機(jī)制

不同階段的用戶行為數(shù)據(jù)常常出現(xiàn)不同特征。例如,在建黨百年之際,用戶查詢、利用黨史相關(guān)檔案資料的數(shù)量會激增,一些非正常利用者可能會借此數(shù)據(jù)量激增時機(jī),獲取敏感檔案資料,檔案館應(yīng)當(dāng)定期借助反饋機(jī)制全面監(jiān)測、分析用戶行為變化趨勢,對不同階段的用戶行為數(shù)據(jù)進(jìn)行分析對比,及時調(diào)整數(shù)據(jù)搜集維度,優(yōu)化用戶畫像本體模型,不斷完善用戶畫像標(biāo)簽類別和內(nèi)容。

檔案館在構(gòu)建“獲取數(shù)據(jù)、察覺問題、提交反饋、優(yōu)化模型”的用戶畫像優(yōu)化反饋機(jī)制時,可以突破各類平臺安全防御壁壘,避免用戶“鉆空子”的查詢行為,同時也能為安全策略優(yōu)化升級提供有效向?qū)А?/p>

(三)以技術(shù)為支撐創(chuàng)新策略迭代機(jī)制

策略的生成通常不是一次性的過程,而需通過長期的積累和不斷地更新迭代。[8]從用戶畫像數(shù)據(jù)分析來看,數(shù)據(jù)包含初始數(shù)據(jù)和增量數(shù)據(jù)兩種類型,初始數(shù)據(jù)通常可能會出現(xiàn)無效、不規(guī)律、不具備規(guī)模數(shù)量的情況,而策略在實(shí)現(xiàn)過程中需要對大量數(shù)據(jù)進(jìn)行聚類,采用迭代方式對不斷更新的增量數(shù)據(jù)進(jìn)行自動學(xué)習(xí),從而發(fā)現(xiàn)各類信息峰谷值,并將這些信息作為策略生成的主要依據(jù)。因此,在迭代學(xué)習(xí)過程中,策略會被不斷更新,當(dāng)策略被管理人員檢測為高命中率的策略時,該策略可成為生效或成為優(yōu)化策略的一類。

用戶畫像策略的構(gòu)建不僅需要運(yùn)用有效、合適的算法進(jìn)行聚類等計(jì)算,更要依靠大數(shù)據(jù)等技術(shù)的支持,來實(shí)現(xiàn)關(guān)聯(lián)數(shù)據(jù)等的分析。傳統(tǒng)上基于用戶畫像的分析技術(shù)主要包括以Python技術(shù)為主的數(shù)據(jù)挖掘技術(shù)、以神經(jīng)網(wǎng)絡(luò)模型等算法為主的數(shù)據(jù)分析技術(shù)等。隨著人工智能的發(fā)展,“AI機(jī)器學(xué)習(xí)”等算法不斷被應(yīng)用于個性化推薦等領(lǐng)域,因此,通過應(yīng)用AI技術(shù)不斷學(xué)習(xí)、優(yōu)化用戶畫像模型,學(xué)習(xí)和推斷用戶行為,可作為檔案信息資源共享平臺安全策略研究內(nèi)容的新方向。

近年來,檔案信息資源共享平臺發(fā)展迅速,但目前國內(nèi)所擁有的技術(shù)、設(shè)備還依然有很大的改進(jìn)空間。此外,隨著大數(shù)據(jù)時代的發(fā)展,網(wǎng)絡(luò)、人員失泄密事件時有發(fā)生,人員教育主動性及其安全意識還未達(dá)到標(biāo)準(zhǔn)要求,檔案資源開放、共享還存在著一定的安全風(fēng)險(xiǎn)。為此,參與檔案信息資源平臺建設(shè)的各方人員務(wù)必在已有條件的基礎(chǔ)上樹立安全、責(zé)任意識,不斷總結(jié)經(jīng)驗(yàn),謀求合理、可行的安全策略,[9]為檔案信息資源的共享保駕護(hù)航。

注釋及參考文獻(xiàn):

[1]趙晨陽,苗立俐,李萌.用戶畫像技術(shù)在用電安全服務(wù)中的應(yīng)用[J].大眾用電,2019, 34(3):16-17.

[2]許鵬程,畢強(qiáng),張晗,等.數(shù)據(jù)驅(qū)動下數(shù)字圖書館用戶畫像模型構(gòu)建[J].圖書情報(bào)工作, 2019(3):30-37.

[3]雷璟.用戶行為特征提取及安全預(yù)警建模技術(shù)[J].中國電子科學(xué)研究院學(xué)報(bào),2019, 14(4):368-372.

[4]金燕,孫佳佳.基于用戶畫像的UGC質(zhì)量預(yù)判模型[J].情報(bào)理論與實(shí)踐,2019,42(10):77-83.

[5]于英香,李雨欣.“AI+檔案”應(yīng)用的算法風(fēng)險(xiǎn)與治理路徑探析[J].北京檔案,2021(10):5-9.

[6]蘇君華,邵亞偉,姜璐.用戶畫像運(yùn)用于檔案館精準(zhǔn)服務(wù):現(xiàn)狀,業(yè)務(wù)流程及策略[J].檔案學(xué)研究, 2020(6):94-98.

[7]周林興,徐承來,周麗.用戶畫像視域下檔案用戶隱私問題研究[J].檔案學(xué)研究, 2020, 173(2):60-66.

[8]歐陽帆,張?jiān)绿?一種基于用戶行為畫像的安全審計(jì)系統(tǒng)[J].信息通信,2018(11):107-108.

[9]胡樹煜,孫士宏,金丹.大數(shù)據(jù)時代檔案信息資源共享平臺安全策略研究[J].蘭臺世界, 2016(2):5-7.

作者單位:解放軍檔案館

猜你喜歡
用戶畫像共享平臺檔案信息
把聲音的魅力發(fā)揮到極致
中國廣播(2017年1期)2017-02-21 13:40:10
醫(yī)院病歷檔案信息管理及應(yīng)用探析
關(guān)于電力企業(yè)檔案信息現(xiàn)代化管理及對策的探析
淺談檔案信息利用過程中的知識產(chǎn)權(quán)保護(hù)問題
中企搭乘“共享平臺”好出海
科學(xué)數(shù)據(jù)共享平臺的建設(shè)與服務(wù)探討
移動用戶畫像構(gòu)建研究
“微平臺”在包裝設(shè)計(jì)課程資源共享教學(xué)中的應(yīng)用研究
檔案信息資源開發(fā)利用及圖書、情報(bào)、檔案一體化探析
人間(2016年24期)2016-11-23 17:54:13
基于微博的大數(shù)據(jù)用戶畫像與精準(zhǔn)營銷
太康县| 方山县| 中西区| 仲巴县| 县级市| 微山县| 徐汇区| 顺义区| 沂南县| 丁青县| 海城市| 长宁县| 南投县| 吉林省| 佛山市| 隆林| 东丰县| 鞍山市| 烟台市| 孝感市| 鄂托克旗| 福鼎市| 松原市| 和硕县| 陆河县| 繁峙县| 阿拉尔市| 施秉县| 安阳县| 永宁县| 唐河县| 丰镇市| 南充市| 逊克县| 修文县| 凉城县| 韶关市| 内江市| 蒙自县| 普格县| 班玛县|