国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

社交媒體Web Archive的技術(shù)架構(gòu)設(shè)計

2022-12-27 13:56:50陳超天
圖書館學(xué)刊 2022年11期
關(guān)鍵詞:架構(gòu)設(shè)計代幣存儲空間

陳超天

(廣州圖書館,廣東 廣州 510632)

大數(shù)據(jù)概念提出人阿爾文·托夫勒(Alvin Toffler)早在1980年指出 “社會記憶永久存在”[1]。Web Archive(網(wǎng)絡(luò)信息資源存檔,簡稱WA)則是實踐意義上的社會記憶。對于社會記憶的管理與塑造是網(wǎng)絡(luò)意識形態(tài)工作的重中之重。傳統(tǒng)意義上的WA是指一種在 “原生性” 網(wǎng)絡(luò)信息資源的整個生命周期內(nèi)對其進(jìn)行有目的地評價、選擇、采集、描述、元數(shù)據(jù)表示、存儲、發(fā)布和維護(hù)等一系列工作,以確保其當(dāng)前可用和未來價值增值的管理活動[2]。筆者所討論的社交媒體Web Archive則是僅對于社交媒體方面的內(nèi)容進(jìn)行這些管理活動。

社交媒體(SocialMedia)一般意義上是指建立在互聯(lián)網(wǎng)技術(shù)基礎(chǔ)上的互動社區(qū)[3]。其數(shù)據(jù)有著數(shù)據(jù)來源(用戶)龐雜[4]、非結(jié)構(gòu)化[5]、數(shù)量大(占互聯(lián)網(wǎng)大數(shù)據(jù)的80%[6])、具有完善的研究框架(如SNA)等特征。

1 社交媒體的影響力

社交媒體對于世界的政治、經(jīng)濟(jì)、文化都有著極強(qiáng)的影響力。在政治方面,David S.Morris在ACM上指出,Twitter等社交媒體平臺在特朗普當(dāng)選美國總統(tǒng)的競選過程中發(fā)揮了關(guān)鍵作用[7]。在經(jīng)濟(jì)方面,學(xué)者常通過針對社交媒體的情緒分析維護(hù)商業(yè)名譽(yù)[8]。在文化方面,清博大數(shù)據(jù)2018年12月19日微信公眾號影響力總榜[9]可知各類社群媒體篇均閱讀量大多已為10萬以上,榜首月總閱讀量已達(dá)到0.7億次,也即年總閱讀量約為8.4億次,遠(yuǎn)遠(yuǎn)超越了普通紙質(zhì)資源和普通電子資源的文化影響力。此外,其還能作為歷史研究的研究基礎(chǔ)[10]。

基于社交媒體在各領(lǐng)域的巨大價值,國際社會早已建立了諸如美國國會圖書館Twitter檔案館項目[11]、英國國家圖書館的UKWA[12]等先驅(qū)WA項目。WA項目在國內(nèi)外發(fā)展迅速,截至2018年4月,據(jù)維基百科不完全統(tǒng)計,國際上已有約80余個成功實施的WA項目。在國內(nèi)相關(guān)領(lǐng)域,白美程等通過普賴斯邏輯曲線增長理論指出,國內(nèi)WA項目領(lǐng)域整體已從引入期和發(fā)展期過渡到相對成熟的探索期[13]。因此,構(gòu)建適應(yīng)我國發(fā)展實際的可持續(xù)的社交媒體WA項目是必要的。

2 構(gòu)建可持續(xù)的社交媒體WA項目

2.1 明確社交媒體的控制主體與執(zhí)行主體

2.1.1 社交媒體的控制主體

2.1.2 社交媒體的執(zhí)行主體

社交媒體的執(zhí)行主體應(yīng)以圖書館、檔案館為主,以民間機(jī)構(gòu)及個人為輔。圖書館、檔案館是國外社交媒體WA項目的現(xiàn)行執(zhí)行主體,但卻存在隱私權(quán)法律法規(guī)變更、成本愈加增大、品種單調(diào)、不能完全開放給公眾使用等問題。哪怕國際上最有代表性的社交媒體WA項目——美國國會圖書館Twitter存檔項目也不例外。在諸如美國加州第568號法案(著名的 “橡皮檫” 法案[15])、《通用數(shù)據(jù)保護(hù)條例》(General Data Protection Regulation,簡稱GDPR)[16]等保護(hù)用戶的 “被遺忘權(quán)” 的法律與條例被頒布后,社交媒體WA項目更是舉步維艱?!吨腥A人民共和國網(wǎng)絡(luò)安全法》[17]頒布后,基于民間有著良好的珍貴文獻(xiàn)(包括紙質(zhì)和電子文獻(xiàn))保存習(xí)慣,民間機(jī)構(gòu)與個人通過Pagefreezer,WebPreserver等統(tǒng)一化保存解決方案也能在合乎現(xiàn)有法律法規(guī)的前提下對于官方社交媒體WA項目提供補(bǔ)充。

2.2 社交媒體WA技術(shù)架構(gòu)設(shè)計

2.2.1 存儲架構(gòu)設(shè)計

存儲架構(gòu)設(shè)計是目前所有WA項目建設(shè)時最先需要考慮的技術(shù)問題,其整體架構(gòu)設(shè)計主要需要考慮如何規(guī)劃存儲空間、如何確定存儲數(shù)據(jù)的格式以及如何保證 “被遺忘權(quán)” 。

2.2.1.1 存儲空間規(guī)劃

存儲架構(gòu)設(shè)計是目前所有WA項目建設(shè)時最先考慮到的技術(shù)問題。不妨將整體架構(gòu)設(shè)計問題細(xì)化為幾個容易解決的問題——存儲哪些內(nèi)容、所需存儲空間是否能夠承受、如何規(guī)劃存儲空間、存儲數(shù)據(jù)的格式如何以及如何保證 “被遺忘權(quán)” 。

以合法為前提,應(yīng)盡可能存儲所有可開放獲取的原始社交媒體數(shù)據(jù),而不是加工后的成品數(shù)據(jù)或需要額外授權(quán)的媒體數(shù)據(jù)(如付費(fèi)、隱私等)。盡管IFLA在國際圖聯(lián)圖書館員和其他信息工作者道德規(guī)范中說明,圖書館員和其他信息工作者的目標(biāo)是為用戶提供公平、快速、經(jīng)濟(jì)和有效的信息訪問[18]。但實際情況是,國際上包含美國國會圖書館(Library of Congress,簡稱LOC)、中國國家圖書館、澳大利亞國家圖書館等WA項目執(zhí)行主體在內(nèi)的多家機(jī)構(gòu),都逐漸開始僅收集政治或社會性事件的社交媒體數(shù)據(jù)[19-20],而不再選擇全量保存原始數(shù)據(jù)或不再開放訪問。眾所周知,已經(jīng)匯聚成專題的數(shù)據(jù)的潛在可挖掘價值遠(yuǎn)不如原始數(shù)據(jù)大。是什么原因?qū)е赂鞔髨?zhí)行主體放棄收集全量數(shù)據(jù)呢?是成本。在能夠承受成本的前提下,理應(yīng)盡可能多、盡可能全地存儲原始數(shù)據(jù)。這樣才能在未來希望研究新的主題時,更好地建立專題數(shù)據(jù)研究庫。那么,我們是否能夠存儲如此海量的數(shù)據(jù)呢?

如果需要盡可能多地存儲原始數(shù)據(jù),所需的存儲空間筆者認(rèn)為是完全能夠承受的。以2013年LOC TwitterWA項目白皮書[21]內(nèi)的存儲方案為例,其存儲的方式分為三步:每收集1小時的數(shù)據(jù)上傳一次臨時服務(wù)器、檢查新生成的文件完整性并歸檔至數(shù)據(jù)磁帶、刪除臨時服務(wù)器內(nèi)的文件。該項目2006年至2010年的1700億條全量源數(shù)據(jù)也不過66.2TB,而2022年7月Quantum Ultrium LTO 9數(shù)據(jù)磁帶的單價約1200元人民幣,每個可存儲45TB數(shù)據(jù),也即存儲6份LOC Twitter項目的5年備份也不過1萬元人民幣而已。按照第六次全國縣級以上公共圖書館評估中省級(副省級)圖書館等級必備條件可知[22],1萬元僅為東部省級一級圖書館的年度最低撥款的16.7‰。如果僅是全量保存數(shù)據(jù)的,這是中國任意一個省級(含副?。^都完全能夠承受。但若全部數(shù)據(jù)都存放在數(shù)據(jù)磁帶,又會面臨和LOC一樣的問題——如何保證讀取速度。

計算機(jī)存儲介質(zhì)的存取數(shù)據(jù)越快、可靠性越高,則價格一般也就越貴。目前業(yè)界高可用系統(tǒng)的存儲方案一般以訪問頻次將數(shù)據(jù)分為三類處理:熱數(shù)據(jù)、溫數(shù)據(jù)、冷數(shù)據(jù)。訪問頻次越高代表數(shù)據(jù)越 “熱” ,越要把昂貴的存儲介質(zhì)分配給它。但是對于WA數(shù)據(jù)而言,大多是低價值密度數(shù)據(jù),必然會存在海量的長時間內(nèi)不會被訪問的數(shù)據(jù)。如果放在磁帶庫讀取過于慢、放在廠家的高可用存儲又太貴、放在圖書館自有的較廉價的存儲可能又不夠穩(wěn)定。IPFS(Inter Planetary File System,星際文件系統(tǒng))則在可靠性、讀寫速率、成本三者之間達(dá)成了平衡。IPFS是一種結(jié)合了區(qū)塊鏈、版本控制系統(tǒng)Git、BitTorrent、系統(tǒng)分布式哈希和自認(rèn)證文件系統(tǒng)的分布式文件存儲協(xié)議。國內(nèi)已有學(xué)者嘗試性地將IPFS運(yùn)用于短視頻分享平臺的構(gòu)建上,并取得了良好的理論數(shù)據(jù)結(jié)果[23]。綜上,將不同價格的存儲整合在一起(見表1),則可建立起一套以熱度區(qū)分的存儲空間規(guī)劃方案。

幾天過后,成績發(fā)下來了,其他成績還行,唯有英文不及格。媽媽若有所悟地說:“這也難怪,孔夫子不懂英文,下次我再去求求上帝保佑就好了”

表1 以熱度區(qū)分的存儲空間規(guī)劃方案

2.2.1.2 確定存儲數(shù)據(jù)的格式

抖音、微博、知乎的社交媒體的數(shù)據(jù)一般由人員信息(發(fā)布人員、交互人員)、發(fā)布內(nèi)容(含多媒體信息,如文本、視頻、地點(diǎn)等)、交互行為(如點(diǎn)贊、轉(zhuǎn)發(fā)等)共3個部分組成。不妨針對上述3個部分建立實體,以人員、內(nèi)容、行為為基礎(chǔ)構(gòu)建最基礎(chǔ)的通用元數(shù)據(jù)內(nèi)容標(biāo)準(zhǔn)來進(jìn)行儲存。因為原始數(shù)據(jù)較為完整,用戶需要使用時,可實時通過ETL框架抽取并建立特殊的專題格式或者其他類型的數(shù)據(jù)形式。當(dāng)專題數(shù)據(jù)擁有商業(yè)或科研價值后,如果有用戶愿意支付存儲的成本,可再以該專題的特有格式建立數(shù)據(jù)更新機(jī)制,保證專題數(shù)據(jù)的穩(wěn)定性。

2.2.1.3 “被遺忘權(quán)” 的保護(hù)

社交媒體WA項目中用戶 “被遺忘權(quán)” 的保護(hù)也是諸多法律學(xué)界、圖書情報學(xué)界學(xué)者[24]的關(guān)注重點(diǎn)。 “被遺忘權(quán)” 在我國的實現(xiàn)方式是通過用戶的舉證來刪除用戶曾公開的或被公開信息。盡管IFLA曾呼吁在歷史記錄中保存?zhèn)€人身份信息[25],但對于大規(guī)模的社交媒體WA項目,最好能對人員信息實體附加可舉證但不可破解的特征,如將用戶ID等內(nèi)容通過摘要函數(shù)隱藏起來等。一方面,當(dāng)WA項目用戶使用數(shù)據(jù)時無法將已經(jīng)通過摘要函數(shù)隱藏的用戶信息還原成實際可讀的信息,保證了讀者的隱私權(quán);另一方面,用戶能夠通過原有的ID信息舉證自身對于信息的擁有權(quán),從而向項目方提出刪除申請,保證了讀者的 “被遺忘權(quán)” 。需要注意的是,中國關(guān)于 “被遺忘權(quán)” 的法律條文,沒有對刪除的時間進(jìn)行要求。對于用戶提出的刪除請求,項目執(zhí)行主體完全可以維護(hù)一條刪除消息隊列,根據(jù)技術(shù)架構(gòu)特點(diǎn)和存儲數(shù)據(jù)的冷熱流動情況定期完成刪除操作。

綜上所述,筆者從幾個方面簡要描述了整體的存儲架構(gòu),但實際上仍存在部分問題沒有被提及,比如如何讓用戶加入基于IPFS的存儲共享平臺、整體存儲架構(gòu)與圖書館無關(guān)、整體服務(wù)與系統(tǒng)的運(yùn)營成本由誰承擔(dān)等。這些問題應(yīng)該通過社交媒體WA項目的開放平臺架構(gòu)設(shè)計來解決。

2.3 開放平臺架構(gòu)設(shè)計

無論是出于商業(yè)、科研、政治安全還是其他的原因,所有的社交媒體WA項目的最終目的還是為了提供給用戶使用。在上述提到的存儲結(jié)構(gòu)設(shè)計的基礎(chǔ)上,還需要有完整的數(shù)據(jù)層、業(yè)務(wù)層、前端展示層,才能完成從數(shù)據(jù)儲存到用戶的使用。

在數(shù)據(jù)層,需要實現(xiàn)存、轉(zhuǎn)、納、用4個功能。首先,存是指能夠被動接收或主動拉取社交媒體數(shù)據(jù)存入數(shù)據(jù)磁帶,保證所有的社交媒體數(shù)據(jù)至少有一個以上的數(shù)據(jù)磁帶備份。其次,轉(zhuǎn)是指當(dāng)有數(shù)據(jù)被申請調(diào)用時,能夠支持冷數(shù)據(jù)(數(shù)據(jù)磁帶)向溫數(shù)據(jù)(IPFS)的轉(zhuǎn)換,也即將數(shù)據(jù)磁帶里的數(shù)據(jù)轉(zhuǎn)換到IPFS內(nèi)可供快速讀寫的分布式數(shù)據(jù)。再次,納是指參加WA項目的所有圖書館或志愿參加的其他用戶能夠支持IPFS的存儲介質(zhì)需要納入整體的IPFS體系中。最后,用是指能夠提供數(shù)據(jù)ETL功能的能力接口,可供用戶調(diào)用ETL接口生成知識圖譜、社交網(wǎng)絡(luò)分析等高級應(yīng)用。此外,需要注意的是,負(fù)責(zé)統(tǒng)籌項目圖書館僅需要保存不可直接使用的極度廉價的數(shù)據(jù)磁盤內(nèi)的全量源數(shù)據(jù)。當(dāng)有科研任務(wù)到達(dá)時,需要支付代幣作為酬勞,而志愿加入IPFS的圖書館或其他機(jī)構(gòu)或用戶提供存儲空間并獲得代幣。當(dāng)志愿加入的個體不足時,數(shù)據(jù)層應(yīng)該按照使用量從低到高的順序刪除IPFS體系內(nèi)的數(shù)據(jù)。IPFS的特性是,覆蓋網(wǎng)絡(luò)越大整個存儲系統(tǒng)越穩(wěn)定,需要用于 “激勵” 參與用戶的代幣(同樣任務(wù)情況下)越少。這樣就能保證在用戶增多的情況下,成本變少。

在數(shù)據(jù)層之上的業(yè)務(wù)層,需要有一套完整的類似于BOINC的分布式計算平臺,需要能夠基于數(shù)據(jù)層提供的接口和協(xié)議完成計算任務(wù)的分發(fā),且實現(xiàn)用戶激勵機(jī)制。當(dāng)用戶量和使用量增加時,所需要的技術(shù)支撐成本也將增加。隨著項目的使用群體越來越多,總會超出執(zhí)行主體能夠承受的極限。因此,需要考慮建立一種可持續(xù)的存儲和開放平臺技術(shù)架構(gòu),能夠?qū)崿F(xiàn)使用群體越多成本越低的目標(biāo)。美國加州大學(xué)伯克利分校運(yùn)營的伯克利開放式網(wǎng)絡(luò)計算平臺(Berkeley Open Infrastructure for Network Computing,簡稱BOINC)和IPFS是目前最為符合使用群體越多成本越低的開放平臺和存儲底層技術(shù)架構(gòu)。BOINC采用的是具有分散通信、計算和存儲但又控制集中的分布式計算網(wǎng)絡(luò)。用戶自愿加入網(wǎng)絡(luò)后,可以將個人PC的算力共享給BOINC,而BOINC會將用戶做出的貢獻(xiàn)轉(zhuǎn)化為積分(或者可以稱為代幣)。在此過程中,算力任務(wù)在分布式計算引擎的規(guī)劃下,下發(fā)給各個節(jié)點(diǎn)進(jìn)行運(yùn)算,最終整合為項目所需的計算結(jié)果。IPFS也支持通過開發(fā)方式增加代幣激勵機(jī)制。隨著項目的使用群體越來越多,每個科研或商業(yè)項目的平均成本就會降低,而由于使用用戶負(fù)擔(dān)了項目的成本,作為執(zhí)行主體的圖書館只需要支撐整個平臺的 “交易” 服務(wù)即可。

代幣機(jī)制的運(yùn)營一般基于一個已存在的用戶群體,需要能夠有一套完整的代幣消耗閉環(huán),而圖書館就是一個能夠提供用戶群體和閉環(huán)的完美執(zhí)行主體。中國有969個擁有 “一級圖書館” 等級的公共圖書館和147所雙一流高校的高校圖書館[26],公共圖書館擁有龐大的用戶群體,而高校館擁有龐大的科研用戶群體。以高校項目資金為代幣購買方,以圖書館用戶群體為算力與存儲基礎(chǔ),輔以圖書館的冷數(shù)據(jù)存儲和較高要求的高可用存儲集群,足以支撐起整體的技術(shù)框架運(yùn)營。

故此,結(jié)合存儲結(jié)構(gòu)設(shè)計部分的內(nèi)容,可以建立一個整體架構(gòu)(如圖1)。

圖1 系統(tǒng)架構(gòu)

3 未來展望

盡管類似于BOINC的分布式科研計算平臺已經(jīng)在學(xué)術(shù)界非常著名,但是在國內(nèi)圖書館界還少有人知曉。不僅如此,我國雖然擁有較大的圖書館用戶群體,但愿意志愿提供存儲與算力的用戶應(yīng)不會太多。因此,在項目開展的前期,作為執(zhí)行主體的圖書館不僅需要支出構(gòu)建整個平臺的存儲和算力成本,還需要提供強(qiáng)有力的運(yùn)營推廣支持。

猜你喜歡
架構(gòu)設(shè)計代幣存儲空間
基于多種群協(xié)同進(jìn)化算法的數(shù)據(jù)并行聚類算法
基于安全性需求的高升力控制系統(tǒng)架構(gòu)設(shè)計
蘋果訂閱捆綁服務(wù)Apple One正式上線
綜藝報(2020年21期)2020-11-30 08:36:49
用好Windows 10保留的存儲空間
首次代幣發(fā)行監(jiān)管的行為經(jīng)濟(jì)學(xué)路徑
央行等七部門叫停各類代幣發(fā)行融資
世界知識(2017年18期)2017-12-28 22:00:38
央行等七部門叫停各類代幣發(fā)行融資
人民周刊(2017年17期)2017-10-23 09:06:00
央行等七部門叫停各類代幣發(fā)行融資
對稱加密算法RC5的架構(gòu)設(shè)計與電路實現(xiàn)
應(yīng)用于SAN的自動精簡配置架構(gòu)設(shè)計與實現(xiàn)
巴林右旗| 南和县| 安吉县| 西盟| 拉萨市| 营口市| 甘谷县| 金堂县| 阿尔山市| 富平县| 扶沟县| 鄂托克前旗| 阿克苏市| 东海县| 洪湖市| 水城县| 天峨县| 清镇市| 双流县| 沧源| 罗城| 邯郸市| 黄骅市| 隆尧县| 聂拉木县| 福泉市| 陆丰市| 玉溪市| 建水县| 望江县| 鞍山市| 和田县| 汝州市| 哈密市| 桂东县| 秀山| 老河口市| 乌拉特中旗| 环江| 临泉县| 正阳县|