国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

云端結(jié)合的書(shū)法大數(shù)據(jù)平臺(tái)

2020-08-17 07:54:58楊頤李國(guó)清王健王海軍翟翊辰黃衛(wèi)星
關(guān)鍵詞:書(shū)法創(chuàng)作智能

楊頤 ,李國(guó)清 ,王健 ,2,王海軍 ,翟翊辰 ,黃衛(wèi)星 ,2*

(1.中國(guó)科學(xué)院自動(dòng)化研究所,北京100190; 2.中科君勝(深圳)智能數(shù)據(jù)科技發(fā)展有限公司,廣東深圳518000)

書(shū)法創(chuàng)作、書(shū)法教育和書(shū)法交流等已成為書(shū)法文化發(fā)展和普及過(guò)程中的重要需求。由于書(shū)法愛(ài)好者分布在不同的地域,傳統(tǒng)孤島式的書(shū)法創(chuàng)作、交流和教學(xué)方式已不適應(yīng)現(xiàn)代社會(huì)信息聯(lián)通共享的模式。隨著互聯(lián)網(wǎng)的發(fā)展和大數(shù)據(jù)技術(shù)的逐漸成熟,數(shù)字書(shū)法技術(shù)與互聯(lián)網(wǎng)和大數(shù)據(jù)技術(shù)的結(jié)合愈加緊密。為了實(shí)現(xiàn)傳統(tǒng)與現(xiàn)代書(shū)法創(chuàng)作的協(xié)同體驗(yàn),打通書(shū)法愛(ài)好者之間的信息鴻溝,書(shū)法作品數(shù)字化創(chuàng)作、書(shū)法作品集協(xié)同共創(chuàng)和書(shū)法作品智能評(píng)估等已成為當(dāng)前書(shū)法行業(yè)的重要需求。

本文提出了云端結(jié)合的書(shū)法大數(shù)據(jù)平臺(tái),將線下智能書(shū)法臺(tái)終端、線上網(wǎng)站前端與云平臺(tái)相結(jié)合,通過(guò)人工智能技術(shù),提供資源共享、協(xié)同創(chuàng)作、經(jīng)驗(yàn)交流和可視分析等智能化服務(wù),實(shí)現(xiàn)了書(shū)法創(chuàng)作的傳統(tǒng)模式與現(xiàn)代模式的有效結(jié)合。

下文安排如下:第1 節(jié)介紹相關(guān)研究成果;第2節(jié)介紹云端結(jié)合的書(shū)法協(xié)同體驗(yàn);第3 節(jié)介紹書(shū)法大數(shù)據(jù)平臺(tái)的功能、設(shè)計(jì)和技術(shù);第4 節(jié)介紹平臺(tái)所提供的智能服務(wù);第5 節(jié)展示書(shū)法大數(shù)據(jù)平臺(tái)的典型應(yīng)用案例;第6 節(jié)對(duì)書(shū)法大數(shù)據(jù)平臺(tái)進(jìn)行實(shí)驗(yàn)和評(píng)估;第7 節(jié)為結(jié)論與展望。

1 相關(guān)研究

大數(shù)據(jù)平臺(tái)是一種基于云計(jì)算和大數(shù)據(jù)技術(shù)[1-2]的軟件平臺(tái)系統(tǒng),通常會(huì)集成分布式數(shù)據(jù)庫(kù)、大規(guī)模并行處理、算法庫(kù)等核心功能子系統(tǒng),能夠?qū)焖佼a(chǎn)生的海量數(shù)據(jù)進(jìn)行數(shù)據(jù)管理、計(jì)算、分析和展示。

文化大數(shù)據(jù)平臺(tái)面向文化領(lǐng)域,通過(guò)大數(shù)據(jù)技術(shù),為用戶(hù)提供數(shù)據(jù)采集和管理、分布式計(jì)算和智能服務(wù)等技術(shù)。

漢字文化數(shù)字化平臺(tái)[3-4]是基于云計(jì)算的漢字文化綜合體驗(yàn)平臺(tái),對(duì)漢字文化數(shù)據(jù)進(jìn)行存儲(chǔ)、管理和分析,具有為用戶(hù)提供交互式體驗(yàn)之功能。

數(shù)字圖書(shū)館是各國(guó)都非常重視的文化大數(shù)據(jù)平臺(tái),聯(lián)機(jī)計(jì)算機(jī)圖書(shū)館中心(online computer library center,OCLC)(http://www.oclc.org)是世界著名的文獻(xiàn)信息服務(wù)系統(tǒng),用戶(hù)可以檢索文獻(xiàn)、查找文獻(xiàn)所在地以及享受借閱服務(wù)。中國(guó)高等教育文獻(xiàn)保障系統(tǒng)(http://www.calis.edu.cn/)是受政府資助的全國(guó)教育文獻(xiàn)大數(shù)據(jù)平臺(tái),平臺(tái)信息共享,助力高等教育發(fā)展。

在公共文化領(lǐng)域,用于公共文化大數(shù)據(jù)平臺(tái)構(gòu)建的技術(shù)也有進(jìn)展。如公共文化資源推薦技術(shù)[5-8]、公共文化知識(shí)圖譜技術(shù)[9]等。

在線數(shù)字博物館系統(tǒng)也屬于文化大數(shù)據(jù)平臺(tái)。谷歌推出在線藝術(shù)平臺(tái)(google art project)(http://www.googleartproject.com/),與全球著名藝術(shù)館合作,通過(guò)虛擬現(xiàn)實(shí)技術(shù)和高分辨率圖像技術(shù),展示藝術(shù)作品。百度與我國(guó)知名博物館合作,推出了百度百科數(shù)字博物館(http://baike.baidu.com/museum),利用虛擬現(xiàn)實(shí)等技術(shù)提供視頻和音頻講解,使用戶(hù)身臨其境地欣賞。

智能書(shū)法臺(tái)[10-11]是基于毛筆筆式的人機(jī)交互智能書(shū)法體驗(yàn)設(shè)備,能夠?qū)γP書(shū)法書(shū)寫(xiě)過(guò)程數(shù)字化,允許用戶(hù)使用真實(shí)毛筆在大屏幕數(shù)字書(shū)法臺(tái)上進(jìn)行創(chuàng)作、臨摹、學(xué)習(xí)、保存和分享,既保留了傳統(tǒng)的書(shū)寫(xiě)方式,又加入了現(xiàn)代科技元素,彌補(bǔ)了傳統(tǒng)書(shū)法的不足。智能書(shū)法臺(tái)實(shí)時(shí)采集用戶(hù)書(shū)寫(xiě)行為數(shù)據(jù),并傳輸至?xí)ù髷?shù)據(jù)平臺(tái)。

上述相關(guān)研究在文化資源數(shù)字化、數(shù)字資源共享、用戶(hù)數(shù)字化體驗(yàn)等方面已經(jīng)做出了顯著貢獻(xiàn),但仍然存在一些有待解決的問(wèn)題。首先,數(shù)字化資源雖然通過(guò)互聯(lián)網(wǎng)得以共享,但因用戶(hù)之間缺乏有效的溝通,從而限制了文化的交流;線上的虛擬體驗(yàn)和線下的實(shí)體體驗(yàn)都極大地提高了文化的數(shù)字化體驗(yàn)水平,然而,很少有將線上與線下打通的系統(tǒng)或平臺(tái),使得文化體驗(yàn)的多維度和整體性受限;數(shù)字化工程將著名的文化資源數(shù)字化,但很少關(guān)注普通用戶(hù)創(chuàng)造的數(shù)字化文化資源,制約了文化的多樣性發(fā)展。

針對(duì)上述問(wèn)題,筆者研發(fā)了書(shū)法大數(shù)據(jù)平臺(tái),通過(guò)與智能書(shū)法臺(tái)結(jié)合,形成線上線下的全維度用戶(hù)體驗(yàn)?zāi)J剑瑢⒂脩?hù)的數(shù)字化作品作為資源進(jìn)行管理,同時(shí),可提供面向用戶(hù)作品的線上交流途徑。

2 云端結(jié)合的書(shū)法協(xié)同體驗(yàn)

書(shū)法大數(shù)據(jù)平臺(tái)包括前端的書(shū)法體驗(yàn)網(wǎng)站和后端的云平臺(tái),如圖1 所示。書(shū)法體驗(yàn)網(wǎng)站將智能書(shū)法臺(tái)的創(chuàng)作、學(xué)習(xí)和分享等體驗(yàn)環(huán)節(jié)相結(jié)合,形成書(shū)法體驗(yàn)的線上線下模式,組織和引導(dǎo)用戶(hù)間的協(xié)作,進(jìn)行集體創(chuàng)作、社群交流和共同學(xué)習(xí)。云平臺(tái)可為智能書(shū)法臺(tái)和書(shū)法體驗(yàn)網(wǎng)站提供書(shū)法資源大數(shù)據(jù)和智能服務(wù),包括書(shū)法字體識(shí)別、用戶(hù)興趣分析、精準(zhǔn)推薦以及為文化研究者提供智能可視分析等服務(wù)。

圖1 書(shū)法大數(shù)據(jù)平臺(tái)框圖Fig.1 The diagram of Chinese calligraphy big data platform

傳統(tǒng)書(shū)法創(chuàng)作與交流的特點(diǎn)是獨(dú)立創(chuàng)作、獨(dú)享(或者小范圍共享)作品,而信息時(shí)代注重協(xié)作與共享。協(xié)同體驗(yàn),即將書(shū)法創(chuàng)作、學(xué)習(xí)和交流的傳統(tǒng)方法與互聯(lián)網(wǎng)思維相結(jié)合,實(shí)現(xiàn)創(chuàng)作協(xié)同化、學(xué)習(xí)高效化、交流全局化和作品共享化。書(shū)法大數(shù)據(jù)平臺(tái),通過(guò)充分挖掘書(shū)法大數(shù)據(jù)和用戶(hù)行為大數(shù)據(jù),進(jìn)一步增強(qiáng)書(shū)法協(xié)同體驗(yàn)效果。協(xié)同體驗(yàn)包含:傳統(tǒng)書(shū)法與科技方法的協(xié)同、線上與線下的協(xié)同以及個(gè)人用戶(hù)與群體用戶(hù)之間的協(xié)同。

傳統(tǒng)書(shū)法與科技方法的協(xié)同,體現(xiàn)在用傳統(tǒng)的毛筆書(shū)寫(xiě)形式在數(shù)字化、智能化的書(shū)法臺(tái)上書(shū)寫(xiě),既保留了傳統(tǒng)的書(shū)寫(xiě)方式,又融合了由現(xiàn)代科技支持的高效資源利用和創(chuàng)作信息存儲(chǔ)。

線上與線下的協(xié)同,體現(xiàn)在線下智能書(shū)法臺(tái)和線上體驗(yàn)網(wǎng)站的O2O 模式,線下創(chuàng)作的作品可以保存在書(shū)法大數(shù)據(jù)平臺(tái),供書(shū)法體驗(yàn)網(wǎng)站使用。同時(shí),后端云平臺(tái)也為智能書(shū)法臺(tái)提供海量書(shū)法資源和智能服務(wù)。

個(gè)人用戶(hù)與群體用戶(hù)之間的協(xié)同,主要體現(xiàn)在用戶(hù)可以自由參與作品集的創(chuàng)作和編寫(xiě),發(fā)揮用戶(hù)集體智慧的優(yōu)勢(shì),形成書(shū)法的協(xié)同創(chuàng)新模式。在此基礎(chǔ)上,將單一的書(shū)法創(chuàng)作行為演化為群體參與的、具有群體智能的協(xié)同創(chuàng)作模式,形成書(shū)法創(chuàng)作服務(wù)的新業(yè)態(tài)。

總之,本文應(yīng)用示范的目標(biāo)是提供數(shù)字化書(shū)法創(chuàng)作、書(shū)法作品集協(xié)同創(chuàng)作、在線書(shū)法作品競(jìng)技等服務(wù),將文化休閑與文化傳播有機(jī)結(jié)合,從而增強(qiáng)書(shū)法的可玩性、趣味性與共享性。

3 書(shū)法大數(shù)據(jù)平臺(tái)

3.1 平臺(tái)總體架構(gòu)

書(shū)法大數(shù)據(jù)平臺(tái)總體架構(gòu)如圖2 所示。

3.1.1 數(shù)據(jù)生產(chǎn)層

書(shū)法資源數(shù)據(jù)主要由智能書(shū)法臺(tái)和書(shū)法體驗(yàn)網(wǎng)站產(chǎn)生。智能書(shū)法臺(tái)產(chǎn)生用戶(hù)創(chuàng)作的書(shū)法作品和用戶(hù)行為數(shù)據(jù),如搜索和使用的資源數(shù)據(jù)等。書(shū)法體驗(yàn)網(wǎng)站產(chǎn)生用戶(hù)參與創(chuàng)作的作品集、用戶(hù)書(shū)法競(jìng)技數(shù)據(jù)、用戶(hù)對(duì)作品的評(píng)價(jià)等行為數(shù)據(jù),以及用戶(hù)之間的社交數(shù)據(jù)。書(shū)法作品和書(shū)法資源等數(shù)據(jù)生成的速度雖然不快,但每項(xiàng)數(shù)據(jù)的容量都較大且格式不盡相同,有圖片格式、視頻格式、文本格式、音頻格式等。用戶(hù)行為數(shù)據(jù)的特點(diǎn)則與之不同,更多的是以日志形式傳輸和保存每條記錄,由于生成速度快,同樣可在短時(shí)間內(nèi)產(chǎn)生海量數(shù)據(jù)。這2 種數(shù)據(jù)使得書(shū)法大數(shù)據(jù)具有海量、多源、異構(gòu)等特點(diǎn)。目前書(shū)法大數(shù)據(jù)平臺(tái)已有的圖片格式書(shū)法字典資源、高清圖片格式書(shū)帖資源、高清格式書(shū)法教學(xué)資源、高清名作圖片、多媒體集字創(chuàng)作作品等,數(shù)據(jù)已達(dá)TB 級(jí)。每周產(chǎn)生的用戶(hù)行為數(shù)據(jù)也在GB 級(jí)。因此,書(shū)法大數(shù)據(jù)平臺(tái)的數(shù)據(jù)具有高復(fù)雜性和大容量等特點(diǎn)。

圖2 書(shū)法大數(shù)據(jù)平臺(tái)總體架構(gòu)Fig.2 System architecture of Chinese calligraphy big data platform

3.1.2 數(shù)據(jù)采集與存儲(chǔ)層

從智能書(shū)法臺(tái)和書(shū)法體驗(yàn)網(wǎng)站采集相應(yīng)數(shù)據(jù),并保存在云平臺(tái)的數(shù)據(jù)庫(kù)中,包括用戶(hù)數(shù)字書(shū)法資源數(shù)據(jù)、用戶(hù)數(shù)字書(shū)法作品數(shù)據(jù)、用戶(hù)行為數(shù)據(jù)和用戶(hù)社交數(shù)據(jù)等。

3.1.3 數(shù)據(jù)處理層

將采集到的數(shù)據(jù)進(jìn)行預(yù)處理,包括數(shù)據(jù)清洗、數(shù)據(jù)消重、數(shù)據(jù)對(duì)齊以及數(shù)據(jù)融合等。

3.1.4 數(shù)據(jù)計(jì)算層

數(shù)據(jù)計(jì)算層提供書(shū)法協(xié)同體驗(yàn)所必需的核心智能計(jì)算支撐。用模式識(shí)別法對(duì)書(shū)法資源和作品內(nèi)容進(jìn)行識(shí)別;通過(guò)分析用戶(hù)行為數(shù)據(jù),建立興趣模型;用用戶(hù)社交分析算法,分析用戶(hù)對(duì)其他用戶(hù)作品的評(píng)價(jià)和對(duì)書(shū)法比賽等的互動(dòng)情況,挖掘隱性好友;將用戶(hù)創(chuàng)作信息構(gòu)建為知識(shí)圖譜,以支撐檢索和進(jìn)行推薦。

3.1.5 智能服務(wù)層

基于數(shù)據(jù)計(jì)算層,為書(shū)法體驗(yàn)網(wǎng)站提供用戶(hù)體驗(yàn)所需的關(guān)鍵功能服務(wù):

· 書(shū)法作品集協(xié)同創(chuàng)作與競(jìng)技:書(shū)法作品集的內(nèi)容結(jié)構(gòu)管理和檢索、作品發(fā)表時(shí)序結(jié)構(gòu)管理和檢索;書(shū)法競(jìng)技作品對(duì)比評(píng)估等;

· 書(shū)法創(chuàng)作的可視分析:通過(guò)數(shù)據(jù)可視化與機(jī)器學(xué)習(xí)相結(jié)合的方式,對(duì)書(shū)法活動(dòng)進(jìn)行多層次、多維度的數(shù)據(jù)分析,發(fā)現(xiàn)創(chuàng)作特點(diǎn)和趨勢(shì);

·書(shū)法資源與作品的共享:智能選取合適的書(shū)法資源和作品,進(jìn)行展示和共享;

·書(shū)法資源與作品的評(píng)估:結(jié)合用戶(hù)對(duì)書(shū)法作品的群體評(píng)價(jià),進(jìn)行綜合計(jì)算和智能評(píng)估;

·書(shū)法資源與作品的多模態(tài)搜索:提供關(guān)鍵字搜索和以圖搜圖等高級(jí)搜索功能;

·書(shū)法資源與作品的個(gè)性化推薦:為用戶(hù)推薦可能感興趣的書(shū)法資源和其他用戶(hù)的作品。

3.1.6 用戶(hù)訪問(wèn)層

提供訪問(wèn)功能,包括注冊(cè)、登錄等權(quán)限控制以及通過(guò)的接口技術(shù)。

3.1.7 數(shù)據(jù)管理

書(shū)法大數(shù)據(jù)平臺(tái)的數(shù)據(jù)管理,包括數(shù)據(jù)安全管理(如數(shù)據(jù)加密)、數(shù)據(jù)質(zhì)量管理(如規(guī)范數(shù)據(jù)格式)、元數(shù)據(jù)管理、用戶(hù)數(shù)據(jù)管理以及書(shū)法作品數(shù)據(jù)的版權(quán)保護(hù)(如數(shù)字水?。┑?。

3.1.8 平臺(tái)管理

進(jìn)行用戶(hù)管理、訪問(wèn)管理、性能監(jiān)控和安全管理。用戶(hù)管理模塊,主要管理用戶(hù)數(shù)據(jù),同時(shí),為用戶(hù)分配角色,根據(jù)用戶(hù)的角色控制用戶(hù)的訪問(wèn)權(quán)限。訪問(wèn)管理模塊,結(jié)合基于角色的權(quán)限控制方法,定義分級(jí)訪問(wèn)權(quán)限,包括訪客用戶(hù)、一般用戶(hù)、高級(jí)用戶(hù)、管理員用戶(hù)。性能監(jiān)控模塊,主要通過(guò)研發(fā)的可視化界面對(duì)平臺(tái)性能和主要模塊進(jìn)行監(jiān)控。由于每個(gè)模塊都有各自的可視監(jiān)控系統(tǒng),將這些監(jiān)控系統(tǒng)的監(jiān)控頁(yè)面集成到一個(gè)web 網(wǎng)站上,以便進(jìn)行統(tǒng)一監(jiān)控。集成的監(jiān)控系統(tǒng)和工具有:Zabbix 對(duì)平臺(tái)應(yīng)用性能的監(jiān)控工具、PHPMyAdmin 的MySQL 監(jiān)控系統(tǒng)、Hadoop 和HBase 自帶的圖形監(jiān)控系統(tǒng)、MongoDB Compass監(jiān)控工具 、Ceph自帶的圖形監(jiān)控工具,以及使用Ganglia 對(duì)平臺(tái)的監(jiān)控,實(shí)時(shí)查看虛擬機(jī)集群中的各項(xiàng)性能指標(biāo)。安全管理模塊,依靠Kerberos 技術(shù)和反向代理服務(wù)器技術(shù)實(shí)現(xiàn)安全管理。為保證平臺(tái)虛擬主機(jī)之間對(duì)文件的安全訪問(wèn),采用Kerberos+SSL 方案,實(shí)現(xiàn)機(jī)器級(jí)別的安全防護(hù),未經(jīng)認(rèn)證的主機(jī)無(wú)法訪問(wèn)數(shù)據(jù),從而有效防范偽裝虛擬主機(jī)惡意破壞數(shù)據(jù)。反向代理服務(wù)器能起防火墻作用,如NginX 服務(wù)器可隱藏服務(wù)器IP 地址,從而實(shí)現(xiàn)對(duì)平臺(tái)的保護(hù)。

3.2 平臺(tái)技術(shù)堆棧

書(shū)法大數(shù)據(jù)平臺(tái)技術(shù)框架如圖3 所示。

3.2.1 基礎(chǔ)層:管理數(shù)據(jù)庫(kù)、計(jì)算框架和平臺(tái)系統(tǒng)

數(shù)據(jù)庫(kù):管理結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),以及索引數(shù)據(jù)和元數(shù)據(jù)。各類(lèi)數(shù)據(jù)庫(kù)系統(tǒng)的性能和特色各不相同,已有研究對(duì)其進(jìn)行了科學(xué)評(píng)估[12-16],本文根據(jù)研究成果進(jìn)行技術(shù)選型。結(jié)構(gòu)化數(shù)據(jù)管理采用MySQL Cluster 分布式關(guān)系型數(shù)據(jù)庫(kù)集群,主要負(fù)責(zé)存儲(chǔ)系統(tǒng)的主數(shù)據(jù),如用戶(hù)數(shù)據(jù)及各模塊中的關(guān)系數(shù)據(jù);半/非結(jié)構(gòu)化數(shù)據(jù)管理,HBase數(shù)據(jù)庫(kù)和MongoDB 分布式數(shù)據(jù)庫(kù)以及HDFS 分布式文件系統(tǒng)主要用來(lái)存儲(chǔ)和管理日志數(shù)據(jù);索引數(shù)據(jù)管理,用MySQL 存儲(chǔ)非結(jié)構(gòu)化數(shù)據(jù)的索引,如將視頻和圖片存放在Ceph 系統(tǒng),地址存放在MySQL,以方便檢索;元數(shù)據(jù)管理,存儲(chǔ)各類(lèi)數(shù)據(jù)的元數(shù)據(jù)信息,MySQL 主要負(fù)責(zé)有明確Schema 的元數(shù)據(jù),MongoDB 負(fù)責(zé) Schema 不確定或者無(wú) Schema 的元數(shù)據(jù),HDFS 系統(tǒng)主要用于大容量塊文件的存儲(chǔ)和管理,對(duì)于海量小文件,如視頻資源、高清圖片等數(shù)據(jù),HDFS 的效率非常低,可用Ceph 文件系統(tǒng)管理海量高頻訪問(wèn)的小文件。

計(jì)算框架:基于Tensorflow 的深度學(xué)習(xí)計(jì)算框架、基于Hadoop MapReduce 的海量數(shù)據(jù)批處理技術(shù)、基于Apache Spark 的內(nèi)存計(jì)算框架和實(shí)時(shí)計(jì)算技術(shù)。

平臺(tái)系統(tǒng):對(duì)主要功能提供支撐,對(duì)平臺(tái)提供管理,包括緩存系統(tǒng)、安全系統(tǒng)、負(fù)載均衡和日志系統(tǒng)管理。

圖3 書(shū)法大數(shù)據(jù)平臺(tái)技術(shù)框架Fig.3 The technical framework of Chinese calligraphy big data platform

3.2.2 服務(wù)支撐層:為體驗(yàn)層提供智能計(jì)算支撐和服務(wù)。

智能服務(wù):整合創(chuàng)作知識(shí)圖譜和智能算法庫(kù),構(gòu)建智能方法并通過(guò)API 為書(shū)法體驗(yàn)網(wǎng)站用戶(hù)提供智能服務(wù)。

書(shū)法創(chuàng)作知識(shí)圖譜:通過(guò)分析用戶(hù)的創(chuàng)作數(shù)據(jù),挖掘用戶(hù)與作品之間的關(guān)系,構(gòu)建圖譜。

算法庫(kù):基于計(jì)算框架,根據(jù)協(xié)同體驗(yàn)的需求構(gòu)建算法庫(kù),主要用于書(shū)法字識(shí)別、自然語(yǔ)言處理、智能信息檢索和時(shí)間序列分析等。

3.2.3 體驗(yàn)層:面向終端用戶(hù)

終端用戶(hù)包括線下的智能書(shū)法臺(tái)和線上的書(shū)法體驗(yàn)網(wǎng)站。

3.3 數(shù)據(jù)流

書(shū)法大數(shù)據(jù)平臺(tái)的數(shù)據(jù)流分為數(shù)據(jù)采集階段數(shù)據(jù)流和書(shū)法協(xié)同體驗(yàn)階段數(shù)據(jù)流。

3.3.1 數(shù)據(jù)采集階段數(shù)據(jù)流

數(shù)據(jù)采集階段數(shù)據(jù)流主要從智能書(shū)法臺(tái)和書(shū)法體驗(yàn)網(wǎng)站流向書(shū)法大數(shù)據(jù)平臺(tái)。智能書(shū)法臺(tái)的數(shù)據(jù)輸入模塊通過(guò)RESTful HTTP 接口將書(shū)法作品和用戶(hù)行為數(shù)據(jù)上傳至?xí)ù髷?shù)據(jù)平臺(tái)的臨時(shí)數(shù)據(jù)庫(kù);臨時(shí)數(shù)據(jù)庫(kù)由MySQL 構(gòu)建,用戶(hù)作品圖片以二進(jìn)制對(duì)象的方式存入MySQL 數(shù)據(jù)表;用戶(hù)行為數(shù)據(jù)則以日志文件形式存放在Linux 的文件系統(tǒng)中。同理,書(shū)法體驗(yàn)網(wǎng)站也通過(guò)RESTful HTTP 接口將采集到的用戶(hù)創(chuàng)作數(shù)據(jù)存放在臨時(shí)數(shù)據(jù)庫(kù)。隨后,平臺(tái)的數(shù)據(jù)預(yù)處理層對(duì)臨時(shí)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行預(yù)處理:提取圖片作品的元數(shù)據(jù),將元數(shù)據(jù)存放在MySQL 或者M(jìn)ongoDB 數(shù)據(jù)庫(kù),將圖片數(shù)據(jù)存放在Ceph 系統(tǒng);讀取并清洗日志文件中的信息,按照平臺(tái)定義的用戶(hù)行為數(shù)據(jù)格式進(jìn)行格式轉(zhuǎn)換,并將其存儲(chǔ)于由HDFS 和HBase 組成的數(shù)據(jù)庫(kù)中,完成數(shù)據(jù)采集。

3.3.2 書(shū)法協(xié)同體驗(yàn)階段數(shù)據(jù)流

在數(shù)據(jù)應(yīng)用階段,也就是書(shū)法協(xié)同體驗(yàn)階段,數(shù)據(jù)流主要從書(shū)法大數(shù)據(jù)平臺(tái)后端支撐平臺(tái)的數(shù)據(jù)庫(kù)和計(jì)算系統(tǒng)流出。智能服務(wù)系統(tǒng)需要具有整合書(shū)法創(chuàng)作知識(shí)圖譜和智能算法庫(kù)的功能。書(shū)法創(chuàng)作知識(shí)圖譜基于數(shù)據(jù)庫(kù)中的用戶(hù)作品元數(shù)據(jù)構(gòu)建,將作品和元數(shù)據(jù)定義為節(jié)點(diǎn),作品節(jié)點(diǎn)通過(guò)元數(shù)據(jù)節(jié)點(diǎn)連接,構(gòu)成異構(gòu)的書(shū)法創(chuàng)作知識(shí)圖譜數(shù)據(jù),采用RDF三元組數(shù)據(jù)結(jié)構(gòu)描述圖譜;智能算法庫(kù)主要由提供智能算法函數(shù)的Apache Mahout 框架構(gòu)成。在知識(shí)圖譜數(shù)據(jù)上對(duì)智能算法庫(kù)中的算法進(jìn)行分析,最終形成智能服務(wù),供書(shū)法體驗(yàn)網(wǎng)站的終端用戶(hù)使用。

3.3.3 書(shū)法創(chuàng)作可視分析工作流

書(shū)法創(chuàng)作可視分析工作流如圖4 所示,通過(guò)智能書(shū)法臺(tái)將創(chuàng)作的作品圖片和相關(guān)信息傳輸?shù)椒?wù)器,經(jīng)過(guò)請(qǐng)求、解析等預(yù)處理,將一部分?jǐn)?shù)據(jù)保存到數(shù)據(jù)庫(kù)中,用于分析用戶(hù)的歷史行為;將另一部分保存到緩存系統(tǒng)中,用于實(shí)時(shí)分析作品。對(duì)用戶(hù)作品進(jìn)行交互式可視分析:通過(guò)調(diào)整算法參數(shù)進(jìn)行歷史數(shù)據(jù)分析;通過(guò)調(diào)整實(shí)時(shí)數(shù)據(jù)的過(guò)濾參數(shù)進(jìn)行多維度實(shí)時(shí)作品創(chuàng)作行為分析;通過(guò)調(diào)整可視化視圖的視角進(jìn)行多視角數(shù)據(jù)分析。其中的關(guān)鍵技術(shù)包括:

· 基于流數(shù)據(jù)處理的實(shí)時(shí)數(shù)據(jù)監(jiān)控技術(shù):使用流數(shù)據(jù)處理技術(shù),實(shí)時(shí)采集智能書(shū)法臺(tái)的書(shū)法數(shù)據(jù),通過(guò)微服務(wù)接口傳輸至消息隊(duì)列,并通過(guò)前端實(shí)時(shí)更新瀏覽器端數(shù)據(jù)。

· 基于語(yǔ)義縮放的多尺度時(shí)空數(shù)據(jù)可視化技術(shù):面向時(shí)間維度和空間維度,使用多尺度可視化技術(shù),進(jìn)行多尺度分析,通過(guò)語(yǔ)義縮放技術(shù),實(shí)現(xiàn)概觀和細(xì)節(jié)的平滑切換。

· 基于書(shū)法字識(shí)別的高維數(shù)據(jù)可視分析技術(shù):涉及用戶(hù)書(shū)寫(xiě)行為數(shù)據(jù)、時(shí)間數(shù)據(jù)、位置數(shù)據(jù)、作品語(yǔ)義數(shù)據(jù)等高維異構(gòu)大數(shù)據(jù),提供高效的人機(jī)交互,實(shí)現(xiàn)易用、易懂和快速的可視分析。

3.4 數(shù)據(jù)源

書(shū)法大數(shù)據(jù)主要包括書(shū)法資源數(shù)據(jù)(存量數(shù)據(jù))和用戶(hù)的書(shū)法創(chuàng)作數(shù)據(jù)(增量數(shù)據(jù))。書(shū)法資源數(shù)據(jù)包括超高分辨率字帖和碑帖圖片、高清書(shū)法視頻、書(shū)法百科等。書(shū)法創(chuàng)作數(shù)據(jù)則是用戶(hù)在智能書(shū)法臺(tái)和書(shū)法體驗(yàn)網(wǎng)站進(jìn)行書(shū)法作品創(chuàng)作和作品集創(chuàng)作的數(shù)據(jù),包括作品數(shù)據(jù)和用戶(hù)創(chuàng)作過(guò)程中的行為數(shù)據(jù)。用戶(hù)在智能書(shū)法臺(tái)的創(chuàng)作數(shù)據(jù)通過(guò)網(wǎng)絡(luò)傳輸至?xí)ù髷?shù)據(jù)平臺(tái),書(shū)法體驗(yàn)網(wǎng)站的用戶(hù)創(chuàng)作數(shù)據(jù)則通過(guò)日志系統(tǒng)進(jìn)行實(shí)時(shí)采集。

圖4 可視分析工作流Fig 4 Workflow of visual analytics

3.5 數(shù)據(jù)安全

書(shū)法大數(shù)據(jù)平臺(tái)用反向代理服務(wù)器作為防火墻。用SSL、HTTPS 和Kerberos 等技術(shù)保障數(shù)據(jù)傳輸安全;基于角色的訪問(wèn)控制,實(shí)現(xiàn)數(shù)據(jù)訪問(wèn)的安全控制。SSL(secure sockets layer)是一種網(wǎng)絡(luò)傳輸安全協(xié)議,使用非對(duì)稱(chēng)的公鑰加密算法,對(duì)傳輸數(shù)據(jù)進(jìn)行加密,防止在網(wǎng)絡(luò)傳輸過(guò)程中被篡改和竊取。HTTPS 協(xié)議即HTTP+SSL,可保證用戶(hù)前端所發(fā)送數(shù)據(jù)的安全性。平臺(tái)還部署了Kerberos 服務(wù)器,并且在每個(gè)節(jié)點(diǎn)和Kerberos 服務(wù)器之間都建有共享密鑰,實(shí)現(xiàn)集群節(jié)點(diǎn)之間的安全訪問(wèn)。使用Kerberos+SSL 策略實(shí)現(xiàn)平臺(tái)集群級(jí)別的數(shù)據(jù)安全傳輸。

由于安全性能測(cè)試較復(fù)雜,本文主要通過(guò)所用技術(shù)提供的安全理論來(lái)評(píng)估平臺(tái)的安全性能。

4 智能服務(wù)

4.1 云端結(jié)合的數(shù)字書(shū)法創(chuàng)作與學(xué)習(xí)服務(wù)

智能書(shū)法臺(tái)是線下終端,其中用到的字帖、碑帖等書(shū)法資源由書(shū)法大數(shù)據(jù)平臺(tái)管理。智能書(shū)法臺(tái)采集用戶(hù)創(chuàng)作數(shù)據(jù),通過(guò)互聯(lián)網(wǎng)將作品等重要數(shù)據(jù)傳輸至?xí)ù髷?shù)據(jù)平臺(tái),平臺(tái)通過(guò)分析這些數(shù)據(jù),提供多種智能服務(wù),如用戶(hù)作品智能評(píng)價(jià)、書(shū)法資源語(yǔ)義檢索、書(shū)法資源推薦等。

4.2 數(shù)字書(shū)法作品集協(xié)同創(chuàng)作服務(wù)

書(shū)法體驗(yàn)網(wǎng)站是書(shū)法大數(shù)據(jù)平臺(tái)的線上前端,提供群體協(xié)同創(chuàng)作服務(wù)。用戶(hù)在書(shū)法體驗(yàn)網(wǎng)站創(chuàng)建書(shū)法作品集創(chuàng)作組,如《李白詩(shī)集》書(shū)法創(chuàng)作組,并允許其他用戶(hù)參與符合主題的數(shù)字書(shū)法作品的創(chuàng)作,形成作品集。創(chuàng)作組成員可以在智能書(shū)法臺(tái)續(xù)寫(xiě)書(shū)法作品集并上傳,以擴(kuò)充作品集。線上網(wǎng)站結(jié)合線下設(shè)備,借助智能協(xié)同創(chuàng)作算法實(shí)現(xiàn)協(xié)同書(shū)法創(chuàng)作,多人多用戶(hù)合作完成一部書(shū)法作品。

4.3 在線書(shū)法作品競(jìng)技及交流服務(wù)

書(shū)法體驗(yàn)網(wǎng)站提供在線書(shū)法作品競(jìng)技服務(wù),允許用戶(hù)對(duì)其他用戶(hù)創(chuàng)作的書(shū)法作品發(fā)表評(píng)論,并展示自己創(chuàng)作的相同內(nèi)容或相同風(fēng)格的作品,供對(duì)比討論。書(shū)法體驗(yàn)網(wǎng)站提供作品資源推薦服務(wù),通過(guò)分析用戶(hù)的創(chuàng)作和行為數(shù)據(jù),為用戶(hù)推薦競(jìng)技交流的作品。

4.4 數(shù)字書(shū)法創(chuàng)作的可視分析服務(wù)

書(shū)法大數(shù)據(jù)平臺(tái)通過(guò)基于流計(jì)算模型的實(shí)時(shí)數(shù)據(jù)流分析技術(shù),實(shí)時(shí)處理高維數(shù)據(jù);使用基于地圖的動(dòng)態(tài)顯示技術(shù),實(shí)現(xiàn)對(duì)智能書(shū)法臺(tái)等設(shè)備的實(shí)時(shí)監(jiān)控和分析。用戶(hù)可以通過(guò)基于交互式機(jī)器學(xué)習(xí)的可視分析技術(shù),對(duì)時(shí)間序列數(shù)據(jù)和地理空間數(shù)據(jù)進(jìn)行多層次、多尺度的聚合分析,根據(jù)海量歷史數(shù)據(jù)進(jìn)行多維度統(tǒng)計(jì)分析和趨勢(shì)分析。使用基于目標(biāo)檢測(cè)的圖像分割算法和基于深度學(xué)習(xí)的毛筆字手寫(xiě)識(shí)別算法,分析書(shū)法大數(shù)據(jù)平臺(tái)的書(shū)寫(xiě)內(nèi)容,識(shí)別數(shù)字書(shū)法作品內(nèi)容,并統(tǒng)計(jì)分析書(shū)寫(xiě)熱詞。同時(shí),通過(guò)對(duì)基于循環(huán)神經(jīng)網(wǎng)絡(luò)的用戶(hù)活躍度,包括時(shí)間、地點(diǎn)和書(shū)寫(xiě)內(nèi)容等數(shù)據(jù)進(jìn)行分析,識(shí)別用戶(hù)創(chuàng)作行為模式,分析用戶(hù)活躍度,挖掘潛在用戶(hù)。

5 應(yīng)用案例

5.1 基于協(xié)同創(chuàng)作模式的數(shù)字書(shū)法作品集創(chuàng)作

首先,建立數(shù)字化共享書(shū)寫(xiě)模式,在社區(qū)、文化館、圖書(shū)館、火車(chē)站、機(jī)場(chǎng)、博物館、文化館、高校、文化機(jī)構(gòu)、文化展廳投放智能書(shū)法臺(tái),為數(shù)字書(shū)法創(chuàng)作提供便利。在書(shū)法集字和集書(shū)活動(dòng)中,鼓勵(lì)分布在不同地點(diǎn)的用戶(hù)共同參與創(chuàng)作。例如,某一用戶(hù)在書(shū)法體驗(yàn)網(wǎng)站發(fā)起《李白詩(shī)集》書(shū)法創(chuàng)作活動(dòng),參與用戶(hù)可分別在不同的智能書(shū)法臺(tái)進(jìn)行創(chuàng)作,最后匯集到書(shū)法大數(shù)據(jù)平臺(tái),平臺(tái)自動(dòng)進(jìn)行集書(shū)內(nèi)容結(jié)構(gòu)構(gòu)建?;顒?dòng)結(jié)束后,數(shù)據(jù)進(jìn)入分析系統(tǒng),形成智能化的評(píng)分和評(píng)價(jià),也可以在網(wǎng)站、移動(dòng)APP 等終端進(jìn)行人工評(píng)價(jià),人工評(píng)價(jià)內(nèi)容可反饋到分析模塊,形成最終評(píng)分。完成眾創(chuàng)作品《〈李白詩(shī)集〉書(shū)法創(chuàng)作》后,可以下載、打印甚至出版,也可用于制作文化創(chuàng)意小禮品等,如圖5 所示。

該模式的優(yōu)勢(shì)和亮點(diǎn)在于,第1,融合大數(shù)據(jù)和人工智能支持的書(shū)法文化休閑與傳播的全新模式。第2,與大數(shù)據(jù)技術(shù)緊密結(jié)合,為用戶(hù)提供書(shū)法知識(shí)、書(shū)法作品和交流伙伴的個(gè)性化推薦服務(wù)。第3,基于大數(shù)據(jù)的智能評(píng)價(jià)體系,通過(guò)計(jì)算機(jī)視覺(jué)技術(shù)和美學(xué)計(jì)算方法,結(jié)合用戶(hù)的評(píng)價(jià)和評(píng)估,研究綜合評(píng)價(jià)指標(biāo)和算法,實(shí)現(xiàn)對(duì)書(shū)法作品的智能量化評(píng)價(jià),使書(shū)法作品可量化、可比對(duì)、可訂制、可分享、可結(jié)集,使其成為一種經(jīng)濟(jì)、環(huán)保、便利的集文化旅游、休閑和社交于一體的新模式。

圖5 群體書(shū)法集創(chuàng)作Fig.5 Crowd-based calligraphy collection

5.2 基于協(xié)同評(píng)估模式的共享學(xué)習(xí)和數(shù)字書(shū)法競(jìng)賽

在書(shū)法教學(xué)過(guò)程中,對(duì)參賽作品的點(diǎn)評(píng)是其中的一個(gè)重要環(huán)節(jié)。書(shū)法老師可以在書(shū)法體驗(yàn)網(wǎng)站創(chuàng)建課程組,邀請(qǐng)學(xué)員加入,學(xué)員可在智能書(shū)法臺(tái)進(jìn)行書(shū)寫(xiě)練習(xí),并將作品上傳至?xí)ù髷?shù)據(jù)平臺(tái),書(shū)法老師可在書(shū)法體驗(yàn)網(wǎng)站,對(duì)作品進(jìn)行點(diǎn)評(píng)和指導(dǎo),其他學(xué)員也可就作品進(jìn)行交流討論。如果書(shū)法老師或其他學(xué)員認(rèn)為該作品存在不足,并希望親自重寫(xiě)示教或交流比較,則可在智能書(shū)法臺(tái)進(jìn)行創(chuàng)作,將其發(fā)布在書(shū)法體驗(yàn)網(wǎng)站,并與原作品做比對(duì)。當(dāng)眾多學(xué)員分別書(shū)寫(xiě)書(shū)法作品并進(jìn)行比較時(shí),會(huì)形成書(shū)法作品比賽,書(shū)法老師可以對(duì)比賽進(jìn)行點(diǎn)評(píng)和打分,學(xué)員也可以參與評(píng)分和討論。

該模式的優(yōu)勢(shì)在于:第1,省去了一般性書(shū)法比賽煩瑣的征稿、匯總、評(píng)選等環(huán)節(jié),可以隨時(shí)隨地發(fā)起比賽,由系統(tǒng)自動(dòng)處理,效率成倍提高,且不受時(shí)間、空間的限制,節(jié)省了大量的比賽成本。第2,作品比賽結(jié)果既可以提交給書(shū)法專(zhuān)家進(jìn)行評(píng)價(jià),也可以由書(shū)友投票評(píng)選。此外,書(shū)法體驗(yàn)網(wǎng)站具有的書(shū)法作品智能協(xié)同評(píng)估功能,可綜合各方評(píng)價(jià),對(duì)作品進(jìn)行綜合評(píng)價(jià)和排名,保證評(píng)選的公正性和合理性。第3,鑒于書(shū)法類(lèi)競(jìng)賽的特殊性,在大數(shù)據(jù)的支持下,可以兼顧文化知識(shí)、詩(shī)詞等相關(guān)方面的競(jìng)賽,使書(shū)法回歸傳統(tǒng)文化大道。第4,通過(guò)對(duì)書(shū)寫(xiě)動(dòng)態(tài)過(guò)程的數(shù)據(jù)采集和軌跡分析,了解用戶(hù)書(shū)寫(xiě)動(dòng)作的基本狀態(tài),進(jìn)而分析書(shū)寫(xiě)者興趣、書(shū)法技能等,形成對(duì)個(gè)人綜合修養(yǎng)、文化素質(zhì)等多維評(píng)價(jià)結(jié)果。

5.3 數(shù)字書(shū)法創(chuàng)作行為的可視分析

文化研究者或社會(huì)研究者,通過(guò)書(shū)法大數(shù)據(jù)平臺(tái)提供的可視分析功能,對(duì)數(shù)字書(shū)法創(chuàng)作行為進(jìn)行多層次、多維度分析。

書(shū)法大數(shù)據(jù)平臺(tái)的可視分析界面如圖6 所示,中間部分是地圖視圖,展示了智能書(shū)法臺(tái)的地理空間分布,其中,紅色圖標(biāo)代表智能書(shū)法臺(tái)所處的位置。研究者通過(guò)觀察圖標(biāo)跳動(dòng)情況,實(shí)時(shí)了解活動(dòng)動(dòng)態(tài)和活躍程度。在智能書(shū)法臺(tái)前端向云平臺(tái)發(fā)送的實(shí)時(shí)創(chuàng)作數(shù)據(jù)中,包括了智能書(shū)法臺(tái)所在地的相關(guān)信息,如智能書(shū)法臺(tái)的IP 地址、人工標(biāo)注的智能書(shū)法臺(tái)部署地點(diǎn)等。此外,書(shū)法創(chuàng)作可視分析還可提供多層次的統(tǒng)計(jì)分析和預(yù)測(cè)。通過(guò)統(tǒng)計(jì)分析作品的歷史數(shù)據(jù),可以發(fā)現(xiàn)書(shū)法創(chuàng)作活動(dòng)的時(shí)間性信息和空間性信息,這些信息有助于分析社會(huì)文化活動(dòng)規(guī)律。分析者可根據(jù)需求,通過(guò)交互,調(diào)整時(shí)間和地理空間參數(shù),實(shí)現(xiàn)不同尺度的時(shí)空數(shù)據(jù)分析。圖6左側(cè)展示了年、月、日、小時(shí)等不同時(shí)間尺度信息,右側(cè)則展示了省級(jí)、市級(jí)等不同空間尺度信息。除了進(jìn)行統(tǒng)計(jì)分析外,平臺(tái)還提供對(duì)未來(lái)一段時(shí)間用戶(hù)創(chuàng)作活動(dòng)趨勢(shì)的預(yù)測(cè)。

圖6 可視分析界面Fig.6 GUI of visual analytics

書(shū)法創(chuàng)作可視分析具有內(nèi)容識(shí)別功能,用戶(hù)創(chuàng)作的書(shū)法作品可以圖片格式保存,通過(guò)筆者研發(fā)的書(shū)法字識(shí)別算法實(shí)現(xiàn)對(duì)圖片中書(shū)法字的識(shí)別。

構(gòu)建了基于VGG 神經(jīng)網(wǎng)絡(luò)模型的深度學(xué)習(xí)模型,使用TinyMind 第一屆漢字書(shū)法識(shí)別挑戰(zhàn)賽的數(shù)據(jù)進(jìn)行訓(xùn)練,數(shù)據(jù)包含100 個(gè)常用漢字,每個(gè)漢字有400 張圖片。經(jīng)過(guò)模型優(yōu)化,楷書(shū)和行書(shū)的識(shí)別率達(dá)到93%,隸書(shū)的識(shí)別率約為85%,但草書(shū)和篆書(shū)的識(shí)別率較低,低于50%。對(duì)楷書(shū)和行書(shū)的書(shū)法字內(nèi)容識(shí)別基本達(dá)到了可用的程度。將被識(shí)別出的書(shū)法字保存在數(shù)據(jù)庫(kù)中,可作為作品的元數(shù)據(jù)。

6 實(shí) 驗(yàn)

對(duì)書(shū)法大數(shù)據(jù)平臺(tái)進(jìn)行了實(shí)驗(yàn)和分析。實(shí)驗(yàn)重點(diǎn)聚焦于平臺(tái)整體的有效性和擴(kuò)展性。書(shū)法大數(shù)據(jù)平臺(tái)是基于云計(jì)算架構(gòu)的分布式系統(tǒng),相比傳統(tǒng)集中型架構(gòu)系統(tǒng),其優(yōu)勢(shì)更多體現(xiàn)在擴(kuò)展性上。本實(shí)驗(yàn)擬驗(yàn)證:相對(duì)于傳統(tǒng)的集中型架構(gòu)系統(tǒng),書(shū)法大數(shù)據(jù)平臺(tái)能夠在保證良好性能的前提下,提供更強(qiáng)的擴(kuò)展能力。

6.1 書(shū)法大數(shù)據(jù)平臺(tái)性能實(shí)驗(yàn)

本實(shí)驗(yàn)使用的指標(biāo)是并發(fā)請(qǐng)求量、平均響應(yīng)時(shí)間和平均吞吐量。并發(fā)請(qǐng)求量是指同一時(shí)刻向服務(wù)器發(fā)送請(qǐng)求的數(shù)量。響應(yīng)時(shí)間是指從發(fā)出請(qǐng)求到返回結(jié)果所耗費(fèi)的時(shí)間。平均響應(yīng)時(shí)間是指在一定時(shí)間周期內(nèi)批量請(qǐng)求響應(yīng)時(shí)間的均值。平均吞吐量為每秒處理請(qǐng)求的數(shù)量。

6.1.1 實(shí)驗(yàn)設(shè)計(jì)

將書(shū)法大數(shù)據(jù)平臺(tái)與傳統(tǒng)架構(gòu)系統(tǒng)分別部署在相同云環(huán)境的Linux 虛擬機(jī)上?;九渲萌绫? 所示。2 個(gè)實(shí)驗(yàn)系統(tǒng)的軟件均采用默認(rèn)配置,未進(jìn)行特定優(yōu)化。傳統(tǒng)架構(gòu)系統(tǒng)的虛擬機(jī)共4 臺(tái),分別部署了 Tomcat 服務(wù)器、MySQL 服務(wù)器、MongoDB 服務(wù)器、Linux 文件服務(wù)器。書(shū)法大數(shù)據(jù)平臺(tái)包含1臺(tái)NginX服務(wù)器 、2 臺(tái) Tomcat服務(wù)器、2臺(tái)部署MySQL Cluster集群、1臺(tái) MongoDB 服務(wù)器、3 臺(tái)部署 Hadoop和HBase系統(tǒng)、2臺(tái)部署在 Linux 上 的Ceph 文件服務(wù)器。

6.1.2 實(shí)驗(yàn)工具及方法

使用Apache JMeter,通過(guò)多線程以線性增長(zhǎng)的方式分別向2 個(gè)系統(tǒng)發(fā)送500 個(gè)請(qǐng)求,記錄并統(tǒng)計(jì)吞吐量和平均響應(yīng)時(shí)間。請(qǐng)求的類(lèi)型包括主頁(yè)訪問(wèn)、訪問(wèn)MySQL 數(shù)據(jù)庫(kù)以及磁盤(pán)文件訪問(wèn)的http請(qǐng)求。

表1 實(shí)驗(yàn)環(huán)境Table 1 configuration

6.1.3 實(shí)驗(yàn)結(jié)果及分析

實(shí)驗(yàn)結(jié)果如表2、圖7 和圖8 所示。

由表2 可知,書(shū)法大數(shù)據(jù)平臺(tái)的起始平均吞吐量略微低于傳統(tǒng)架構(gòu)系統(tǒng),這是由分布式系統(tǒng)的消息通信特性所造成的。傳統(tǒng)架構(gòu)系統(tǒng)在并發(fā)請(qǐng)求量達(dá)到150 后,平均吞吐量增長(zhǎng)減緩,并逐漸接近峰值;在并發(fā)請(qǐng)求量為300 時(shí)出現(xiàn)瓶頸。書(shū)法大數(shù)據(jù)平臺(tái)在并發(fā)請(qǐng)求量為400 時(shí)達(dá)到峰值,之后平均吞吐量大幅下降。所以,書(shū)法大數(shù)據(jù)平臺(tái)比傳統(tǒng)架構(gòu)系統(tǒng)有更好的吞吐能力,且每秒處理請(qǐng)求的能力是完全可以接受的。2 個(gè)系統(tǒng)的平均響應(yīng)時(shí)間在并發(fā)請(qǐng)求量在300 以?xún)?nèi)時(shí)都是可以接受的。但傳統(tǒng)架構(gòu)系統(tǒng)在并發(fā)請(qǐng)求量高于300 時(shí),平均響應(yīng)時(shí)間明顯增長(zhǎng),說(shuō)明系統(tǒng)性能已到瓶頸,而書(shū)法大數(shù)據(jù)平臺(tái)因采用分布式結(jié)構(gòu),當(dāng)并發(fā)請(qǐng)求量高于400 時(shí),平均響應(yīng)時(shí)間才明顯增長(zhǎng),系統(tǒng)性能開(kāi)始下降。這與平均吞吐量實(shí)驗(yàn)結(jié)果一致。

圖7 為2 個(gè)實(shí)驗(yàn)系統(tǒng)平均吞吐量的實(shí)驗(yàn)結(jié)果??傮w來(lái)說(shuō),2 個(gè)系統(tǒng)的平均吞吐量變化趨勢(shì)都是正常的,在請(qǐng)求發(fā)送初始階段,并發(fā)請(qǐng)求量還未達(dá)到系統(tǒng)的吞吐飽和量,平均吞吐量呈增加趨勢(shì)。隨著并發(fā)請(qǐng)求量的增加,需要系統(tǒng)處理的量越來(lái)越大,逐漸達(dá)到飽和,此時(shí),系統(tǒng)剛好能處理發(fā)來(lái)的全部請(qǐng)求,平均吞吐量達(dá)到頂峰。當(dāng)并發(fā)請(qǐng)求量繼續(xù)增加時(shí),系統(tǒng)不足以處理發(fā)來(lái)的請(qǐng)求,出現(xiàn)瓶頸,平均吞吐量開(kāi)始下降。

圖8 為2 個(gè)試驗(yàn)系統(tǒng)平均響應(yīng)時(shí)間的實(shí)驗(yàn)結(jié)果。總體來(lái)看,2 個(gè)系統(tǒng)平均響應(yīng)時(shí)間都隨并發(fā)請(qǐng)求量的增大而變長(zhǎng),但書(shū)法大數(shù)據(jù)平臺(tái)的平均響應(yīng)時(shí)間略長(zhǎng)于傳統(tǒng)架構(gòu)系統(tǒng),原因?yàn)闀?shū)法大數(shù)據(jù)平臺(tái)的分布式消息傳遞造成延時(shí)。

表2 實(shí)驗(yàn)結(jié)果Table 2 Experimental results

圖7 平均吞吐量實(shí)驗(yàn)Fig.7 Experiment of average throughput

圖8 平均響應(yīng)時(shí)間實(shí)驗(yàn)Fig.8 Experiment of average response time

綜上,書(shū)法大數(shù)據(jù)平臺(tái)的系統(tǒng)性能在并發(fā)請(qǐng)求量不大時(shí)與傳統(tǒng)架構(gòu)系統(tǒng)的性能相差不大,隨著并發(fā)請(qǐng)求量的增加,其性能優(yōu)勢(shì)漸顯,同時(shí),書(shū)法大數(shù)據(jù)平臺(tái)的絕對(duì)處理能力符合Web 應(yīng)用系統(tǒng)的性能要求。

6.2 書(shū)法大數(shù)據(jù)平臺(tái)性能魯棒性實(shí)驗(yàn)

從書(shū)法大數(shù)據(jù)平臺(tái)的平均響應(yīng)時(shí)間實(shí)驗(yàn)看,當(dāng)并發(fā)請(qǐng)求量為400 時(shí)出現(xiàn)拐點(diǎn),之后出現(xiàn)瓶頸,性能開(kāi)始下降,同樣的情況出現(xiàn)在平均吞吐量實(shí)驗(yàn)上。在出現(xiàn)瓶頸的情況下,對(duì)書(shū)法大數(shù)據(jù)平臺(tái)進(jìn)行水平擴(kuò)展,分析其性能是否能夠穩(wěn)定在合理水平。實(shí)驗(yàn)擬證明書(shū)法大數(shù)據(jù)平臺(tái)可以通過(guò)水平擴(kuò)展增大并發(fā)處理能力,保證平臺(tái)的魯棒性。

6.2.1 實(shí)驗(yàn)設(shè)計(jì)

書(shū)法大數(shù)據(jù)平臺(tái)由多種子系統(tǒng)構(gòu)成,為了降低實(shí)驗(yàn)的復(fù)雜度,采用簡(jiǎn)單方式進(jìn)行擴(kuò)展性實(shí)驗(yàn)。共進(jìn)行了4 組實(shí)驗(yàn),每組實(shí)驗(yàn)平臺(tái)都在前一實(shí)驗(yàn)的基礎(chǔ)上進(jìn)行水平擴(kuò)展,記錄并分析每組實(shí)驗(yàn)的平均吞吐量瓶頸。實(shí)驗(yàn)使用的虛擬機(jī)節(jié)點(diǎn)量如表3 所示。

表3 書(shū)法大數(shù)據(jù)平臺(tái)擴(kuò)展性實(shí)驗(yàn)配置Table 3 Setup of experiment of expansibility單位:臺(tái)

6.2.2 實(shí)驗(yàn)結(jié)果及分析

實(shí)驗(yàn)結(jié)果如圖9 所示。由圖9 可知,隨著書(shū)法大數(shù)據(jù)平臺(tái)的擴(kuò)展,平均吞吐量呈增長(zhǎng)趨勢(shì),系統(tǒng)性能得到增強(qiáng)。因此,書(shū)法大數(shù)據(jù)平臺(tái)能夠通過(guò)水平擴(kuò)展增強(qiáng)其并發(fā)處理能力。實(shí)驗(yàn)驗(yàn)證了書(shū)法大數(shù)據(jù)平臺(tái)是有效的,也驗(yàn)證了此前的猜想。

綜上,書(shū)法大數(shù)據(jù)平臺(tái)的架構(gòu)在性能上符合應(yīng)用要求,并具有較好的水平擴(kuò)展能力,可根據(jù)實(shí)際需要擴(kuò)展和增強(qiáng)系統(tǒng)性能。

圖9 書(shū)法大數(shù)據(jù)平臺(tái)擴(kuò)展性實(shí)驗(yàn)結(jié)果Fig.9 Experiment of expansibility of the platform

7 結(jié)論與展望

隨著互聯(lián)網(wǎng)、大數(shù)據(jù)和人工智能等技術(shù)的突破性進(jìn)展,書(shū)法作為中國(guó)傳統(tǒng)文化的瑰寶,亟須將傳統(tǒng)方式與信息化和智能化技術(shù)相融合。

提出的書(shū)法大數(shù)據(jù)平臺(tái),通過(guò)云平臺(tái)與線上線下的終端相結(jié)合,在共享、交流、創(chuàng)作和分析等方面,為用戶(hù)提供智能化服務(wù)。運(yùn)用大數(shù)據(jù)、機(jī)器學(xué)習(xí)、可視分析等智能化技術(shù),實(shí)現(xiàn)了書(shū)法體驗(yàn)的傳統(tǒng)與現(xiàn)代相結(jié)合、書(shū)法資源的線上與線下相結(jié)合、作品創(chuàng)作的個(gè)體與群體相結(jié)合,有助于發(fā)展和創(chuàng)新傳統(tǒng)書(shū)法的創(chuàng)作、交流和學(xué)習(xí)的手段和途徑,有效促進(jìn)書(shū)法文化的發(fā)展,提高群眾的書(shū)法文化素養(yǎng)。

本文提出的書(shū)法大數(shù)據(jù)平臺(tái),尚有一些亟待解決的問(wèn)題。在平臺(tái)擴(kuò)展性方面,雖然實(shí)現(xiàn)了對(duì)已有節(jié)點(diǎn)請(qǐng)求處理的負(fù)載均衡,但在節(jié)點(diǎn)自動(dòng)擴(kuò)展方面仍未實(shí)現(xiàn)智能化,下一步需要通過(guò)機(jī)器學(xué)習(xí)優(yōu)化自動(dòng)彈性擴(kuò)展策略,實(shí)現(xiàn)平臺(tái)利用最大化。在平臺(tái)安全性方面也存在不足,雖然平臺(tái)使用了當(dāng)前的前沿技術(shù),但并未進(jìn)行嚴(yán)格的安全測(cè)試,在安全漏洞定位和預(yù)防性安全控制方面,仍需進(jìn)一步加強(qiáng)。由于平臺(tái)集成了大量異構(gòu)數(shù)據(jù),這些數(shù)據(jù)存在語(yǔ)義關(guān)聯(lián),是很好的共享和分析資源,然而,由于其異構(gòu)特點(diǎn),目前還沒(méi)有打通異構(gòu)數(shù)據(jù)資源之間的關(guān)聯(lián)性,下一步將聚焦異構(gòu)數(shù)據(jù)集成,通過(guò)定義數(shù)據(jù)語(yǔ)義模型和接口,將異構(gòu)數(shù)據(jù)進(jìn)行集成。此外,在版權(quán)保護(hù)方面也存在不足,在資源共享過(guò)程中存在被盜版風(fēng)險(xiǎn),未來(lái)將聚焦此問(wèn)題,重點(diǎn)研究數(shù)字水印技術(shù)和區(qū)塊鏈在用戶(hù)協(xié)同創(chuàng)作中的應(yīng)用,鎖定用戶(hù)版權(quán)。另外,為更好地分析書(shū)法作品的內(nèi)容數(shù)據(jù),需研究更加精準(zhǔn)的書(shū)法字識(shí)別算法。

猜你喜歡
書(shū)法創(chuàng)作智能
書(shū)法
大江南北(2022年9期)2022-09-07 13:13:48
書(shū)法欣賞
求知(2022年5期)2022-05-14 01:28:58
書(shū)法
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
《一墻之隔》創(chuàng)作談
書(shū)法欣賞
吐魯番(2018年1期)2018-06-12 07:15:26
創(chuàng)作隨筆
文藝論壇(2016年23期)2016-02-28 09:24:07
皋兰县| 肇源县| 巩留县| 渝中区| 神池县| 肇庆市| 桦川县| 巨鹿县| 湘潭县| 嘉善县| 海原县| 原阳县| 鄂温| 栾川县| 白银市| 金华市| 济南市| 隆昌县| 青海省| 民乐县| 大渡口区| 德保县| 新化县| 乐安县| 泰顺县| 思茅市| 乐至县| 土默特左旗| 永新县| 屯留县| 马山县| 松阳县| 巩留县| 青阳县| 玛曲县| 鄱阳县| 福贡县| 卢湾区| 瑞金市| 益阳市| 邵阳市|