張璇,王志紅,劉盈盈,王靈,古婷驊,王維佳,劉慧云
大數(shù)據(jù)時(shí)代的信息管理:為了一個(gè)更好的世界
——第六屆“變化世界中的信息管理國際研討會(huì)”綜述
張璇,王志紅,劉盈盈,王靈,古婷驊,王維佳,劉慧云
早在1980年,著名未來學(xué)家阿爾文·托夫勒便在《第三次浪潮》中明確提出“數(shù)據(jù)就是財(cái)富”的觀點(diǎn),并贊譽(yù)大數(shù)據(jù)為第三次浪潮的華彩樂章。2012年5月,聯(lián)合國發(fā)布《大數(shù)據(jù)促發(fā)展:挑戰(zhàn)與機(jī)遇》白皮書,指出大數(shù)據(jù)對(duì)全世界是一個(gè)歷史性的機(jī)遇,可以利用大數(shù)據(jù)造福人類。在過去三年里,大數(shù)據(jù)在商業(yè)、科技、政府等各個(gè)領(lǐng)域都引起高度關(guān)注,大數(shù)據(jù)帶來的深刻影響和巨大價(jià)值逐漸被認(rèn)識(shí),它通過技術(shù)的創(chuàng)新與發(fā)展,以及數(shù)據(jù)的全面感知、收集、分析、共享,為我們提供了一種全新的看待世界的方法,大數(shù)據(jù)帶來的信息風(fēng)暴正在全方位地改變著我們的生活、工作和思維。
第六屆“變化世界中的信息管理國際研討會(huì)”(Information Management in a Changing World,IMCW)于2015年11月25~26日在中山大學(xué)康樂園舉行,會(huì)議由中山大學(xué)與土耳其哈斯特帕大學(xué)聯(lián)合主辦,全國圖書情報(bào)專業(yè)學(xué)位研究生教育指導(dǎo)委員會(huì)協(xié)辦。IMCW曾經(jīng)在土耳其、愛爾蘭成功舉辦。會(huì)議吸引了來自中國、土耳其、美國、日本、斯洛文尼亞和卡塔爾的多位信息專家、數(shù)據(jù)管理專家、圖書館專業(yè)人士、檔案專業(yè)人士、計(jì)算機(jī)與信息科學(xué)家,以及學(xué)術(shù)數(shù)據(jù)庫商與工程師等。開幕式由中山大學(xué)資訊管理學(xué)院院長助理韋景竹和土耳其哈斯特帕大學(xué)Serap Kurbanoglu教授主持,中山大學(xué)副校長李善民出席開幕式并致歡迎辭,簡要介紹了此次會(huì)議的主題;土耳其哈斯特帕大學(xué)Bülent Yilmaz教授和Yaar Tonta教授、武漢大學(xué)馬費(fèi)成教授分別致辭,Bülent Yilmaz教授介紹了大數(shù)據(jù)的概念、規(guī)則和技術(shù),認(rèn)為我們應(yīng)該做好準(zhǔn)備迎接大數(shù)據(jù)社會(huì)的到來;Yaar Tonta教授提到大數(shù)據(jù)在過去兩年中帶來的全球性影響,既是一個(gè)很大的機(jī)遇,也是一個(gè)很大的挑戰(zhàn);馬費(fèi)成教授認(rèn)為我們已經(jīng)進(jìn)入嶄新的信息管理時(shí)代,數(shù)據(jù)研究的收集、組織和整理等方面有很多值得探索的問題。此次研討會(huì)的主題是“大數(shù)據(jù)時(shí)代的信息管理:為了一個(gè)更好的世界”,各位專家學(xué)者圍繞大數(shù)據(jù)環(huán)境下的信息管理,討論大數(shù)據(jù)帶來的變革和機(jī)遇,探討信息素養(yǎng)和LIS教育,研究大數(shù)據(jù)相關(guān)的法律和政策,尋找大數(shù)據(jù)環(huán)境下各種科學(xué)評(píng)價(jià)方法的選擇和應(yīng)用,探索各類型信息資源的管理,研究用戶行為以及數(shù)據(jù)挖掘、處理、組織和檢索的創(chuàng)新方式等重大問題。會(huì)議設(shè)置了主會(huì)場和分會(huì)場,其中兩大主題報(bào)告、七個(gè)邀請(qǐng)報(bào)告在主會(huì)場進(jìn)行,其余21個(gè)討論報(bào)告分別在兩個(gè)分會(huì)場進(jìn)行。
面對(duì)大數(shù)據(jù)帶來的變化,國內(nèi)外圖書情報(bào)學(xué)界已展開了諸多研究,大數(shù)據(jù)研究方法體系逐漸形成,積極探索各領(lǐng)域內(nèi)的數(shù)據(jù)感知、收集、分析、共享成為共同關(guān)注的焦點(diǎn)。
中山大學(xué)甘春梅博士利用文獻(xiàn)計(jì)量法繪制我國有關(guān)大數(shù)據(jù)研究論文的整體結(jié)構(gòu),采用共詞分析法分析各研究主題間的關(guān)系,得出383篇CSSCI論文的發(fā)表情況及研究進(jìn)展符合增長模式的模擬指數(shù),29個(gè)高頻關(guān)鍵詞其頻率服從冪律分布,10個(gè)集群代表我國大數(shù)據(jù)研究的10個(gè)主題,研究主題相對(duì)分散表明我國關(guān)于大數(shù)據(jù)的研究發(fā)展水平較為不平衡的結(jié)論。
同方知網(wǎng)柯春曉社長從傳統(tǒng)情報(bào)研究方法體系、大數(shù)據(jù)帶來的研究環(huán)境變化、情報(bào)研究方法的變化和應(yīng)對(duì)策略四方面出發(fā),著重介紹情報(bào)研究方法的變化:一是課題選擇從主動(dòng)選題和被動(dòng)選題到無計(jì)劃式選題;二是情報(bào)搜集的方式發(fā)生巨大變化;三是傳統(tǒng)的信息整序理論已融入計(jì)算機(jī)程序中,通過計(jì)算機(jī)完成整序工作;四是大數(shù)據(jù)環(huán)境下的科學(xué)抽象須借助云計(jì)算、嵌入抽象方法的大數(shù)據(jù)平臺(tái),以及借助方法的綜合應(yīng)用;五是可視化、動(dòng)態(tài)化和工具化成為情報(bào)研究成果表達(dá)的新形式;六是通過研究過程的科學(xué)記錄來評(píng)價(jià)研究貢獻(xiàn)將成為新的評(píng)價(jià)方法。
在本次研討會(huì)中,有三位學(xué)者的報(bào)告分別展示了博物館、文化學(xué)和出版業(yè)界為應(yīng)對(duì)大數(shù)據(jù)時(shí)代的挑戰(zhàn)和機(jī)遇進(jìn)行的深度分析和變革。
日本筑波大學(xué)EijiMizushima教授用大量的圖片展示了國家歷史遺址、文化遺產(chǎn)的數(shù)字化問題,介紹了歷史文化遺產(chǎn)的內(nèi)涵和面臨的危機(jī)。現(xiàn)場播放被地震損壞的日本弘道館記碑相關(guān)視頻,引發(fā)與會(huì)者思考?xì)v史遺產(chǎn)保護(hù)問題。針對(duì)歷史遺產(chǎn)保護(hù)問題,他介紹了日本正致力的幾項(xiàng)工作,日本已建立博物館Darwin Core元數(shù)據(jù),日本博物館的標(biāo)本信息數(shù)據(jù)正是以Darwin Core元數(shù)據(jù)為標(biāo)準(zhǔn),納入國家自然博物館信息管理系統(tǒng)進(jìn)行管理。他也指出,日本仍有50%的博物館并未建立標(biāo)本分類目錄,國際上還有眾多文化遺產(chǎn)亟待整理和管理。
華中師范大學(xué)劉凱博士從文化組學(xué)的角度分析大數(shù)據(jù),文化組學(xué)即文化和基因組相結(jié)合,利用數(shù)學(xué)方法分析海量文本數(shù)據(jù),從而分析人類文化的發(fā)展和演變。他以社會(huì)主義核心價(jià)值觀的文化基因組分析為對(duì)象,在《人民日?qǐng)?bào)》語料庫和臺(tái)灣政治刊物語料庫的基礎(chǔ)上,利用爬蟲和分詞技術(shù)分析,構(gòu)建一個(gè)多維度的模型分析核心價(jià)值觀的分布地區(qū)和時(shí)間,并通過可視化圖形展示了分析結(jié)果。
中南大學(xué)劉燦嬌教授介紹了大數(shù)據(jù)時(shí)代數(shù)字資源建設(shè)的新要求,她以湖南省七個(gè)出版社為研究樣本,指出數(shù)字資源建設(shè)存在技術(shù)基礎(chǔ)薄弱、架構(gòu)不合理;財(cái)政投入極度不足和資源分配不均;資源利用效率低下,效益不足;資源管理機(jī)制不健全,第三方評(píng)價(jià)機(jī)構(gòu)缺失等問題,并建議:提高資本和人才投入水平,鞏固建設(shè)基礎(chǔ);深化資源聚集和優(yōu)化資源結(jié)構(gòu);開闊推廣渠道和提高效率;優(yōu)化管理機(jī)制和尋求可持續(xù)發(fā)展。她強(qiáng)調(diào)優(yōu)化管理機(jī)制和尋求可持續(xù)發(fā)展之路,最重要的是提高數(shù)字資源評(píng)估系統(tǒng)的質(zhì)量和建立獨(dú)立的數(shù)字資源評(píng)估系統(tǒng)。
信息素養(yǎng)是全球信息化背景下需要掌握的重要技能,對(duì)LIS專業(yè)學(xué)生而言,信息素養(yǎng)更是必備的能力素質(zhì)。如何通過終身學(xué)習(xí)和信息素養(yǎng)課程改革提高學(xué)生信息素養(yǎng)和技能成為與會(huì)專家重點(diǎn)關(guān)注的問題。
土耳其哈斯特帕大學(xué)Serap Kurbanoglu教授探索了不同國家LIS學(xué)生信息素養(yǎng)能力的相似性及差異性,并從LIS課程價(jià)值的角度來解決問題。她在2012-2013年通過網(wǎng)絡(luò)搜集包括18個(gè)國家(以歐洲國家為主)、21名研究人員、上千位參與者的數(shù)據(jù)進(jìn)行調(diào)查。其結(jié)果雖因依賴于學(xué)生的認(rèn)知和自我陳述而存在一定的局限性,但仍對(duì)LIS教師教學(xué)理念、教學(xué)方法、教學(xué)內(nèi)容產(chǎn)生一系列影響,未來她還將對(duì)更多國家(如亞洲各國)學(xué)生信息素養(yǎng)能力進(jìn)行比較研究。
教育部“長江學(xué)者”、武漢大學(xué)研究生院院長陳傳夫教授針對(duì)LIS教育面臨的挑戰(zhàn)作了主題報(bào)告。他通過對(duì)國內(nèi)外LIS領(lǐng)域研究與實(shí)踐成果的梳理,指出LIS教育面臨互聯(lián)網(wǎng)服務(wù)、計(jì)算機(jī)社會(huì)化服務(wù)、谷歌圖書館、政府信息公開、大數(shù)據(jù)應(yīng)用、公共政策、商業(yè)數(shù)字圖書館、外包市場、大學(xué)發(fā)展戰(zhàn)略等外部挑戰(zhàn),并對(duì)國內(nèi)LIS教育面臨的24個(gè)主要挑戰(zhàn)進(jìn)行二維和多維綜合分析,總結(jié)出LIS教育面臨學(xué)科內(nèi)外和機(jī)構(gòu)內(nèi)外兩方面的挑戰(zhàn)。他認(rèn)為,LIS教育專家已關(guān)注內(nèi)部因素的挑戰(zhàn),未來應(yīng)更多地關(guān)注學(xué)科和專業(yè)機(jī)構(gòu)外的挑戰(zhàn);要注重培養(yǎng)學(xué)生跨學(xué)科能力和領(lǐng)導(dǎo)技能,并將新興技術(shù)應(yīng)用到LIS教育中。在變革與創(chuàng)新LIS學(xué)科和教育體系時(shí),需提高LIS畢業(yè)生的就業(yè)競爭力;通過創(chuàng)造更多的項(xiàng)目吸引更多的社會(huì)資本支持,進(jìn)而擴(kuò)大LIS教育的社會(huì)影響力。
在分會(huì)場,來自土耳其阿德南·曼德列斯大學(xué)的Faydaligül博士回顧了信息素養(yǎng)教育在護(hù)理學(xué)院的重要性和實(shí)踐情況,指出信息素養(yǎng)教育可作為每學(xué)期的學(xué)分制課程;不斷發(fā)展的“護(hù)理信息素養(yǎng)能力標(biāo)準(zhǔn)”可形成一個(gè)信息素養(yǎng)教育項(xiàng)目;信息素養(yǎng)課程培訓(xùn)可能由圖書館通過交互式遠(yuǎn)程教育進(jìn)行,或獨(dú)特的Y一代社會(huì)化網(wǎng)絡(luò)來開展。中山大學(xué)何靖怡同學(xué)從數(shù)據(jù)素養(yǎng)產(chǎn)生的背景出發(fā),闡述了數(shù)據(jù)素養(yǎng)能力模型的定義。她通過對(duì)中國、美國、英國等國家數(shù)據(jù)素養(yǎng)模型的數(shù)據(jù)生命周期、模型的可用情況和構(gòu)建方法以及模型的有效性進(jìn)行比較分析,得出了數(shù)據(jù)素養(yǎng)能力要求越全面,越需要更好的與之相適應(yīng)的數(shù)據(jù)素養(yǎng)教育的結(jié)論,并提出加強(qiáng)數(shù)據(jù)管理與數(shù)據(jù)素養(yǎng)教育的建議。
信息素養(yǎng)及圖書情報(bào)學(xué)教育內(nèi)涵不斷豐富和擴(kuò)展,國內(nèi)外對(duì)其重要性形成普遍的共識(shí)。在充分調(diào)查不同地區(qū)、不同學(xué)科的學(xué)生信息素養(yǎng)相似性與差異性基礎(chǔ)上,開展有針對(duì)性地、細(xì)化的、創(chuàng)新的信息素養(yǎng)教育課程,尤為有益。
科學(xué)技術(shù)日新月異,數(shù)據(jù)密集型科學(xué)興起,知識(shí)或智力資源的占有、配置、生產(chǎn)和運(yùn)用已成為經(jīng)濟(jì)發(fā)展的重要依托,知識(shí)產(chǎn)權(quán)在經(jīng)濟(jì)發(fā)展中凸顯其重要地位。在主會(huì)場,受邀專家美國南佛羅里達(dá)大學(xué)John N.Gathegi教授介紹了商業(yè)秘密法律,屬于知識(shí)產(chǎn)權(quán)的一個(gè)分支,雖然能夠防止未經(jīng)授權(quán)的訪問,保護(hù)商業(yè)機(jī)密,但數(shù)據(jù)挖掘尚未被定義為非法訪問,那么在大數(shù)據(jù)挖掘中,傳統(tǒng)商業(yè)秘密法律能否保護(hù)知識(shí)產(chǎn)權(quán)呢?他從梳理競爭情報(bào)和商業(yè)秘密的內(nèi)涵和外延等相關(guān)問題入手,介紹了傳統(tǒng)的保護(hù)商業(yè)秘密的方法和大數(shù)據(jù)挖掘產(chǎn)生后的整合商業(yè)秘密,從工業(yè)中一般不被知道的信息和知識(shí)、保護(hù)商業(yè)秘密的程度、獲取和復(fù)制相同信息是容易還是困難三個(gè)角度,分析了常規(guī)商業(yè)秘密和整合商業(yè)秘密的異同,最后,他還提出通過信息公開以推動(dòng)創(chuàng)新,例如制定嚴(yán)格的商業(yè)機(jī)密法和員工流動(dòng)法。
在分會(huì)場,土耳其哈斯特帕大學(xué)Or?un Madran教授介紹了利用知識(shí)共享許可制度來解決共享和復(fù)用大數(shù)據(jù)問題。知識(shí)共享即通過法律工具共享和利用創(chuàng)新知識(shí);知識(shí)共享許可制度是給公眾提供一套簡單、標(biāo)準(zhǔn)化的方式共享和利用知識(shí)創(chuàng)新,可讓學(xué)者輕松地從“保留所有權(quán)利”的默認(rèn)值更改至“保留部分權(quán)力”,它是不可替代的版權(quán)。他還將知識(shí)共享許可設(shè)計(jì)為合法代碼、人可讀和機(jī)器可讀三個(gè)層次,并舉例演示不同類型的許可證以及如何使用工具設(shè)置生成許可制度。
量化為特征的評(píng)價(jià)體系和模型構(gòu)建充分顯示了大數(shù)據(jù)時(shí)代從不同表現(xiàn)形式的數(shù)據(jù)中挖掘有價(jià)值信息的特征,也為完善科學(xué)研究、信息分析和用戶服務(wù)提供客觀規(guī)范和導(dǎo)向。
南京大學(xué)閔超同學(xué)從科學(xué)領(lǐng)域的“睡美人”現(xiàn)象出發(fā),提出隨著學(xué)術(shù)出版物的大量產(chǎn)生,如何識(shí)別“睡美人”成為科學(xué)評(píng)價(jià)的重要話題。他基于Eugene Garfield提出的通過被引用歷史識(shí)別遲滯承認(rèn)論文的方法,總結(jié)了平均法、百分位法、圖像法三種量化指標(biāo)的方法,指出理想的指標(biāo)應(yīng)克服任意閾值參數(shù)、僅考慮部分引文曲線和限制某些類型的引用模式三個(gè)缺陷,提出利用關(guān)聯(lián)規(guī)則分析、社交網(wǎng)絡(luò)分析和統(tǒng)計(jì)方法等大數(shù)據(jù)挖掘技術(shù)尋找這類論文。
華中師范大學(xué)王偉軍教授認(rèn)為在線商品的用戶評(píng)價(jià)對(duì)后續(xù)買家的購買意向和決定有重要影響,然而在線評(píng)論與評(píng)分之間存在較大偏差,于是從評(píng)價(jià)介入理論的話語策略和話語標(biāo)記的類型兩個(gè)角度出發(fā),構(gòu)建了用戶評(píng)價(jià)詞庫并賦值,并選取各類型商品500余條用戶評(píng)論作為樣本進(jìn)行實(shí)證分析,驗(yàn)證了用戶評(píng)價(jià)評(píng)分體系的科學(xué)性,未來他還將在樣本量的擴(kuò)充、話語標(biāo)記詞庫的拓展以及話語評(píng)價(jià)的全自動(dòng)化處理等方面深入研究。
中山大學(xué)李海濤副教授借鑒顧客滿意度模型、技術(shù)接受模型、任務(wù)技術(shù)適配模型中的觀測變量,在用戶調(diào)查基礎(chǔ)上獲取影響感知質(zhì)量的相關(guān)因素,然后通過專家訪談、探索性因子分析方法,選取感知質(zhì)量相關(guān)的關(guān)鍵因素,將政府門戶網(wǎng)站公眾滿意度結(jié)構(gòu)模型中的結(jié)構(gòu)變量轉(zhuǎn)換為可以測量的觀測變量,最后根據(jù)理論修正形成政府門戶網(wǎng)站公眾滿意度測評(píng)模型,為改進(jìn)政府門戶網(wǎng)站建設(shè)提供參考。
伴隨著科學(xué)出版物和科研數(shù)據(jù)開放存取的發(fā)展,以及科學(xué)研究第四范式的興起,網(wǎng)絡(luò)上出現(xiàn)了成千上萬的科學(xué)數(shù)據(jù)倉儲(chǔ),為科研創(chuàng)造開放和簡單共享的環(huán)境,進(jìn)而促進(jìn)開放存取議程。日本鶴見大學(xué)Nagatsuka Takashi教授梳理了日本2012-2015年發(fā)布的有關(guān)科研數(shù)據(jù)的政策和指導(dǎo)方針,旨在提高公共資金資助研究的效用;介紹了日本學(xué)術(shù)研究圖書館的科研數(shù)據(jù)管理(RDM)服務(wù),現(xiàn)已有445個(gè)學(xué)術(shù)機(jī)構(gòu)構(gòu)建了機(jī)構(gòu)庫,超出高校機(jī)構(gòu)庫數(shù)量的一半。日本已有研究機(jī)構(gòu)和學(xué)術(shù)研究圖書館作為參與實(shí)驗(yàn)項(xiàng)目的共同成員,對(duì)科研數(shù)據(jù)進(jìn)行DOI注冊(cè),圖書館和學(xué)術(shù)圖書館員正在也應(yīng)該在科研數(shù)據(jù)管理中扮演重要的角色。
鶴見大學(xué)另一位教授Hiroyuki Tsunoda根據(jù)SCI劃分出十個(gè)學(xué)科領(lǐng)域,從日本機(jī)構(gòu)知識(shí)庫在線(JAIRO)和中國的個(gè)人知識(shí)庫檢索系統(tǒng)中分別提取出高被引論文進(jìn)行對(duì)比分析,得出結(jié)論:收錄高被引論文的機(jī)構(gòu)庫中,日本有36個(gè),中國6個(gè);最多的兩種文獻(xiàn)類型是相似的,都是期刊論文和公告;從全文率看,中國機(jī)構(gòu)庫的全文率高于日本機(jī)構(gòu)庫。他指出機(jī)構(gòu)庫在未來的發(fā)展中應(yīng)重視質(zhì)量和數(shù)量的提高,以促進(jìn)科學(xué)知識(shí)大數(shù)據(jù)共享。
在高校數(shù)據(jù)管理方面,土耳其安卡拉大學(xué)Zeynep Akdogan探討了高校電子記錄管理系統(tǒng)的制度化過程:從正式的通信系統(tǒng)、業(yè)務(wù)交易、國家或國際標(biāo)準(zhǔn),法律法規(guī)及用戶期望出發(fā),構(gòu)建電子檔案管理系統(tǒng)(ERMS),整合一個(gè)值得信賴的、可互操作的、可獲取的、可靠的電子系統(tǒng)進(jìn)行正式溝通和業(yè)務(wù)交流;介紹了根據(jù)EMRS結(jié)構(gòu)創(chuàng)建的安卡拉大學(xué)“電子記錄管理與歸檔系統(tǒng)模型”(E-BEYAS)應(yīng)用典范,為高校數(shù)據(jù)管理提供借鑒。
大規(guī)模的數(shù)據(jù)整理,充分利用巨大的信息資源,無法繞開的研究主題是知識(shí)專利研究。在分會(huì)場,湘潭大學(xué)知識(shí)產(chǎn)權(quán)學(xué)院的兩名學(xué)生代表肖冬梅教授介紹了中國專利信息資源現(xiàn)狀,提出專利信息資源系統(tǒng)的結(jié)構(gòu)可分為國家基本專利數(shù)據(jù)庫和其他相關(guān)數(shù)據(jù)庫;特定技術(shù)領(lǐng)域的分布式專利數(shù)據(jù)庫;企業(yè)產(chǎn)品或生產(chǎn)線專利數(shù)據(jù)庫三層,并提出構(gòu)建中國專利信息資源體系的建議,應(yīng)涵蓋專利信息的披露系統(tǒng)、專利信息的市場競爭系統(tǒng)以及專利信息產(chǎn)權(quán)安排和許可系統(tǒng)。中山大學(xué)韋景竹老師對(duì)1985-2015年汽車行業(yè)的專利數(shù)據(jù)進(jìn)行分析,從這些專利數(shù)據(jù)的時(shí)間分布、國別分布、品牌分布、技術(shù)生命周期以及在熱門領(lǐng)域的技術(shù)應(yīng)用等各個(gè)方面進(jìn)行數(shù)量比較,全面分析專利持有者的競爭優(yōu)勢(shì)。
中山大學(xué)王志紅同學(xué)圍繞在線百科全書被中國LIS期刊引用的頻率、最常被誰引用、來自哪些機(jī)構(gòu)的引用、為什么引用以及不同作者和不同文章的引用是否存在顯著差異的問題,對(duì)LIS學(xué)科出版物進(jìn)行抽樣和分析,得出在線百科全書正在發(fā)展成為中文LIS期刊中被普遍使用和認(rèn)可的學(xué)術(shù)信息資源的結(jié)論,在介紹不熟悉的學(xué)科領(lǐng)域和流行文化的背景時(shí),由于其便利和公開獲取使其成為一種不錯(cuò)的資源選擇。
從用戶角度出發(fā),信息行為研究隨著大數(shù)據(jù)的發(fā)展呈現(xiàn)新的研究范式,基于用戶行為的數(shù)據(jù)挖掘正在逐步突破傳統(tǒng)的信息行為研究的難題,深入對(duì)動(dòng)機(jī)研究、行為預(yù)測以及建模,是日后用戶行為研究的重要發(fā)展方向。
北京大學(xué)張鵬翼副教授關(guān)注消費(fèi)者在產(chǎn)品信息搜尋中的行為特征,她將用戶行為分為瀏覽、登錄、個(gè)人資料管理、系統(tǒng)、交易、列表處理、檢索及其他類型,分析結(jié)果顯示用戶在信息搜尋行為的點(diǎn)擊序列次數(shù)、時(shí)間維度、檢索的復(fù)雜度呈現(xiàn)不同的特征,基于研究所構(gòu)建的模型,可以在產(chǎn)品推薦中進(jìn)行優(yōu)化。未來可以向基于產(chǎn)品類別的會(huì)話特征分析、產(chǎn)品搜索的多任務(wù)研究、基于會(huì)話特征以及人口統(tǒng)計(jì)學(xué)特征數(shù)據(jù)的客戶細(xì)分、移動(dòng)電子商務(wù)的產(chǎn)品搜索等方面發(fā)展。
南開大學(xué)李月琳教授從人機(jī)交互的角度提出如何識(shí)別用戶與數(shù)字圖書館交互的成功關(guān)鍵因素(CSFs)的問題,她借鑒Rockart在1979年提出的關(guān)鍵成功因素模型框架,采用實(shí)驗(yàn)嵌入半結(jié)構(gòu)化深度訪談的方法,得出41個(gè)用戶與數(shù)字圖書館交互的影響因素,并最終確定10個(gè)關(guān)鍵成功因素,15個(gè)核心關(guān)鍵因素。她認(rèn)為未來對(duì)于用戶與數(shù)字圖書館交互研究應(yīng)結(jié)合多種調(diào)查方法,采集更多的實(shí)驗(yàn)數(shù)據(jù),對(duì)行為數(shù)據(jù)進(jìn)行深度挖掘和分析。
在分會(huì)場,華中師范大學(xué)程秀峰博士采用語義關(guān)聯(lián)模型構(gòu)建數(shù)字圖書館的用戶行為特征庫,他選擇的用戶行為特征以及相應(yīng)測量的指標(biāo),包括用戶身份特征、用戶時(shí)空分布、用戶點(diǎn)擊及請(qǐng)求、用戶興趣及偏好(瀏覽及請(qǐng)求)、用戶習(xí)慣、用戶數(shù)據(jù)流,并自下而上分為數(shù)據(jù)層、特征層、數(shù)據(jù)及特征整合層三個(gè)層次構(gòu)建了用戶行為特征庫,他認(rèn)為未來數(shù)字圖書館呈現(xiàn)聚合化、平行化以及數(shù)據(jù)海量化的特征,這就要求計(jì)算模型能夠支持大規(guī)模計(jì)算來減少誤差。
信息組織是大數(shù)據(jù)時(shí)代信息管理中最重要的環(huán)節(jié),且大數(shù)據(jù)時(shí)代海量數(shù)據(jù)的聚集和非結(jié)構(gòu)化等特征對(duì)信息組織和知識(shí)發(fā)現(xiàn)方面的挑戰(zhàn)和難度越來越凸顯。因此,信息組織和知識(shí)發(fā)現(xiàn)是本次會(huì)議的重要議題,在分會(huì)場有六個(gè)報(bào)告與該主題相關(guān)。
華中師范大學(xué)王忠義副教授從現(xiàn)有分析方法在基于特征的觀點(diǎn)挖掘中的局限性出發(fā),發(fā)現(xiàn)特定領(lǐng)域知識(shí)是基于特征的觀點(diǎn)挖掘的關(guān)鍵,以此為基礎(chǔ)提出了基于ISO主題圖標(biāo)準(zhǔn)的觀點(diǎn)挖掘方法,并通過實(shí)驗(yàn)對(duì)該方法進(jìn)行了比較和評(píng)估。他認(rèn)為利用主題圖譜輔助基于特征的觀點(diǎn)挖掘可以解決目前存在的一些問題,但主題圖譜的自動(dòng)構(gòu)建問題仍亟待研究。
華中師范大學(xué)翟姍姍博士以美國農(nóng)業(yè)部門經(jīng)濟(jì)研究服務(wù)門戶為研究對(duì)象,使用社會(huì)網(wǎng)絡(luò)分析方法分別構(gòu)建主題目錄鏈接網(wǎng)絡(luò)和主題目錄語義網(wǎng)絡(luò),并對(duì)鏈接網(wǎng)絡(luò)、內(nèi)容網(wǎng)絡(luò)和鏈接內(nèi)容整合網(wǎng)絡(luò)三種方案進(jìn)行對(duì)比分析,發(fā)現(xiàn)同時(shí)考慮鏈接和內(nèi)容,即語義鏈接網(wǎng)絡(luò)的實(shí)驗(yàn)效果最好,并認(rèn)為利用關(guān)鍵詞索引系統(tǒng)優(yōu)化主題目錄將是未來研究的方向。
土耳其哈斯特帕大學(xué)?zgür Külcü博士通過收集和對(duì)比分析國際和土耳其的案例,如歐盟數(shù)字圖書館和土耳其國家檔案館等,發(fā)現(xiàn)土耳其的案例數(shù)據(jù)集是從面向?qū)ο蟮慕嵌龋挥袑?duì)資源或過程的詳細(xì)描述,且信息與其他資源和機(jī)構(gòu)庫之間沒有任何邏輯層次關(guān)系。因此,他提出數(shù)據(jù)集既要滿足國際標(biāo)準(zhǔn)與平臺(tái)的期望,也要呈現(xiàn)本地需求和特殊性,最后他針對(duì)土耳其數(shù)字資源提出一個(gè)元數(shù)據(jù)模型。
斯洛文尼亞盧布爾雅那大學(xué)Toma? Bartol、KarmenStopar和馬里博爾大學(xué)GordanaBudimir首先利用COBISS和SciMet門戶網(wǎng)站獲得了1996年到2014年被Scopus和WOS數(shù)據(jù)庫中收錄的斯洛文尼亞研究人員所著的文獻(xiàn)作為數(shù)據(jù)集,共分為六個(gè)學(xué)科領(lǐng)域,并對(duì)數(shù)據(jù)集及生物技術(shù)學(xué)科領(lǐng)域數(shù)據(jù)的作者合作關(guān)系進(jìn)行了可視化分析,從中發(fā)現(xiàn)了斯洛文尼亞研究者合作的一種未知模式。
華中師范大學(xué)張婷婷同學(xué)利用基于統(tǒng)計(jì)的關(guān)鍵詞抽取方法,以IT-IWF、位置統(tǒng)計(jì)分布和詞距三個(gè)特征變量構(gòu)建模型,爬取180個(gè)鏈接的網(wǎng)頁信息開展實(shí)驗(yàn),并與人工標(biāo)注關(guān)鍵詞方法進(jìn)行對(duì)比驗(yàn)證算法的有效性。實(shí)驗(yàn)結(jié)果表明對(duì)于中文短文本的關(guān)鍵詞抽取,只使用TF-IWF方法的精確度高達(dá)70%;在實(shí)際應(yīng)用中關(guān)鍵詞數(shù)量為5是較為合適的;從算法效率上看每秒50~70的請(qǐng)求時(shí)算法具有較好的穩(wěn)定性。實(shí)驗(yàn)還發(fā)現(xiàn),除TF-IWF之外,結(jié)構(gòu)信息特征如位置分布和詞距并不適用;所提算法也完全能滿足個(gè)性化推薦的實(shí)時(shí)需求。
中山大學(xué)馬翠嫦同學(xué)利用體裁分析方法和兩輪用戶調(diào)查,構(gòu)建開放獲取資源聚合單元分類體系并檢驗(yàn)了其有效性,分析了不同信息搜尋任務(wù)下各層級(jí)和各類聚合單元感知有用性的差異。她指出信息搜尋任務(wù)與構(gòu)成單元、功能單元的相關(guān)性,使得不同體裁的構(gòu)成單元或功能單元顯現(xiàn)出相關(guān)性,并認(rèn)為聚合單元的可識(shí)別性和與用戶信息搜尋任務(wù)之間的相關(guān)性可以用于不同互聯(lián)網(wǎng)體裁類型資源的細(xì)粒度聚合檢索系統(tǒng)的設(shè)計(jì),以及與特定信息搜尋任務(wù)相關(guān)的聚合單元集表明這一任務(wù)中的聚合單元之間存在語義相關(guān)性。
通過該主題一系列的報(bào)告,發(fā)現(xiàn)構(gòu)建符合國際化和本地化特色的信息組織標(biāo)準(zhǔn)是大數(shù)據(jù)時(shí)代的重要課題,如何更好地構(gòu)建語義層面的關(guān)系,利用各種自然語言處理技術(shù)和數(shù)據(jù)挖掘算法等深入挖掘海量數(shù)據(jù)中隱藏的知識(shí),并以可視化方式進(jìn)行呈現(xiàn)是需要進(jìn)一步探索和研究的方向。
(責(zé)任編輯:劉洪)
張璇,女,中山大學(xué)資訊管理學(xué)院2014級(jí)在讀博士生,中山大學(xué)圖書館助理館員;王志紅,女,中山大學(xué)資訊管理學(xué)院2014級(jí)碩博連讀生;劉盈盈,女,中山大學(xué)資訊管理學(xué)院2012級(jí)在讀博士生,暨南大學(xué)圖書館館員;王靈,女,中山大學(xué)資訊管理學(xué)院2015級(jí)在讀博士生,吉首大學(xué)圖書館館員;古婷驊,女,中山大學(xué)資訊管理學(xué)院2013級(jí)在讀博士生;王維佳,女,中山大學(xué)資訊管理學(xué)院2012級(jí)在讀博士生,中山大學(xué)圖書館館員;劉慧云,女,中山大學(xué)資訊管理學(xué)院2015級(jí)在讀碩士生。
2016-08-29