吳正洋 陳先哲
[摘 要] 隨著Web 2.0及社交網(wǎng)絡的普及,以協(xié)同合作為推動力的科技創(chuàng)新有了新的開展環(huán)境。利用學術(shù)社交網(wǎng)絡平臺,學術(shù)人員可以共享及快速獲取開展科研活動所需的各類學術(shù)信息和資源,廣泛發(fā)布合作需求信息,尋求合作伙伴,以及與身處不同地域的合作伙伴進行實時交流,實現(xiàn)跨學科的科研合作?!疤岣邊f(xié)同效率”是學術(shù)社交網(wǎng)絡平臺設計的核心理念,本文以此為基礎,重點討論了學術(shù)社交網(wǎng)絡平臺建設中的兩個問題:一是信息采集及語義化處理;二是開展協(xié)同創(chuàng)新所需信息的推薦方法。最后,展示了一個學術(shù)社交網(wǎng)絡平臺的實例。
[關(guān)鍵詞] 學術(shù);社交;網(wǎng)絡;平臺;協(xié)同;創(chuàng)新
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2014 . 11. 057
[中圖分類號] TP393;TP311 [文獻標識碼] A [文章編號] 1673 - 0194(2014)11- 0089- 03
1 引 言
創(chuàng)新是學術(shù)發(fā)展的核心動力,促進學科交流,加強交叉學科研究,是推動科技創(chuàng)新的重要手段。2012年教育部啟動2011計劃,旨在鼓勵積極開展跨學科合作,校企合作,實現(xiàn)協(xié)同創(chuàng)新。然而,如何獲取跨學科領(lǐng)域的有效信息,找到最佳合作伙伴,是協(xié)同創(chuàng)新工作開展需要解決的首要問題。隨著Web 2.0及社交網(wǎng)絡工具的廣泛應用,人們的交流方式由傳統(tǒng)的語言文字交流,發(fā)展為基于網(wǎng)絡平臺的即時通訊、多媒體、多渠道的交流。尤其是社交網(wǎng)絡(SNS,Social Networking Services)的普及,使人際關(guān)系發(fā)展、信息傳播速率得到了顯著提高,傳統(tǒng)的協(xié)作模式和研究方法都面臨新的變革。近年來,眾多面向?qū)W術(shù)科研的社交網(wǎng)絡平臺(如學者網(wǎng)、中國知網(wǎng)學者圈、學術(shù)網(wǎng)等)逐漸興起,帶動增加了學術(shù)人員在社交網(wǎng)絡上的活動。以學者網(wǎng)為例,2013年度,其活躍用戶數(shù)增加了932人。因為學術(shù)人員作為高層次知識結(jié)構(gòu)的人群,具有更高水平的網(wǎng)絡活動接受度和參與度。同時,在社交網(wǎng)絡平臺的應用中,也在不斷產(chǎn)生各種新的交流方式,信息共享的種類、信息傳播的范圍、信息擴散的速率都在以幾何倍數(shù)增大,對用戶而言,接收信息變得非常容易,交流合作的機會也不斷增多,學術(shù)社交網(wǎng)絡為學術(shù)人員開展協(xié)同創(chuàng)新活動提供了一個支持平臺。本文從提高有效信息的獲取率、發(fā)掘最優(yōu)的潛在合作者等方面研究學術(shù)社交網(wǎng)絡的應用技術(shù),使其能夠為學術(shù)人員的協(xié)同創(chuàng)新提供更強大的支持。
2 協(xié)同與創(chuàng)新
1976年,德國斯圖加特大學的哈肯教授(Hermann Haken)首次系統(tǒng)地論述了協(xié)同論,著重探討各種系統(tǒng)從無序變?yōu)橛行驎r的相似性。近幾十年來,協(xié)同論從對物理學相關(guān)領(lǐng)域的研究,逐漸發(fā)展成為應用廣泛的綜合性學科。協(xié)同思想廣泛應用在制造行業(yè),用于優(yōu)化大規(guī)模工程設計以及生產(chǎn)的過程優(yōu)化和資源配備。隨著科技發(fā)展,制造行業(yè)的生產(chǎn)規(guī)模日益擴大,越來越多的資源和業(yè)務流程需要優(yōu)化整合,傳統(tǒng)的人工記錄或協(xié)調(diào)已經(jīng)無法適應生產(chǎn)需要,鑒于此,計算機輔助制造研究興起,各類管理信息系統(tǒng)、協(xié)同軟件(Collaboration Software)應運而生。協(xié)同軟件[1]是指那些以團隊協(xié)作為目標的協(xié)作軟件工具,主要包括群組協(xié)作管理,如:工作流管理、項目管理等;各種通信軟件,如E-Mail、即時通信、VoIP等。據(jù)Gartner統(tǒng)計分析,從2003年開始,全球范圍協(xié)同軟件已成為用戶應用軟件采購最大熱點,位居信息化應用軟件首位,到2005年全球協(xié)同軟件市場的營業(yè)額將達500億美元,到2006年協(xié)同軟件市場規(guī)模將趕超ERP。
從事科學研究工作的學術(shù)人員,對于學術(shù)交流、項目合作等信息的需求比較大,經(jīng)常使用網(wǎng)絡平臺輔助教學科研工作。然而在互聯(lián)網(wǎng)上,存在的信息資源極為豐富、信息的結(jié)構(gòu)也極為復雜,要提高用戶創(chuàng)新能力,重點是要提高協(xié)同效率。提高協(xié)同效率包括兩方面的內(nèi)容:一是提高用戶操作的便捷度;二是為用戶提供有利于跨學科合作的資源信息。由于術(shù)業(yè)有專攻,學術(shù)人員可能對不同學科的知識沒有深入了解,如果想快速檢索其他學科的專業(yè)信息,尤其是與本人研究領(lǐng)域有交叉的知識,尚存在一定的難度。如何快速跨學科檢索,是學術(shù)社交網(wǎng)絡平臺需要解決的核心問題。
3 信息獲取及處理
互聯(lián)網(wǎng)上以下兩類信息常用于科研輔助活動:①著作、論文、項目摘要、專利等科研成果信息;②由學術(shù)人員發(fā)布的對于開展學術(shù)合作的需求信息。
學術(shù)社交網(wǎng)絡平臺數(shù)據(jù)來源可以通過采集—清洗—分類存儲的過程形成。從互聯(lián)網(wǎng)上采集數(shù)據(jù),首先,通過程序進行清洗,然后,將數(shù)據(jù)分為成果信息與需求信息,分別進行存儲;再利用學術(shù)領(lǐng)域本體分析學術(shù)關(guān)系并生成學術(shù)關(guān)聯(lián)知識庫。
3.1 數(shù)據(jù)采集
數(shù)據(jù)有兩個來源:一是從互聯(lián)網(wǎng)上直接抓取,二是學術(shù)人員根據(jù)系統(tǒng)要求提供。協(xié)作所需要的學術(shù)人員基本信息、成果信息、協(xié)作需求信息等可以在系統(tǒng)使用的過程中產(chǎn)生并收集,而更多的學術(shù)信息需要通過抓取互聯(lián)網(wǎng)上的數(shù)據(jù)獲得。目前業(yè)界有一些成熟的搜索引擎框架,能夠?qū)崿F(xiàn)這一功能,比較常用的是基于Java的開源搜索引擎,包括Apache Lucene、Nutch、MG4J等,其中,建立在Hadoop分布式系統(tǒng)上的Apache Nutch是一個較全面的軟件框架,它提供了開發(fā)人員運行自己的搜索引擎所需的全部工具,包括網(wǎng)頁全文搜索和Web爬蟲。在運行Nutch框架的基礎上,開發(fā)針對學術(shù)信息網(wǎng)頁的插件來擴展其功能,將互聯(lián)網(wǎng)上的學術(shù)信息網(wǎng)頁轉(zhuǎn)化為文獻對象,再進行存儲[2]。數(shù)據(jù)清洗主要是將抓取到的數(shù)據(jù)進行檢索和再判斷,刪除一些不必要的冗余或誤差,比如,數(shù)據(jù)抓取軟件可能會在不同的數(shù)據(jù)源采集到同一篇期刊論文信息,此時就需要利用查冗算法檢索匹配該論文的多項有關(guān)信息,如作者、單位、發(fā)表的刊物名稱等,如果找到多個結(jié)果,就保留一個,并記錄重復版本數(shù),同時刪除其他結(jié)果。
3.2 語義化處理
為提高信息檢索的效率,需要對學術(shù)實體進行語義化處理。首先要對學科知識進行預處理,學科知識預處理主要是針對學科進行語義描述,可利用DBpedia中關(guān)于各學科的定義和屬性關(guān)系劃分學科知識點層次結(jié)構(gòu)。DBpedia是從維基百科的詞條里擷取出的結(jié)構(gòu)化資料,在實現(xiàn)學科知識的描述后,便于根據(jù)學科關(guān)鍵字進行檢索和匹配。同時,還要對成果信息和需求信息進行關(guān)系分析,如對論文、著作、項目摘要等所包含屬性的邏輯關(guān)系進行分析,以論文為例,論文的作者、合著者之間有合作關(guān)系,論文關(guān)鍵字能夠反映學科知識點之間的關(guān)系,作者歸屬單位、作者所在學科等重要關(guān)系也能夠從中體現(xiàn)。整理邏輯關(guān)系并用OWL本體文件方式進行存儲,可用于信息檢索和智能推薦。
4 推薦優(yōu)化
4.1 推薦策略
電子商務中比較常用的智能推薦方法是協(xié)同過濾算法[3],該方法的原理是通過建立學術(shù)人員偏好數(shù)據(jù)庫,找到與指定用戶偏好相匹配的其他用戶,根據(jù)找到的這些用戶對某一信息的評價,作為指定用戶對此類信息的喜好程度。在學術(shù)社交網(wǎng)絡中,學術(shù)人員查詢信息、下載資源、評論等行為比較活躍,將學術(shù)人員產(chǎn)生的偏好數(shù)據(jù)搜集并進行實時更新,再根據(jù)相似學術(shù)人員的喜好進行推薦,便能夠達到比較好的推薦效果。
在運用協(xié)同過濾算法的基礎上,還可以根據(jù)學術(shù)人員的特點實現(xiàn)推薦功能。學術(shù)人員在注冊時通常都會提供所在高校、研究方向、研究興趣等信息,甚至包括學歷、職稱等信息,可以利用這些信息來計算學術(shù)人員的相似度,進而進行更精確的推薦。
4.2 推薦排序
推薦算法能夠給出若干推薦結(jié)果,而隨著平臺上活躍學術(shù)人員及共享資源的增多,產(chǎn)生的推薦結(jié)果數(shù)量也會增多,此時,有必要對推薦結(jié)果進行排序。要解決排序問題,首先要為每個推薦的結(jié)果賦值,可稱之為偏好值,該值能反映學術(shù)人員對于某論文、著作或項目信息以及對某領(lǐng)域?qū)<业南埠贸潭?,從而作為推薦結(jié)果排序的依據(jù),可設定偏好值越大的結(jié)果越可能是學術(shù)人員想要的結(jié)果。
推薦結(jié)果是依據(jù)相似學術(shù)人員的喜好,所以在偏好值方面可以參考兩個數(shù)據(jù):一是學術(shù)人員相似度,二是相似的學術(shù)人員對某類信息的偏好程度。某學術(shù)人員的特征可以依據(jù)注冊信息,結(jié)合網(wǎng)絡社交行為記錄,并根據(jù)這些信息建立學術(shù)人員特征文檔。學術(shù)人員特征文檔能夠反映相應學術(shù)人員的基本特征和行為活動,如此,學術(shù)人員的相似度問題就轉(zhuǎn)化為了學術(shù)人員特征文檔的相似度問題。文檔相似度的計算方法有很多種[4],比較經(jīng)典的有基于文本向量空間模型(Text Vector Space Model, TVSM)[5],還有基于集合模型的相似度計算方法、基于層次結(jié)構(gòu)的相似度計算方法等,也有綜合計算方法[6]。在按相似度進行相似學術(shù)人員排序后,再按各學術(shù)人員對于某信息的偏好程度進行二次排序,并記錄數(shù)值,以此作為推薦結(jié)果的順序。
5 應用實例
為提高學術(shù)人員個人信息的共享度,擴大被檢索范圍,學術(shù)社交網(wǎng)絡可為其設置個人空間。個人空間是對學術(shù)人員個人信息進行規(guī)范定義的模塊。同時,也為可充當他們的網(wǎng)上助手,融合了記事本、研究備忘錄、個人簡歷管理、成果展示平臺等功能,還可以用于添加及聯(lián)絡好友等。為了方便學術(shù)人員之間開展協(xié)同合作交流,學術(shù)社交網(wǎng)絡平臺還可以向?qū)W術(shù)人員用戶提供學術(shù)團隊空間,方便共享資源、即時通訊、及時掌握團隊研究進展等。個人空間界面效果如圖1所示.
6 結(jié)束語
“開放、合作、協(xié)同”日益成為創(chuàng)新的必然發(fā)展方向,我國推行協(xié)同創(chuàng)新計劃也正是基于以上背景。本學術(shù)社交網(wǎng)絡平臺正是基于此理念設計:一是通過界面整合相關(guān)應用,使各創(chuàng)新主體操作更便捷;二是通過優(yōu)化數(shù)據(jù),為各創(chuàng)新主體提供有利于跨學科合作的學術(shù)信息。這個平臺的功能發(fā)揮和進一步開發(fā),可以使高校、科研院所、企業(yè)等科研用戶更加緊密團結(jié),多模式、深層次地開展合作,在基礎研究、應用研究、開發(fā)研究之間形成完整鏈條。
主要參考文獻
[1]湯庸, 冀高峰, 朱君. 協(xié)同軟件技術(shù)及應用[M].北京:機械工業(yè)出版社,2007.
[2]李建國,毛承潔,劉曉,等. 學術(shù)信息服務平臺的研究與設計[J]. 華南師范大學學報:自然科學版,2012,44(3):51-54.
[3]Sarwar B, Karypis G, Konstan J,et al. Item-based Collaborative Filtering Recommendation Algorithms[C]//Proceedings of the 10th International Conference on World Wide Web. ACM, 2001: 285-295.
[4]周博,岑榮偉,劉奕群,等. 一種基于文檔相似度的檢索結(jié)果重排序方法[J]. 中文信息學報,2010,24(3):19-23.
[5]賀超波,沈玉利,余建輝,等. 基于學術(shù)社區(qū)的科技論文推薦方法[J]. 華南師范大學學報: 自然科學版,2012,44(3):55-58.
[6]宋玲,馬軍,連莉,等.文檔相似度綜合計算研究[J]. 計算機工程與應用,2006,42(30):160-163.