崔 晨,吳揚(yáng)揚(yáng)
(華僑大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,福建 廈門(mén) 361021)
隨著數(shù)字技術(shù)及互聯(lián)網(wǎng)技術(shù)的發(fā)展,數(shù)據(jù)呈現(xiàn)出多樣、異質(zhì)化的特點(diǎn)。傳統(tǒng)數(shù)據(jù)庫(kù)已不適合對(duì)多樣異質(zhì)數(shù)據(jù)進(jìn)行有效統(tǒng)一管理,因此,F(xiàn)ranklin、Halevy和 Maier等人提出了數(shù)據(jù)空間[1]的概念。數(shù)據(jù)空間是數(shù)據(jù)和其關(guān)系的集合,系統(tǒng)需要從數(shù)據(jù)源中發(fā)現(xiàn)并抽取出有用的數(shù)據(jù)關(guān)系,以豐富其自身。而且,數(shù)據(jù)空間演化的目的是為了更好的滿足主體需求,數(shù)據(jù)空間必須能夠理解不同類型及來(lái)源的數(shù)據(jù)之間的聯(lián)系,更好地對(duì)相關(guān)聯(lián)數(shù)據(jù)做出處理,為主體提供更好的服務(wù)[2]。
但現(xiàn)階段,數(shù)據(jù)空間數(shù)據(jù)關(guān)系的定義、范疇、如何發(fā)現(xiàn)關(guān)系還未定義。因此,幫助系統(tǒng)自動(dòng)發(fā)現(xiàn)數(shù)據(jù)關(guān)系成為重要研究方向。用戶日常活動(dòng)中隱含了本地?cái)?shù)據(jù)的獨(dú)特分類見(jiàn)解。從用戶日常活動(dòng)中發(fā)現(xiàn)關(guān)系成為數(shù)據(jù)空間數(shù)據(jù)關(guān)系發(fā)現(xiàn)的途徑之一。本文參考活動(dòng)理論[3]系統(tǒng)對(duì)用戶日?;顒?dòng)的分析方法,設(shè)計(jì)了自動(dòng)記錄、分析、提取出數(shù)據(jù)關(guān)系的系統(tǒng)。該系統(tǒng)利用日志收集用戶活動(dòng)信息,利用語(yǔ)義、時(shí)間、切換相關(guān)度等計(jì)算活動(dòng)間的關(guān)系。將用戶活動(dòng)信息間的關(guān)系轉(zhuǎn)換為用戶意識(shí)中對(duì)數(shù)據(jù)關(guān)系的理解。而且,由于用戶的需求和對(duì)數(shù)據(jù)關(guān)系的理解會(huì)隨時(shí)間變化,系統(tǒng)會(huì)根據(jù)用戶的使用情況更新數(shù)據(jù)關(guān)系,以更好滿足用戶需求。
數(shù)據(jù)空間成為數(shù)據(jù)管理領(lǐng)域的一個(gè)研究熱點(diǎn)。參考文獻(xiàn)[4]設(shè)計(jì)了Roomba系統(tǒng),利用多用戶的反饋尋找數(shù)據(jù)關(guān)聯(lián)。系統(tǒng)需要多用戶評(píng)判生成候選匹配并生產(chǎn)有益的關(guān)系模式。系統(tǒng)依此關(guān)系模式進(jìn)行數(shù)據(jù)關(guān)系的演化。但這種模式是廣譜適用的,并不適用某個(gè)主體的偏好和習(xí)慣,有其局限性。
[5]認(rèn)為用戶文件的分布和排列中,隱含了用戶對(duì)數(shù)據(jù)之間關(guān)系的理解。利用對(duì)文件的類型、命名規(guī)則、結(jié)構(gòu)分析后所得到的關(guān)系,自動(dòng)將相關(guān)數(shù)據(jù)分類并加入數(shù)據(jù)空間。但其成立初期需要用戶手工標(biāo)注常用的數(shù)據(jù),且缺乏后期對(duì)數(shù)據(jù)關(guān)系的調(diào)整與優(yōu)化。
參考文獻(xiàn)[6]將用戶查詢時(shí)對(duì)數(shù)據(jù)空間的交互作為數(shù)據(jù)空間演化的來(lái)源。該系統(tǒng)自動(dòng)為數(shù)據(jù)資源建立資源摘要,并在初始簡(jiǎn)單查詢時(shí),利用關(guān)鍵字與摘要的匹配,逐漸豐富關(guān)鍵字與資源間的關(guān)聯(lián)。但該系統(tǒng)對(duì)用戶除了搜索外的其他交互活動(dòng)利用有限。
參考文獻(xiàn)[7]首次提出了在數(shù)據(jù)空間中進(jìn)行用戶任務(wù)挖掘的概念,作者定義其任務(wù)為一定數(shù)量文件的集合。與本文類似,該方法收集分析用戶活動(dòng),但該系統(tǒng)僅利用窗口的時(shí)序關(guān)聯(lián),而沒(méi)有利用語(yǔ)義、切換等發(fā)現(xiàn)數(shù)據(jù)關(guān)系。
維果斯基提出的“文化-歷史心理學(xué)”思想是活動(dòng)理論的源泉。目標(biāo)導(dǎo)向原則是活動(dòng)理論的核心。它認(rèn)為人類活動(dòng)受到廣泛的客體群體影響,既包括自然領(lǐng)域,也包括社會(huì)文化領(lǐng)域,因此以維果斯基的三元關(guān)系模型為基礎(chǔ),為活動(dòng)建模:
計(jì)算機(jī)上,個(gè)體代表計(jì)算機(jī)用戶,目標(biāo)代表所操作的對(duì)象,工具代表所使用的軟件。此模型代表用戶通過(guò)計(jì)算機(jī)達(dá)到某種目的而進(jìn)行活動(dòng)。本文擴(kuò)充了此模型,增加了活動(dòng)發(fā)生時(shí)間和用戶操作,因此表示為:
其中user為用戶,time代表活動(dòng)發(fā)生的時(shí)間,tool代表處理軟件,operation代表用戶操作(如粘貼、復(fù)制、切換等),goal代表用戶的操作目標(biāo)。
本文將用戶日常活動(dòng)的窗口標(biāo)題信息作為活動(dòng)信息的代表。下面為活動(dòng)信息記錄樣例:
2010/7 /11 11 :29:33 具有自適應(yīng)鄰域探測(cè)機(jī)制的簡(jiǎn)化PSO算法修改稿20100711(用戶上次保存的)[兼容模式]-Microsoft Word
2010/7 /11 11 :29:39 中國(guó)圖像圖形學(xué)報(bào) A.Journal of Image and Graphics(2010年5期)-萬(wàn)方數(shù)據(jù)知識(shí)服務(wù)平臺(tái)-世界之窗3.3
活動(dòng)信息處理是數(shù)據(jù)關(guān)系發(fā)現(xiàn)的前提。借鑒了相關(guān)工作,本文以活動(dòng)語(yǔ)義、交互、切換、時(shí)間度量活動(dòng)是否相關(guān)。
3.2.1 語(yǔ)義相關(guān)度
活動(dòng)窗口的相關(guān)性表現(xiàn)為活動(dòng)標(biāo)題內(nèi)容的相似性。本文采用改進(jìn)了的向量空間模型 (VSM)為對(duì)象模型。VSM中,第i個(gè)對(duì)象的矢量模型如下:
其中,Wik在傳統(tǒng)方法中為關(guān)鍵詞頻度,但本文將Wik改為關(guān)鍵詞語(yǔ)義相似度之和。計(jì)算方法如下:
設(shè) Wik為關(guān)鍵詞 Tk中對(duì)象 Activityi中的權(quán)重,D(Ti1,Ti2,……TiN)為 Activityi的特征詞組。 Seman(Ti1,Tk)表示關(guān)鍵詞Tk與特征詞Ti1的語(yǔ)義相似度。則:
語(yǔ)義相似度利用的中英文WordNet的詞語(yǔ)相似度計(jì)算軟件[8]。Tk表示活動(dòng)窗口標(biāo)題中的關(guān)鍵字;Vi表示第i個(gè)活動(dòng)窗口標(biāo)題的向量空間。通過(guò)向量?jī)?nèi)積計(jì)算活動(dòng)窗口標(biāo)題相似度,方式如下:
由此定義規(guī)則1:
規(guī)則1表示:若相似度大于某閾值,則語(yǔ)義相關(guān),相關(guān)度為 RelationV(Activityi,Activityj)。
3.2.2 內(nèi)容交互相關(guān)
傳統(tǒng)活動(dòng)分析系統(tǒng)把內(nèi)容交互作為活動(dòng)相關(guān)的重要特征。隨著博客、即時(shí)聊天的興起,用戶的活動(dòng)大多變?yōu)樾畔@取與交流,粘貼復(fù)制的代表性作用降低。
因此定義規(guī)則2:
規(guī)則2表示:如果檢測(cè)兩活動(dòng)窗口有內(nèi)容交互,則內(nèi)容交互相關(guān),相關(guān)度為0.05.
3.2.3 切換相關(guān)
多任務(wù)操作更符合用戶的使用習(xí)慣,窗口切換關(guān)系也是活動(dòng)相似度的重要度量。設(shè)切換關(guān)聯(lián)度為SR,Activityi與 Activityj的總頻度分別為 F1和 F2,且:
規(guī)則3表示:兩個(gè)活動(dòng)互相切換的次數(shù)超過(guò)某閾值則切換相關(guān),相關(guān)度為SR。
3.2.4 時(shí)間相關(guān)
相關(guān)活動(dòng)有其時(shí)效性,若發(fā)生時(shí)間接近,則推斷兩個(gè)活動(dòng)是相關(guān)的。較長(zhǎng)的間隔看作活動(dòng)斷點(diǎn)。假設(shè)系統(tǒng)共有 N斷點(diǎn),時(shí)間相關(guān)度為 TR,Activityi與 Activityj的總頻度分別為T(mén)1和T2。若 Together(k)=1(1 因此定義規(guī)則4: 規(guī)則4表示兩個(gè)活動(dòng)在同斷點(diǎn)內(nèi)出現(xiàn)次數(shù)超過(guò)某閾值,則時(shí)間相關(guān),相關(guān)度為T(mén)R。 3.2.5 活動(dòng)相關(guān)性總公式 設(shè)活動(dòng)相關(guān)值為AS,綜上給出AS表達(dá)式: 其中:q、w、e、r表示各規(guī)則系數(shù),系數(shù)根據(jù)經(jīng)驗(yàn)調(diào)節(jié)。AS大于閾值的保存在活動(dòng)相關(guān)文檔中。 提取數(shù)據(jù)關(guān)系,首先要處理活動(dòng)相關(guān)文檔。其中數(shù)據(jù)文件窗口和網(wǎng)頁(yè)窗口信息存在一定結(jié)構(gòu)。依據(jù)結(jié)構(gòu),本文設(shè)計(jì)了基于規(guī)則的提取算法,將活動(dòng)關(guān)系文檔中可識(shí)別信息提取為數(shù)據(jù)關(guān)系(本地文件或網(wǎng)頁(yè))。下面以活動(dòng)文檔為例: 具有自適應(yīng)鄰域探測(cè)機(jī)制的簡(jiǎn)化PSO算法修改稿20100711[兼容模式]-Microsoft Word 從數(shù)據(jù)庫(kù)到數(shù)據(jù)空間,從服務(wù)于企業(yè)到服務(wù)于大眾-Adobe Reader 以上軟件信息常出現(xiàn)在 “- ”后,例如“Microsoft Word”,系統(tǒng)依據(jù)軟件信息生成文件類型。示例中文件類型為“.doc”和“.pdf”。系統(tǒng)依據(jù)文件類型作相應(yīng)的處理,去除無(wú)關(guān)信息,生成完整文件名如下: 具有自適應(yīng)鄰域探測(cè)機(jī)制的簡(jiǎn)化PSO算法修改稿20100711.doc 從數(shù)據(jù)庫(kù)到數(shù)據(jù)空間,從服務(wù)于企業(yè)到服務(wù)于大眾.pdf 提取是有損過(guò)程,有損原因如下:(1)活動(dòng)相關(guān)文檔所保存的活動(dòng)關(guān)系對(duì)中,有一項(xiàng)以上為雜項(xiàng)或不明信息,提取算法無(wú)法識(shí)別。(2)若軟件信息不常見(jiàn),提取算法將忽略此關(guān)系對(duì)。 數(shù)據(jù)在計(jì)算機(jī)上有其生命周期。上述提取的數(shù)據(jù)關(guān)系需要確定,并刪除無(wú)效關(guān)系。處理步驟如下:(1)系統(tǒng)維護(hù)本地文件列表,比對(duì)數(shù)據(jù)是否被刪除。若不存在則刪除。(2)將有效的數(shù)據(jù)關(guān)系保存為數(shù)據(jù)相關(guān)文檔。 數(shù)據(jù)空間中數(shù)據(jù)關(guān)系不斷變化,因此,下一次計(jì)算出的數(shù)據(jù)相關(guān)文檔與舊文檔合并,并依據(jù)新關(guān)系權(quán)重大、舊關(guān)系權(quán)重小的原則,對(duì)數(shù)據(jù)相關(guān)文檔進(jìn)行更新,突出用戶數(shù)據(jù)關(guān)系的新變化。 實(shí)驗(yàn)1 用戶評(píng)判數(shù)據(jù)相關(guān)文檔的準(zhǔn)確率。實(shí)驗(yàn)2將數(shù)據(jù)關(guān)系發(fā)現(xiàn)子系統(tǒng)整合數(shù)據(jù)空間,邀請(qǐng)用戶進(jìn)行相關(guān)搜索,并依照關(guān)系的有用程度及相關(guān)搜索體驗(yàn)為子系統(tǒng)打分。 實(shí)驗(yàn)挑選了5位實(shí)驗(yàn)室研究人員,他們習(xí)慣于在電腦上完成日常工作。經(jīng)過(guò)一段時(shí)間的收集、分析后,完成數(shù)據(jù)間關(guān)系的評(píng)測(cè)。表1為分析后各用戶相關(guān)信息統(tǒng)計(jì)情況。 表1 用戶信息統(tǒng)計(jì) 用戶2數(shù)據(jù)相關(guān)文檔提取率較高的原因是其活動(dòng)記錄大多是網(wǎng)頁(yè)瀏覽活動(dòng),減少了因本地文件刪除等造成的數(shù)據(jù)關(guān)系流失。用戶3活動(dòng)相關(guān)文檔數(shù)量較少,且包含大量即時(shí)通信窗口,提取率偏低。 評(píng)測(cè)顯示用戶對(duì)數(shù)據(jù)關(guān)系基本滿意。用戶2與用戶3的準(zhǔn)確率和召回率偏低的原因與其數(shù)據(jù)相關(guān)提取率有關(guān),而且其活動(dòng)中訪問(wèn)本地?cái)?shù)據(jù)較少,影響了系統(tǒng)發(fā)現(xiàn)數(shù)據(jù)關(guān)系的能力。 將數(shù)據(jù)關(guān)系發(fā)現(xiàn)子系統(tǒng)嵌入到課題組的初步數(shù)據(jù)空間模型中,利用已發(fā)現(xiàn)的數(shù)據(jù)關(guān)系進(jìn)行用戶體驗(yàn)評(píng)估。圖1是數(shù)據(jù)空間系統(tǒng)的界面圖。 圖1 數(shù)據(jù)空間界面 其中,A區(qū)為已導(dǎo)入數(shù)據(jù)列表,B區(qū)顯示已索引的搜索結(jié)果,C區(qū)顯示與B區(qū)結(jié)果相關(guān)的數(shù)據(jù)信息。當(dāng)鍵入查詢關(guān)鍵字后,B區(qū)顯示已索引數(shù)據(jù)信息。且傳遞已索引數(shù)據(jù)信息到后臺(tái)系統(tǒng)準(zhǔn)備C區(qū)與D區(qū)的數(shù)據(jù)相關(guān)信息。當(dāng)用戶認(rèn)為某項(xiàng)數(shù)據(jù)關(guān)系對(duì)自己有用時(shí),可使用“加入數(shù)據(jù)空間”將關(guān)系和數(shù)據(jù)導(dǎo)入數(shù)據(jù)空間,數(shù)據(jù)空間系統(tǒng)將相應(yīng)數(shù)據(jù)關(guān)系對(duì)進(jìn)行集成與分析。 試驗(yàn)階段,請(qǐng)用戶在數(shù)據(jù)空間中進(jìn)行多次搜索,每次搜索用戶評(píng)判C區(qū)以及D區(qū)的活動(dòng)數(shù)據(jù)關(guān)系的幫助。按照多次搜索的滿意度0-5打分。如表2所示。 用戶1由于本地?cái)?shù)據(jù)多,抽取率適中,相關(guān)搜索時(shí),返回較多的有用信息;用戶2數(shù)據(jù)相關(guān)文檔抽取率高原因是:其活動(dòng)相關(guān)文檔主要由網(wǎng)頁(yè)瀏覽活動(dòng)關(guān)系組成,在關(guān)系確認(rèn)中損失極小,同時(shí)本地信息少,搜索時(shí)較少獲得本地?cái)?shù)據(jù)關(guān)系幫助;用戶3其活動(dòng)記錄數(shù)較少,且較多即時(shí)聊天、設(shè)置等信息,提取了較有限的數(shù)據(jù)相關(guān)信息。由于關(guān)系過(guò)少,對(duì)用戶相關(guān)搜索時(shí)的支持也偏少;用戶4和用戶5的數(shù)據(jù)相關(guān)提取率適中,且本地?cái)?shù)據(jù)較多,因此可以提供較多的幫助供用戶使用,取得了較好的效果。 參考文獻(xiàn): [1] Franklin M, HalevyA, MaierD.From databasesto dataspaces:a new abstraction for information management[J].ACM Sigmod Record, 2005,34(4):27-33. [2]李玉坤,孟小峰,張相於.數(shù)據(jù)空間技術(shù)研究[J].軟件學(xué)報(bào),2008,19(8):2018-2031. [3]Nardi B.Context and consciousness:activity theory and human-computer interaction[M].The MIT Press,1996. [4]Jeffery S.Franklin M,Halevy A.Pay-as-you-go user feedback for dataspace systems[C].SIGMOD’08.Vancouver, BC,Canada:ACM,2008. [5]Li Y.Meng X,Kou Y.An efficient method for constructing personal dataspace[C].WISA 2009.Xuzhou, Jiangsu,China: IEEE,2009. [6]Ning W.De X.Resource summary for pay-as-you-go dataspace systems[C].ICSP 2008.Beijing, China: IEEE,2008. [7]寇玉波,李玉坤,孟小峰,等.個(gè)人數(shù)據(jù)空間管理中的任務(wù)挖掘策略[J].計(jì)算機(jī)研究與發(fā)展,2009,46(2). [8]吳思穎,吳揚(yáng)揚(yáng).基于中文 WordNet的中英文詞語(yǔ)相似度計(jì)算[J].鄭州大學(xué)學(xué)報(bào):理學(xué)版,2010,42(2):66-69.4 數(shù)據(jù)關(guān)系的提取
4.1 關(guān)系提取
4.2 關(guān)系確認(rèn)與更新
5 實(shí)驗(yàn)與結(jié)論
5.1 數(shù)據(jù)間關(guān)系評(píng)測(cè)
5.2 數(shù)據(jù)關(guān)系發(fā)現(xiàn)與相關(guān)搜索評(píng)估