摘 要:互聯(lián)網(wǎng)的飛速發(fā)展的今天,如何判斷信息的真假,快速準(zhǔn)確地查找到用戶所感興趣及更有價(jià)值的信息是本文的研究重點(diǎn)。根據(jù)砂的篩析試驗(yàn),對(duì)現(xiàn)有的篩選方法進(jìn)行層層遞進(jìn),并結(jié)合用戶對(duì)信息的興趣度,信息的類(lèi)別等查找用戶感興趣的和真實(shí)消息。同時(shí)類(lèi)比愛(ài)情模型評(píng)分標(biāo)準(zhǔn)觀測(cè)用戶對(duì)信息的興趣度,分?jǐn)?shù)越高表明興趣度越大及用戶感興趣的模型。
關(guān)鍵詞:過(guò)濾篩查;認(rèn)知;信息流;興趣模型
1 篩析模型
互聯(lián)網(wǎng)時(shí)代的到來(lái),人們每天都接收著數(shù)以萬(wàn)計(jì)的信息。本文假設(shè)初始互聯(lián)網(wǎng)網(wǎng)絡(luò)節(jié)點(diǎn)都是可信的。信息的分享只需要足夠的數(shù)據(jù)包傳輸就行了。然而隨著互聯(lián)網(wǎng)的迅速 發(fā)展,網(wǎng)絡(luò)節(jié)點(diǎn)的可信度有待考慮從而產(chǎn)生了大量的虛假信息,并被廣泛傳播。為提升真實(shí)信息的辨識(shí)度,本文借鑒砂的篩析實(shí)驗(yàn)對(duì)信息的選擇同樣采取從上到下層層篩選將有害信息及干擾信息的影響降到最小,從而達(dá)到降低信息雜質(zhì)并最大限度的得到最有價(jià)值。在信息流傳播的過(guò)程中,依次通過(guò)內(nèi)容過(guò)濾,社會(huì)過(guò)濾,以及關(guān)鍵詞過(guò)濾,從小到大,層層篩選。
1.1 內(nèi)容過(guò)濾
通過(guò)信息接受者和信息內(nèi)容的特征人工智能的將兩者進(jìn)行匹配,它是通過(guò)信息潛在接受者對(duì)信息需求的匹配。基于內(nèi)容理解的過(guò)濾是對(duì)獲取的網(wǎng)絡(luò)信息內(nèi)容進(jìn)行識(shí)別、判斷、分類(lèi)確定其是否為需過(guò)濾的目標(biāo)內(nèi)容并對(duì)已確定的目標(biāo)內(nèi)容進(jìn)行過(guò)濾等檢測(cè)控制的技術(shù)。
1.2 社會(huì)過(guò)濾
通過(guò)個(gè)體和群體之間的聯(lián)系進(jìn)行過(guò)濾。其是在存在與目標(biāo)用戶興趣相似的其他用戶的基礎(chǔ)下,將其他興趣相似用戶的內(nèi)容推薦給目標(biāo)用戶。與基于內(nèi)容的過(guò)濾的方式不同,它不需要任何文檔內(nèi)容的信息數(shù)據(jù),它基于相似興趣用戶的使用模式而不需要其他任何文檔內(nèi)容的數(shù)據(jù)包傳輸。
所謂的興趣度指用戶對(duì)信息感興趣的程度。選擇0-10之間的整數(shù),0表示完全沒(méi)有興趣,10表示特別感興趣。把用戶感興趣的信息具體化為其對(duì)某一信息的評(píng)分向量。通過(guò)具體分?jǐn)?shù)的大小協(xié)作過(guò)濾信息。其具體實(shí)現(xiàn)方法是利用系統(tǒng)匹配技術(shù)找到當(dāng)前用戶的相似其他鄰居用戶,然后以鄰居評(píng)分標(biāo)準(zhǔn)產(chǎn)生相關(guān)推薦。
假設(shè)有M個(gè)用戶和N項(xiàng)資源,則一個(gè)用戶對(duì)資源的興趣可以表示為一個(gè)M×N的矩陣R。其中每一項(xiàng)Rmn=r表示用戶m對(duì)資源n的評(píng)分為r,如果Rmn=NULL,則代表用戶m對(duì)資源n沒(méi)有評(píng)分。
1.3 關(guān)鍵詞過(guò)濾[ 1 ]
從信息中選取具有二值邏輯的特征變量來(lái)描述信息。特征變量之間用邏輯詞與、或、非連接。若倆關(guān)鍵詞同時(shí)包含在過(guò)濾文檔中則可通過(guò)布爾操作生成特征變量的表達(dá)式。反之,若兩關(guān)鍵詞用布爾操作符相關(guān)聯(lián)則表示兩者之中有一個(gè)包含在過(guò)濾文檔中。布爾操作就是用一系列的差與和來(lái)完成。
假設(shè)規(guī)則關(guān)鍵字集合為H=(a1,a2,…,an),則擴(kuò)充后可表示為H=(H(a1),H(a2),…,H(an)),其中H(ai)(i=1,2,…,n)是詞典中與具有與a1相同語(yǔ)義的詞語(yǔ)集合。增加擴(kuò)充項(xiàng)就增加了同義詞匹配的機(jī)會(huì)有利于截獲同義不同形的相關(guān)文本從而提高查全率。
1.4 信息過(guò)濾
針對(duì)以上幾種信息過(guò)濾的優(yōu)缺點(diǎn)及信息可信度,為此我們結(jié)合幾種過(guò)濾方法即對(duì)過(guò)濾方式的權(quán)值求和。即:
N=α*I1+β*I2+γ*I3
其中I1是內(nèi)容過(guò)濾的興趣預(yù)測(cè)值,I2是社會(huì)過(guò)濾內(nèi)容預(yù)測(cè)值,I3關(guān)鍵字匹配預(yù)測(cè)值,其中α+β+γ=1。
其利用內(nèi)容過(guò)濾的優(yōu)點(diǎn),使在沒(méi)有用戶或用戶很少的情況下,能夠向用戶推薦信息,同時(shí)也考慮社會(huì)過(guò)濾的優(yōu)點(diǎn),當(dāng)用戶數(shù)和評(píng)價(jià)級(jí)別數(shù)很多時(shí),提高過(guò)濾結(jié)果的準(zhǔn)確度,并結(jié)合布爾過(guò)濾的優(yōu)點(diǎn)對(duì)關(guān)鍵詞的內(nèi)在聯(lián)系進(jìn)行了加強(qiáng)。這樣通過(guò)這種綜合過(guò)濾可以提高整個(gè)過(guò)濾系統(tǒng)的性能。由于幾種過(guò)濾技術(shù)之間沒(méi)有很強(qiáng)大的內(nèi)在的依賴(lài)性,尤其當(dāng)某種過(guò)濾技術(shù)得到改進(jìn)后,系統(tǒng)整體性能就會(huì)提高。另外,此方法具有健壯的擴(kuò)展性,它綜合了傳統(tǒng)過(guò)濾系統(tǒng)的優(yōu)點(diǎn),只需預(yù)測(cè)時(shí)在原來(lái)加權(quán)項(xiàng)的基礎(chǔ)上進(jìn)行累加,使過(guò)濾更準(zhǔn)確。此外結(jié)合基于價(jià)值的過(guò)濾,可以使預(yù)測(cè)時(shí)間縮短,實(shí)時(shí)的反映用戶需求[ 2 ]。
2 興趣信息
互聯(lián)網(wǎng)時(shí)代的到來(lái),用戶每天都接收著數(shù)以萬(wàn)計(jì)的信息。互聯(lián)網(wǎng)網(wǎng)絡(luò)節(jié)點(diǎn)在初始都是可信的。所以信息的分享只需要足夠的數(shù)據(jù)包傳輸就行了。然而隨著互聯(lián)網(wǎng)的迅速 發(fā)展,網(wǎng)絡(luò)節(jié)點(diǎn)的可信度有待考慮從而產(chǎn)生了大量的虛假信息。
英國(guó)心理學(xué)家、數(shù)學(xué)家和人際關(guān)系專(zhuān)家提出了一個(gè)終極戀愛(ài)數(shù)學(xué)模型,讓男女推算自己和心儀的對(duì)象是否能讓愛(ài)情開(kāi)花并結(jié)出幸福之果。這個(gè)由專(zhuān)家推導(dǎo)的愛(ài)情模型是:
愛(ài)情=[(F+Ch+P)/2+3(C+I)/10]/[(5-SI)2+2]
其中,Q自己對(duì)對(duì)方的好感,W對(duì)方的魅力,E吸引異性的內(nèi)分泌物,C本人自信心,D親密度,H形象。
戀情測(cè)試者可對(duì)每個(gè)指標(biāo)分別評(píng)分,自我形象SI評(píng)分為1至5,其它評(píng)分為1至10。將相應(yīng)的值代入后,若總分介于8至10分之間,極有可能熱戀;6至7分感情平穩(wěn);4至5分感情冷淡;低于4分不大可能有愛(ài)情。
基于此,本文用愛(ài)情模型來(lái)模擬人類(lèi)對(duì)信息興趣的模型,其中Q是信息的形式及種類(lèi),W是用戶初次印象,E用戶對(duì)其求知欲,C信息對(duì)用戶的重要度,D用戶與信息的關(guān)聯(lián)度,H是該地區(qū)或國(guó)家的的拓?fù)浣Y(jié)構(gòu)和力量。其評(píng)分標(biāo)準(zhǔn)與愛(ài)情模型中各項(xiàng)分值相同,若總分介于8至10分之間,用戶對(duì)該信息興趣極高;6至7分對(duì)該信息興趣一般;4至5分代表興趣冷淡;低于4分則代表該信息不會(huì)引起人類(lèi)的注意,即該信息不會(huì)傳播廣泛。
3 評(píng)價(jià)
互聯(lián)網(wǎng)的使用根植于社會(huì)的各個(gè)角落,人們每天接受數(shù)以萬(wàn)計(jì)的網(wǎng)絡(luò)信息。因此網(wǎng)絡(luò)信息深刻的影響人們對(duì)社會(huì)的認(rèn)同感。提高信息查找的準(zhǔn)確度以及信息傳播的真實(shí)信刻不容緩。對(duì)于信息查找的準(zhǔn)確度篩析模型雖然能夠結(jié)合幾種傳統(tǒng)模型的優(yōu)點(diǎn),但其應(yīng)用不夠靈活,極有可能過(guò)濾掉有效信息。而對(duì)于興趣信息的傳播,雖然類(lèi)比了愛(ài)情模型,但是愛(ài)情模型是非線性的,兩者數(shù)據(jù)處理方法的差異太大。且該模型過(guò)于刻板,加權(quán)系數(shù)皆為整數(shù)。
參考文獻(xiàn):
[1] 何靜,劉海燕,宮云戰(zhàn).內(nèi)容過(guò)濾中過(guò)濾模版的改進(jìn)技術(shù)研究[D].2003,2:28.
[2] 王翠萍.基于用戶興趣度網(wǎng)絡(luò)信息過(guò)濾模型研究[D].2007:30-31.
作者簡(jiǎn)介:吳娜(1995-),女,漢族,湖北黃岡人,西北民族大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,2104級(jí)本科生,研究方向:數(shù)學(xué)與應(yīng)用數(shù)學(xué)。