摘 要:文章從立類、歸類、序類、大綱、類名等5個方面分析了網(wǎng)絡(luò)信息分類法存在的缺陷,又從知識覆蓋、體系結(jié)構(gòu)、類目組織、基本類目、類目名稱、用戶界而、檢索功能等7個方面提出了完善的措施及其標(biāo)準(zhǔn)化問題。
關(guān)鍵詞:網(wǎng)絡(luò)信息;分類法;標(biāo)準(zhǔn)化;研究
據(jù)不完全統(tǒng)計(jì),目前已開發(fā)的中文網(wǎng)絡(luò)信息分類法已有282種之多,而各種自編的網(wǎng)絡(luò)信息分類法都存在著這樣或那樣的問題。分析存在的缺陷,提出完善的措施,是網(wǎng)絡(luò)信息分類法標(biāo)準(zhǔn)化研究的重要內(nèi)容。而研究網(wǎng)絡(luò)信息分類法的標(biāo)準(zhǔn)化,對于提高各種自編網(wǎng)絡(luò)信息分類法的質(zhì)量,進(jìn)而編制全國統(tǒng)一的網(wǎng)絡(luò)信息分類法,優(yōu)化網(wǎng)絡(luò)信息分類組織,實(shí)現(xiàn)網(wǎng)絡(luò)信息資源的共建共享,是會大有補(bǔ)益的。
一、網(wǎng)絡(luò)信息分類法的缺陷
1.知識覆蓋不全
幾乎所有的網(wǎng)絡(luò)信息分類法的分類體系都存在著知識殘缺不全、體系設(shè)計(jì)粗略的通病。就拿全球百強(qiáng)中文網(wǎng)站前5名的新浪(www.sina.com.cn)、Yahoo中文(cn.yahoo.com)、網(wǎng)易(www.yeah.net)、搜狐(www.sohu.com)、TOM·COM(search.tom.com)的分類體系來說,不是未列自然科學(xué),就是未設(shè)社會科學(xué)。又如中華網(wǎng)(search.china.com)、263在線(search.263.net)名捕(www.mingbu.com)、搜星(www.soseen.com)等的分類體系,也是既未列自然科學(xué),也未列社會科學(xué)。
2.歸類不夠科學(xué)
許多網(wǎng)絡(luò)信息分類法的分類體系,未能嚴(yán)格地按照類目的內(nèi)涵和外延進(jìn)行科學(xué)地歸屬類目。如搜狐的分類體系把“圖書館”歸入“教育”大類,又在“文學(xué)”大類中作為交替類目列出,把“文革”歸入“藝術(shù)”大類等。再如搜豹(www.sobao.com)的分類體系把“農(nóng)業(yè)”、“教育”、“地理學(xué)”、“歷史”、“圖書館”、“理工院?!钡葰w入“自然科學(xué)”??傊瑲w類不當(dāng)?shù)默F(xiàn)象在網(wǎng)絡(luò)信息分類法系統(tǒng)中比比皆是。
在網(wǎng)絡(luò)信息分類體系中,劃分失誤的現(xiàn)象也是很多的,主要表現(xiàn)為:①劃分過寬。如雅虎分類體系的“科學(xué)”大類,劃分出的“地理學(xué)”、“教育”、“歷史”、“圖書館”、“心理學(xué)”等。②劃分過窄。如聯(lián)合搜索(www.365a.com)“社會科學(xué)”大類,只列舉了“哲學(xué)”、“政治學(xué)”和“法學(xué)”,未列“經(jīng)濟(jì)學(xué)”、“歷史”、“地理”、“軍事”等。③劃分出子類的級別過高或過低。如智星酷搜(search.501.com)的分類體系把“三個代表”、“周易”等與“哲學(xué)”等類并列,同屬“社會科學(xué)”大類之下的二級類目,前兩者則屬級別過高之類。④劃分出的子類相互包容。如上兩例中的“哲學(xué)”包括“周易”、“三個代表”,“自然科學(xué)”包含“物理學(xué)”、“化學(xué)”和“數(shù)學(xué)”。
3.類目排列隨意
幾乎所有的網(wǎng)絡(luò)信息分類法的分類體系都存在著類目排列混亂的通病。如新浪、網(wǎng)易、中華網(wǎng)、木子網(wǎng)(中文)、263在線等的分類體系,都把“文學(xué)”與“藝術(shù)”、“電腦網(wǎng)絡(luò)”與“科學(xué)技術(shù)”、“經(jīng)濟(jì)”與“文化”及“政治”等原本密切的大類,卻人為地分割開來。
有的網(wǎng)絡(luò)信息分類法的分類類目之間界限模糊。如網(wǎng)易分類體系中新增的“行業(yè)分類”大類與原有的“公司企業(yè)”大類,外延多有交叉重疊,因?yàn)楹笳咭彩前葱袠I(yè)劃分的。
4.大綱缺乏穩(wěn)定
有的網(wǎng)絡(luò)信息分類法的分類大綱改變太大,使人難以把握。如亦凡搜索分類體系,原有大類10個,后又增補(bǔ)2個,共計(jì)12個;搜狐分類體系的大類數(shù)目及類名雖未改變,但首頁與分類搜索界面上的大類排序卻大相徑庭;特別是木子網(wǎng)(中文)的分類體系,首頁分類大綱的類名與點(diǎn)擊后界面上的類名迥然不同;如把“娛樂與明星”改為“娛樂與影視”、把“藝術(shù)與表演”改為“藝術(shù)與建筑”、把“社會與歷史”改為“社會與人物”、把“科學(xué)與技術(shù)”改為“科學(xué)與研究”、等。5.類名有失規(guī)范
網(wǎng)絡(luò)信息分類法在其分類體系中采用了廣大網(wǎng)民所喜聞樂見的俗稱、簡稱、慣稱等自然語言,諸如媒體、影視、環(huán)保、婚戀、高校、求職、文革、黑客、電腦、IT業(yè)等,這是無可厚非的。但有些類名缺乏范化處理,類下又無必要的注釋,容易增加網(wǎng)民的知識負(fù)擔(dān),如名捕分類體系中的“說天說地”、“美眉寫真”,天網(wǎng)搜索分類體系中的“嗜好”、“殘障”、“討論話題”,百度(ix.baidu.com)分類體系中的“一見鐘情”等。
二、網(wǎng)絡(luò)信息分類法的完善
1.知識覆蓋的全面性
知識覆蓋面全是標(biāo)準(zhǔn)化的網(wǎng)絡(luò)信息分類法的至關(guān)重要條件。它要求在其分類大綱及其層次展開的設(shè)計(jì)上都要體現(xiàn)出知識的全面性,其知識范圍要涵蓋所有的主題、學(xué)科、行業(yè)、產(chǎn)品等,即人類的全部知識領(lǐng)域和各種知識需求;其信息類型要包括所有的政府信息、事業(yè)信息、企業(yè)信息、社會信息等,即人類的全部活動所產(chǎn)生的文本、圖形、圖像、音頻、視頻等信息。一般來說,收集網(wǎng)站信息越多,概括出的類目就越多,分類體系的知識覆蓋就越全面,所以說,盡可能地收集網(wǎng)站信息,是編制高質(zhì)量的網(wǎng)絡(luò)信息分類法的關(guān)鍵。目前的人工智能技術(shù)、自然語言理解技術(shù)、自動索引技術(shù)、數(shù)據(jù)庫技術(shù)等,能夠快速地把網(wǎng)絡(luò)信息進(jìn)行過濾、篩選、整序、建庫,把新數(shù)據(jù)加入到自己的索引庫中。
2.體系結(jié)構(gòu)的完備性
標(biāo)準(zhǔn)化的網(wǎng)絡(luò)信息分類法,體系結(jié)構(gòu)應(yīng)包括分類大綱、主類表、從類表、類目注釋、類目索引、后控制詞表、使用指南等。分類大綱是網(wǎng)絡(luò)信息分類法進(jìn)一步劃分的基礎(chǔ),也是廣大網(wǎng)民查詢網(wǎng)上信息的起點(diǎn),它直接影響著網(wǎng)絡(luò)信息分類法的性能和質(zhì)量,因此說,編制好分類大綱是至關(guān)重要的。分類大綱的一級類目以20-30個為宜。分類大綱中的類目數(shù)太少會造成覆蓋不全,很多網(wǎng)站信息無類可歸;太多會造成主題分散,也容易產(chǎn)生空頭類目。主類目是由分類大綱展開的全部類目組成的網(wǎng)絡(luò)信息分類法的主體。分類大綱展開的層次以4-6