郭 毅 涂婧璐海南政法職業(yè)學(xué)院 海南海口 571100
?
基于HTML語義的多媒體資源數(shù)據(jù)采集研究
郭 毅 涂婧璐
海南政法職業(yè)學(xué)院 海南???571100
摘 要:在互聯(lián)網(wǎng)多媒體資源日益豐富的當(dāng)代,想收集相關(guān)的多媒體資源并使用是一件費(fèi)時(shí)費(fèi)力的工作。為了能更好地收集使用網(wǎng)絡(luò)上的多媒體資源,我們考慮在分析多媒體資源的特點(diǎn)的基礎(chǔ)上,結(jié)合Web網(wǎng)頁中與多媒體資源相關(guān)的上下文環(huán)境及HTML標(biāo)簽的語義來實(shí)現(xiàn)能夠自動采集多媒體資源的應(yīng)用。
關(guān)鍵詞:多媒體;HTML語義;數(shù)據(jù)采集
隨著計(jì)算機(jī)技術(shù)、通信技術(shù)和互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,網(wǎng)絡(luò)已成為當(dāng)今人們獲取信息的重要途徑,各種網(wǎng)絡(luò)資源應(yīng)用對人們的學(xué)習(xí)和生活的影響也日漸深刻和廣泛。多媒體資源作為網(wǎng)絡(luò)資源的重要組成部分,具有形象、生動、直觀、信息量大的優(yōu)點(diǎn),不受時(shí)間和空間的限制,能夠情景再現(xiàn),動靜結(jié)合,將抽象的內(nèi)容具體化、復(fù)雜的問題直觀化,刺激學(xué)習(xí)者的感觀和想象能力,激發(fā)學(xué)習(xí)興趣,使學(xué)習(xí)者在短時(shí)間內(nèi)獲取盡可能多的信息。但是面對浩瀚的網(wǎng)絡(luò)世界里的多媒體資源爆炸式增長,學(xué)習(xí)者想要快速、準(zhǔn)確地找到所需要的內(nèi)容往往是件不太容易的事情。教師們備課時(shí)需要在網(wǎng)絡(luò)上不斷尋找資源并整理加工,在重復(fù)的勞動中消耗時(shí)間和精力,能夠高效地將所需資源整合起來為工作和學(xué)習(xí)所用較困難。
在互聯(lián)網(wǎng)世界中絕大多數(shù)的多媒體資源載體是基于Web網(wǎng)頁形式存在的。因此,如果實(shí)現(xiàn)一種自動采集Web網(wǎng)頁上的多媒體資源數(shù)據(jù)功能的應(yīng)用,將能大大提高學(xué)習(xí)者效率,減輕學(xué)習(xí)者因資源收集所帶來的壓力,轉(zhuǎn)而將時(shí)間和精力集中到學(xué)習(xí)本身上,將起到事半功倍的效果。
目前,多媒體采集方法主要有基于內(nèi)容和基于文本的多媒體信息提取,其中前者很大程度上依賴于對采集條件的精確描述程度,另外對于多媒體信息的深層語義分析還很困難,相對來說基于內(nèi)容的多媒體采集技術(shù)還不是很成熟。
在Web網(wǎng)頁中的多媒體資源總是處于一定的上下文環(huán)境中,它們的語義與上下文環(huán)境有著密切的關(guān)系。從多媒體資源所在網(wǎng)頁的標(biāo)題、文件名、周圍文本等相關(guān)信息中可以提取出反映多媒體資源的主題、主體等關(guān)鍵信息,對多媒體資源采集具有重要意義,因此,基于文本的采集方法更成熟,采集命中率更高。
目前所說的多媒體資源主要包括文本資源、圖片資源、音頻資源、視頻資源、動畫資源等幾類。
文本資源:是指計(jì)算機(jī)中的文字內(nèi)容,是最有效、快速傳播知識信息的媒體元素。Web中的文本資源主要是以HTML中的文本標(biāo)記來標(biāo)記文字或以附件文件的形式下載,主要有TXT,DOC,WPS等格式。
圖片資源:生動直觀,很容易被認(rèn)知和接收,是多媒體資源庫中最重要的資源之一,也是決定多媒體應(yīng)用視覺效果好壞的關(guān)鍵因素。Web網(wǎng)頁中常見的圖像格式有JPEG,GIF,PNG等。其中,JPEG格式圖片占用空間小,是web網(wǎng)頁中最常見的圖像格式;GIF支持簡單動畫及透明效果;PNG結(jié)合前兩者優(yōu)點(diǎn),不失真,文件小,能顯示透明圖像。
音頻資源:音頻資源媒體一般以分為音樂、語音和效果音。Web 中常見的音頻格式有WAV,MP3,WMA,MIDI等格式。其中,WAV格式示壓縮,用于聲效和背景音樂;MP3格式壓縮率高,文件小,音質(zhì)好,支持流媒體在線播放,適用于網(wǎng)絡(luò)傳輸;WMA格式是帶版權(quán)保護(hù)技術(shù),壓縮率更高,音質(zhì)強(qiáng)于MP3;MIDI格式是一組聲音信息指令,占用空間小。
視頻資源:視頻資源包括生活錄像、影視剪輯、新聞報(bào)道等視頻影像資料都可以作為多媒體教學(xué)的視頻資源。Web中常見的視頻格式有FLV,MPEG,AVI等。其中,F(xiàn)LV格式文件極小、加載速度極快,支持流媒體,是目前主流的Web網(wǎng)頁視頻格式。MPEG格式是運(yùn)動圖像壓縮算法的國際標(biāo)準(zhǔn),在視頻中應(yīng)用廣泛。AVI格式?jīng)]有壓縮,圖像質(zhì)量好,但是文件大。
動畫資源:它可以將抽象的內(nèi)容清晰地展現(xiàn)出來,將復(fù)雜的流程動態(tài)地演示出來,使學(xué)習(xí)內(nèi)容變得既直觀又簡單。網(wǎng)頁中的動畫最常見的格式是SWF格式,由于SWF格式文件占用空間很小,采用了流媒體技術(shù),因此被廣泛應(yīng)用于Web網(wǎng)頁中,普及率很高。
Web中的多媒體資源作為網(wǎng)頁的組成部分與文本混合嵌入在Web 網(wǎng)頁中,同時(shí)又以獨(dú)立的文件形式保存在Web 服務(wù)器中。因此,Web網(wǎng)頁中的多媒體包含兩方面的屬性:文件屬性和內(nèi)容屬性。多媒體的文件屬性指文件名、文件類型、文件大小等信息。內(nèi)容屬性是對多媒體數(shù)據(jù)所包含信息的描述。不同類型的多媒體文件具有不同的內(nèi)容屬性,如圖像的主色調(diào)、視頻的關(guān)鍵幀等。
圖像的文件屬性有圖像文件名、類型、大小、URL等相關(guān)數(shù)據(jù);圖像的語義屬性包括圖像所表現(xiàn)的主題、事件、場景以及圖像中物體的名稱、姿態(tài)、空間關(guān)系等語義信息。
視頻是一系列片斷的表達(dá),每個(gè)片斷可分為若干個(gè)場景,進(jìn)一步分為多個(gè)鏡頭。包含文件、語義屬性。其中語義屬性包含視頻標(biāo)題、類型和內(nèi)容描述,可以從網(wǎng)頁的上下文關(guān)聯(lián)環(huán)境中提取得到。其中類型又有電影、科技、教育等。
動畫在Web網(wǎng)頁上使用最多的為Flash動畫和GIF動畫。其中語義屬性包含動畫標(biāo)題、類型、描述,可以從網(wǎng)頁相關(guān)上下文中提取得到。其中類型有教學(xué)型、娛樂型、交互型等。
音頻包括語音、音樂和其他的波形聲音。音頻標(biāo)題、類型、描述,可以從網(wǎng)頁上下文中提取得到。其中類型可分為語音、音效、歌曲、音樂等。
Web網(wǎng)頁中是采用HTML語言來描述的。HTML即超文本標(biāo)記語言,是一種簡單、通用的文本標(biāo)記語言,可以制作包含文本、圖像、聲音、視頻、動畫等內(nèi)容的網(wǎng)頁,并可以提供各網(wǎng)頁之間的鏈接。Web 中的各種多媒體資源通過 HTML 語言嵌入到網(wǎng)頁中,Web瀏覽器下載用HTML 標(biāo)記過的文件,并對文件中的標(biāo)記進(jìn)行解釋,使用戶在屏幕上看到結(jié)構(gòu)化的包含文字、圖像或其他各種多媒體資源的網(wǎng)頁頁面。
HTML標(biāo)記語言通過標(biāo)簽來描述各種資源,且每個(gè)標(biāo)簽都有它各自的含義。如文字用標(biāo)簽標(biāo)記的內(nèi)容為一段落內(nèi)容。項(xiàng)目列表標(biāo)簽如