范春曉 和曉軍 李淑云
[摘 要]針對(duì)現(xiàn)有現(xiàn)有HTML網(wǎng)頁(yè)的特點(diǎn),提出了一種基于標(biāo)簽的Web 網(wǎng)頁(yè)的清洗技術(shù),該方法基于HTML各種標(biāo)簽的特點(diǎn),對(duì)修飾性等與內(nèi)容無(wú)關(guān)的標(biāo)簽進(jìn)行清洗,首先界定清洗的規(guī)則,對(duì)可清洗的標(biāo)簽進(jìn)行定義;然后根據(jù)清洗規(guī)則對(duì)HTML網(wǎng)頁(yè)進(jìn)行處理。本論文所提方法沒(méi)有改變文檔的半結(jié)構(gòu)特點(diǎn),使后續(xù)信息的抽取較之未改進(jìn)有明顯的優(yōu)勢(shì)。
數(shù)字技術(shù)與應(yīng)用2009年11期