国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于樹結(jié)構(gòu)的Web表格信息抽取方法

2011-08-28 08:40:28孫全紅張貞貞
關(guān)鍵詞:二叉樹關(guān)鍵字感興趣

孫全紅,張貞貞

(華北水利水電學(xué)院,河南鄭州450011)

隨著信息技術(shù)的發(fā)展和Web資源的極度膨脹,網(wǎng)絡(luò)資源傳統(tǒng)的信息獲取方式已不能滿足用戶的需求.因此現(xiàn)在面臨急需解決的問題是怎樣從海量的網(wǎng)絡(luò)資源中挖掘出有價值的和感興趣的信息.網(wǎng)絡(luò)信息挖掘是一個極其復(fù)雜的過程,它不同于傳統(tǒng)的數(shù)據(jù)倉庫技術(shù)和簡單的知識發(fā)現(xiàn),它面對的海量信息不是簡單的結(jié)構(gòu)化數(shù)據(jù),而常常為半結(jié)構(gòu)化數(shù)據(jù),甚至是異構(gòu)型數(shù)據(jù)[1].筆者從Web表格信息抽取方法的研究及實現(xiàn)方面來研究基于樹結(jié)構(gòu)的Web表格信息抽取的建模理論,簡化建模的過程,縮短實現(xiàn)周期,為Web信息抽取建模提供新的思考方法.

1 Web表格信息抽取的設(shè)計

1.1 系統(tǒng)構(gòu)成

Web表格信息抽取系統(tǒng)是以Web表格中的數(shù)據(jù)為信息抽取對象開發(fā)的工具,具有較高的通用性.主要有以下2個工具構(gòu)成[2]:

a.二叉樹構(gòu)建工具.此工具也是Html文檔分析工具,實現(xiàn)對文檔結(jié)構(gòu)的重建,包括Html解析和二叉樹構(gòu)建,即將一個Html文檔轉(zhuǎn)化成一顆含有文本信息的二叉樹,供信息抽取使用.

b.信息抽取工具.利用全文二叉樹進行查找、信息抽取,并具有選項抽取等功能,即從一篇 Web文檔的表格中提取出與用戶感興趣的關(guān)鍵詞相關(guān)的表格信息.

二叉樹構(gòu)建工具以Html文檔作為輸入數(shù)據(jù),將Html文檔解析成DOM樹,再將用戶感興趣的標(biāo)記及其中的內(nèi)容重新構(gòu)建成一棵含有文本信息的二叉樹.在此以表格為例進行信息抽取,設(shè)定“title(文檔標(biāo)題)、table(表)、td(列)、tr(行)”為感興趣標(biāo)記.圖書信息見表1.

表1 圖書信息表

表1對應(yīng)的Html代碼如下:

值得注意的是,這是一段純凈的Html代碼,省去了屬性值的設(shè)置,其所對應(yīng)的DOM樹形式如圖1所示.

圖1 DOM樹示例

此DOM樹轉(zhuǎn)化成二叉樹的格式如圖2所示.在用樹自動機時經(jīng)常將DOM轉(zhuǎn)轉(zhuǎn)化為二叉樹,具體見文獻[3].這里為了提高操作效率,并不將DOM樹所有結(jié)點轉(zhuǎn)化成二叉樹的結(jié)點,而只是將用戶感興趣的結(jié)點轉(zhuǎn)化成二叉樹.由于通常情況下一個文檔只有一個Title,在信息抽取時可將Title進行單獨處理,而不必放入到二叉樹中.二叉樹的左結(jié)點為DOM樹中此結(jié)點的第一個孩子結(jié)點,右結(jié)點為此結(jié)點的兄弟結(jié)點,若有多個兄弟結(jié)點依次連線為右結(jié)點.

圖2 文檔二叉樹

當(dāng)Html文檔轉(zhuǎn)化成一棵二叉樹后,信息抽取工具通過遍歷二叉樹查找用戶感興趣的關(guān)鍵詞,然后將該關(guān)鍵詞結(jié)點所在的行、列或所在的子表格中的所有內(nèi)容作為信息抽取結(jié)果進行輸出.

信息抽取時可使用較復(fù)雜關(guān)鍵字,用來表示信息抽取時的結(jié)合條件以支持多種信息抽取方式.如可使用參數(shù)and或or指定信息抽取關(guān)鍵字之間的關(guān)系.當(dāng)只有一個信息關(guān)鍵字時,忽略該參數(shù).信息抽取時,用信息抽取關(guān)鍵字和二叉樹中所有結(jié)點的文本段進行匹配,有一個匹配成功時,認為該結(jié)點滿足信息抽取條件.當(dāng)有多個信息抽取關(guān)鍵字時,可使用該參數(shù).信息抽取時,用所有的信息抽取關(guān)鍵字和二叉樹結(jié)點的文本進行交叉匹配或重復(fù)匹配.關(guān)鍵詞“and”表示所有的信息抽取關(guān)鍵字都可以和任意一個結(jié)點的文本相匹配時,認為該結(jié)點滿足信息抽取條件.關(guān)鍵詞“or”表示任意一個信息抽取關(guān)鍵字可以和任意一個結(jié)點的文本相匹配時,認為該結(jié)點滿足信息抽取條件.

1.2 關(guān)鍵技術(shù)

開發(fā)工具采用JAVA語言,關(guān)鍵技術(shù)為構(gòu)建二叉樹構(gòu)建和信息抽取2個工具時相關(guān)的類、方法及函數(shù)的構(gòu)造及編程.在實現(xiàn)過程中,二叉樹構(gòu)建工具可包括 BinNode類、BinTagNode類、HtmlUtil類、FileUtil類、FileDownLoadUtil類和 HtmlParser類.

2 Web信息抽取的實現(xiàn)

2.1 二叉樹構(gòu)建工具

二叉樹構(gòu)建工具的功能是將獲取到的Html文檔轉(zhuǎn)化為一棵含有文本信息的二叉樹,供信息取用.圖3為二叉樹構(gòu)建工具功能模型圖.

圖3 二叉樹構(gòu)建工具功能模型圖

Html獲取工具由FileUtil類和FileDownLoadUtil類實現(xiàn).Html解析工具由HtmlParser包實現(xiàn).Html-Parser是一個純JAVA寫的Html解析庫,它不依賴于其它的JAVA庫文件,主要用于改造或提取Html.在實際的項目中只需要將HtmlParser.jar導(dǎo)入classpath中,就可以使用HtmlParser提供的API.

2.2 信息抽取工具

信息的抽取功能由類BinTagTree實現(xiàn).主要是遍歷二叉樹,查找符合條件的結(jié)點,將信息提取到結(jié)果變量中.此方法用于遍歷二叉樹,找到滿足條件的結(jié)點后,開始回溯到指定的抽取范圍結(jié)點,提取信息放到結(jié)果列表中.有局部布爾變量isSuccess,表示是否匹配成功,初值為 true[4].

2.3 設(shè)計結(jié)果評測

該方法解決了在Html文檔中的表格信息抽取問題.以抽取 http://www.265.com/weather/中的如圖4所示的表格信息為例,闡述整個信息抽取過程.

圖4 網(wǎng)頁用例

a.根據(jù)給出的URL抽取信息.

以“河北”這個關(guān)鍵字為例,進行以下測試.當(dāng)抽取范圍為table時,輸出所有河北省的天氣信息.

當(dāng)抽取范圍為tr時,只輸出河北保定的天氣信息.輸入關(guān)鍵字為“河,北”.測試結(jié)果:當(dāng)抽取范圍為table且抽取條件為and時,輸出河北省的所有天氣信息;當(dāng)抽取范圍為table且抽取條件為or時,輸出所有包含“河”字或“北”字的省市的天氣信息.本例中將輸出河北省和北京市的所有天氣信息;當(dāng)抽取范圍為tr且抽取條件為and時,輸出河北保定的天氣信息;當(dāng)抽取范圍為tr且抽取條件為or時,輸出河北保定和北京市的天氣信息.

b.從本地文件夾中選取指定文件,同時還支持多個相似網(wǎng)頁的抽取.

這里選擇2個文件,分別是華北地區(qū)和港澳臺地區(qū)的天氣信息.輸入關(guān)鍵字“河,北”,抽取條件為or且抽取范圍是tr,結(jié)果是輸出河北保定、北京市和臺北地區(qū)的天氣信息.

3 結(jié)語

網(wǎng)絡(luò)信息挖掘是數(shù)據(jù)挖掘技術(shù)中的一個新的分支,它涉及到網(wǎng)絡(luò)技術(shù)、數(shù)據(jù)挖掘技術(shù)、多媒體技術(shù)、文本處理技術(shù)、人工智能技術(shù)等多個領(lǐng)域.參考WWW文本信息挖掘當(dāng)前的流行技術(shù),在以往研究的基礎(chǔ)上,利用二叉樹模型實現(xiàn)了針對表格的信息抽取引擎的開發(fā),解決了表格的信息抽取問題,協(xié)助用戶進行信息過濾,具有較強的通用性.

[1]蒲筱哥.基于Web的信息抽取技術(shù)研究綜述[J].現(xiàn)代情報,2007,10(10):216 -217.

[2]王治和.表格信息抽取引擎的設(shè)計與實現(xiàn)[J].計算機科學(xué),2006,33(10):126 -127.

[3]莊重.Web信息抽取的研究[D].武漢:湖北工業(yè)大學(xué),2009.

[4]鄒濤,黃源,張福炎.基于WWW的文本信息挖掘[J].情報學(xué)報,1999,18(4):291 -295.

猜你喜歡
二叉樹關(guān)鍵字感興趣
CSP真題——二叉樹
電腦報(2022年37期)2022-09-28 05:31:07
履職盡責(zé)求實效 真抓實干勇作為——十個關(guān)鍵字,盤點江蘇統(tǒng)戰(zhàn)的2021
華人時刊(2022年1期)2022-04-26 13:39:28
二叉樹創(chuàng)建方法
更 正
含能材料(2021年1期)2021-01-10 08:34:34
成功避開“關(guān)鍵字”
一種由層次遍歷和其它遍歷構(gòu)造二叉樹的新算法
這樣的智能廚房臺面,你會感興趣嗎?
論復(fù)雜二叉樹的初始化算法
河南科技(2014年24期)2014-02-27 14:20:01
夢斷交易會
興趣英語(2013年9期)2013-11-28 05:49:22
基于用戶反饋的關(guān)系數(shù)據(jù)庫關(guān)鍵字查詢系統(tǒng)
湘西| 昔阳县| 恩施市| 隆昌县| 砀山县| 军事| 望奎县| 丰顺县| 宣武区| 宜章县| 扬中市| 桐城市| 海阳市| 吴川市| 茶陵县| 贵德县| 富锦市| 屏南县| 溧水县| 班玛县| 云林县| 桦南县| 张家川| 澄江县| 新乡市| 南京市| 特克斯县| 巴马| 烟台市| 拉孜县| 大庆市| 青龙| 睢宁县| 江陵县| 浪卡子县| 金山区| 饶平县| 长顺县| 简阳市| 温州市| 琼中|