国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

web信息提取技術(shù)與應(yīng)用的研究

2017-12-07 08:00陳俊潔
關(guān)鍵詞:應(yīng)用意義分析

陳俊潔

摘要:隨著社會經(jīng)濟(jì)的快速發(fā)展,計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)已經(jīng)得到了廣泛的應(yīng)用,利用web來對信息進(jìn)行提取已經(jīng)成為人們工作中最常使用的辦法,目前有很多信息都是通過web來進(jìn)行提供的,但是越來越多web信息的出現(xiàn)讓提取更困難,針對這種情況應(yīng)該選擇更加精確的檢索技術(shù),本文就對web信息提取技術(shù)與應(yīng)用問題進(jìn)行分析。

關(guān)鍵詞:web;信息提取技術(shù);應(yīng)用意義;分析

中圖分類號:TP391.1 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9416(2017)09-0114-01

1 web信息提取技術(shù)研究的意義

傳統(tǒng)的信息提取技術(shù)是起源于80年代的,在90年代消息理解會議召開了,同時(shí)web項(xiàng)目也成立起來并得到了一定的發(fā)展,從目前來看,web信息提取技術(shù)中還是存在很多的不足之處,例如檢索方法不夠合理,結(jié)果顯示比較單一等等,由于出現(xiàn)的多種問題,會對整個的系統(tǒng)造成損害,因此就需要相關(guān)人員進(jìn)行更加深入的研究,web信息提取技術(shù)有著一定的實(shí)用性,它也是所有系統(tǒng)構(gòu)建的基礎(chǔ)部分,要想找到這些web數(shù)據(jù)就要將信息集成的問題解決了,還可以增加一些實(shí)際方面的應(yīng)用,例如網(wǎng)上的購物系統(tǒng)、企業(yè)情報(bào)系統(tǒng)、網(wǎng)站的建立等等,這些都需要來自web信息提取技術(shù)的支持,相關(guān)部門要加大web信息提取技術(shù)的使用力度,這樣才是最合乎發(fā)展的。

2 web信息提取分類以及技術(shù)分析

2.1 基于正則表達(dá)式的信息提取

正則表達(dá)式是通過一些字符串來體現(xiàn)的公式,這也應(yīng)用了web信息提取技術(shù),首先應(yīng)該將web文檔作為文件來進(jìn)行處理,這種文件一般是字符流文件,然后制作出正則表達(dá)式對信息進(jìn)行相應(yīng)的提取,最后才能得到想要的信息,利用正則表達(dá)式的方式獲取信息更加方便,能夠根據(jù)新聞的特征來獲取信息,這些信息包括新聞的標(biāo)題、內(nèi)容等方面,從而在得到了文本文件之后,就能夠采用分類聚類的算法,讓傳統(tǒng)技術(shù)得到更大范圍的使用,也能實(shí)現(xiàn)對網(wǎng)頁進(jìn)行分類聚類。

2.2 自然語言處理的信息提取

對于自然語言的信息提取,要充分符合源文檔中的文本情況,這也在一定程度上借鑒了自然語言的處理方式,將子句結(jié)構(gòu)以及子句的關(guān)系進(jìn)行分析,按照語法語義的原則進(jìn)行信息提取,利用這種原理的系統(tǒng)包括有SRV、WNISK等,當(dāng)然利用這種方式也存在一定的缺點(diǎn),例如web網(wǎng)頁中會出現(xiàn)很多的鏈接,而且還都是被HTML所修飾的,因此這都不是最完整的句子,在技術(shù)的應(yīng)用方面也會受到局限,同時(shí)在實(shí)現(xiàn)的時(shí)候如果沒有將web文檔作為普通文本來進(jìn)行處理的話,那么就缺乏一定的實(shí)用性。

2.3 基于HTML結(jié)構(gòu)的信息提取

對基于HTML結(jié)構(gòu)的信息進(jìn)行提取,是web信息提取技術(shù)與應(yīng)用中十分重要的部分,對信息進(jìn)行提取時(shí),應(yīng)該具備的特點(diǎn)是要根據(jù)web頁面的結(jié)構(gòu)進(jìn)行定位,然后可以通過解析器的方式實(shí)現(xiàn)更多的操作,對結(jié)構(gòu)模式進(jìn)行信息提取的時(shí)候也應(yīng)該采用全自動的形式,這種方式雖然優(yōu)勢很多,但這也存在很多的問題,一方面是確定的數(shù)據(jù)中存在很多客戶不用的信息。另一方面是可以通過提取的方式進(jìn)行樣本訓(xùn)練,在樣本選擇的角度分析也可以對結(jié)構(gòu)模式產(chǎn)生一定的影響。如果將web查詢看作是巨大的數(shù)據(jù)庫,那么就可以利用web的查詢語言對文檔進(jìn)行查詢,可以利用的系統(tǒng)包括web-sql等,目前這些技術(shù)都還需要進(jìn)一步的理論探討。

3 web信息提取系統(tǒng)的構(gòu)建及性能評價(jià)

web信息提取系統(tǒng)的體系結(jié)構(gòu)通常會采用通用體系結(jié)構(gòu),也能夠?qū)⒃撓到y(tǒng)稱為級聯(lián)的轉(zhuǎn)換器或者模塊集合,對于一些難以過濾掉的信息,就可以增加上新的結(jié)構(gòu)信息。一般的信息提取系統(tǒng)是由以下幾個模塊組成的,(1)文本分塊,這是說將輸入的文本分割成不同的部分來進(jìn)行分析。(2)預(yù)處理,預(yù)處理就是將文本塊轉(zhuǎn)為句子的序列,這些句子都是由詞匯以及類組成的。(3)分析,分析中包括預(yù)分析以及分析兩個部分,預(yù)分析是對詞匯中小型的結(jié)構(gòu),例如名詞、動詞等進(jìn)行識別,而分析是對結(jié)構(gòu)以及詞匯項(xiàng)進(jìn)行描述,從而得到相應(yīng)的集合。

要實(shí)現(xiàn)web信息提取系統(tǒng)可以采用兩種方法,一是利用知識工程的方法,利用該方法需要了解一定的知識領(lǐng)域,但是這對于人才來說是非常缺乏的,第二種是自動訓(xùn)練的方式,這種情況不用使用專業(yè)的知識工程師,只需要利用語料庫來獲取就好了,任何領(lǐng)域的人都可以根據(jù)事先的規(guī)定,來確定足夠數(shù)量的數(shù)據(jù),這樣才能保證處理的質(zhì)量。通過一定的分析,也能夠發(fā)現(xiàn)web信息提取技術(shù)中存在的不足,在以后的發(fā)展中應(yīng)該擴(kuò)大web信息提取技術(shù)的范圍,還要逐步簡化學(xué)習(xí)的過程,讓系統(tǒng)對網(wǎng)頁的適應(yīng)性更強(qiáng),這樣才能提高系統(tǒng)的準(zhǔn)確性,充分利用一些技術(shù)來構(gòu)建web信息提取系統(tǒng),這都是以后web信息提取技術(shù)發(fā)展中需要注意的問題。

4 結(jié)語

綜上所述,主要對web信息提取技術(shù)與應(yīng)用進(jìn)行分析,在web中進(jìn)行信息提取是十分重要的步驟,在實(shí)際的工程項(xiàng)目中也有著明確的需求,但是由于web頁面有著一定的復(fù)雜性,因此需要更加嚴(yán)密的計(jì)劃才能實(shí)現(xiàn)技術(shù)方面的應(yīng)用,這對于研究人員來說是一種考驗(yàn),作為研究人員需要不斷的豐富自身的經(jīng)驗(yàn),加大學(xué)習(xí)與研究的力度,才能提高web信息提取的自動化程度,對我國以后方面的發(fā)展有更大的幫助。

參考文獻(xiàn)

[1]姜欣,楊國軍.基于XML半結(jié)構(gòu)化的Web網(wǎng)頁信息提取研究[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2015,(10):59-60.

[2]劉澤偉.面向煤礦安全事件的Web信息抽取技術(shù)研究與應(yīng)用[D].北京工業(yè)大學(xué),2015.

[3]陳志宇.基于優(yōu)化NFA正則匹配的Web信息抽取技術(shù)及應(yīng)用研究[D].杭州電子科技大學(xué),2015.

[4]羅糧,朱儒明.基于正則表達(dá)式的Web頁面信息抽取技術(shù)研究[J].現(xiàn)代計(jì)算機(jī),2017,(15):17-19.

[5]宋碩.基于Web信息抽取技術(shù)的企業(yè)情報(bào)分析系統(tǒng)的研究[J].數(shù)字技術(shù)與應(yīng)用,2016,(2):91-92.

[6]李寶密.基于自動生成模板的Web信息抽取技術(shù)[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2016,(9):56.endprint

猜你喜歡
應(yīng)用意義分析
隱蔽失效適航要求符合性驗(yàn)證分析
電力系統(tǒng)不平衡分析
電力系統(tǒng)及其自動化發(fā)展趨勢分析
乙肝患者護(hù)理中人性化護(hù)理服務(wù)的應(yīng)用意義探究
急性冠脈綜合征患者介入治療中替羅非班的應(yīng)用及意義探究
血清免疫球蛋白檢驗(yàn)在肝衰竭患者中的應(yīng)用意義探究
中西醫(yī)結(jié)合治療抑郁癥100例分析
在線教育與MOOC的比較分析