葛向然
摘要:隨著聲像的發(fā)展以及聲像資料的普及,人們可以將聲音、圖像進行儲存,收集和儲存聲像的能力已經(jīng)超過了在聲像中獲取信息的能力,這一結果促使我們大力發(fā)展聲像資料下的數(shù)據(jù)挖掘技術,發(fā)現(xiàn)聲像資料下隱藏起來的數(shù)據(jù)信息。本文通過對聲像資料和數(shù)據(jù)挖掘技術的定義研究,拓展出聲像資料下數(shù)據(jù)挖掘技術的應用,希望可以為我國聲像資料下的數(shù)據(jù)挖掘技術提供幫助。
關鍵詞:聲像資料;數(shù)據(jù)挖掘;圖像數(shù)據(jù)挖掘
前言:數(shù)據(jù)挖掘技術的大量應用,有利于在網(wǎng)絡中快速地提取所需要的信息,通過對圖像數(shù)據(jù)挖掘、Web數(shù)據(jù)挖掘技術進行分析,不僅對聲像資料的數(shù)據(jù)分析具有幫助,也能為發(fā)展數(shù)據(jù)挖掘技術提供方向,對聲像資料下的數(shù)據(jù)挖掘技術研究具有現(xiàn)實意義。
一、聲像資料
(一)聲像資料的定義
聲像又被叫做是感覺聲源。當人們聽見聲音,并根據(jù)聲音發(fā)生的位置產(chǎn)生的聲音畫面就叫做聲像,所謂聲像資料就是指在錄音機、錄像帶、磁盤、光盤、手機等載體上記錄的聲音和圖像,不同于音像或者是影像,是聲音和影像的結合。一切可以聽見或者是看見的都可以被稱作是聲像。
(二)聲像資料的發(fā)展現(xiàn)狀
現(xiàn)今階段,聲像資料一般用于司法鑒定,為了保證案件的公平與真實性,每一件案件都需要進行證物收集。因為聲像資料一般起到記錄和儲存信息的作用,所以聲像資料一般作為證物出現(xiàn),但是為了保證證物的真實性會對聲像資料進行司法鑒定。一般會對聲像資料進行完整性、真實性進行鑒定,鑒定聲音圖像是否屬于同一人,鑒定聲像資料是否屬于案件有關范圍。例如,如果是錄音類聲像資料,那么根據(jù)錄音中的聲音以及所說情況,首先應該根據(jù)個人說話的音線和語言特征判斷錄音的真實性與準確性,然后分析情況。在各個領域中聲像資料都展示出了它的重要性,聲像技術也越來越受到重視
二、數(shù)據(jù)挖掘技術
(一)數(shù)據(jù)挖掘概述
數(shù)據(jù)挖掘,就是在大量的數(shù)據(jù)中識別、分析出可以使用的相關知識,從大量不完全的數(shù)據(jù)中提取有需要的數(shù)據(jù)信息的過程,這些數(shù)據(jù)都具有隨機性、不確定性,他可能是數(shù)學結構也可能不是數(shù)學結構,可能需要在基礎上再次進行演繹,也可能在基礎上進行歸納就可以。數(shù)據(jù)挖掘是一個完整的過程,他從大量的信息中提取分散的信息,然后通過數(shù)據(jù)選擇、數(shù)據(jù)預處理等步驟合成有用的信息,并通過這些信息獲取豐富的知識或者是做出相對應的決定[1]。
(二)數(shù)據(jù)挖掘技術的發(fā)展現(xiàn)狀
目前,我國數(shù)據(jù)挖掘技術已經(jīng)不再是初級階段,它已經(jīng)從初級階段走向中級階段。在初級階段的過程中已經(jīng)完成了理論知識依據(jù)、模型框架構建等工作;中級階段將在初級階段的基礎上為數(shù)據(jù)挖掘提供技術支持,完善算法優(yōu)化等工作。國內的數(shù)據(jù)挖掘技術研究稍晚,目前還沒有形成完整的研究體系,大多數(shù)的數(shù)據(jù)挖掘技術還在實驗和基礎理論準備中,所以國內目前有許多高等院校以及事業(yè)單位都在進行相關實驗,如清華大學和中國科學院等。所以數(shù)據(jù)挖掘前景良好,未來會出現(xiàn)更加先進的數(shù)據(jù)挖掘技術。
三、聲像資料下的數(shù)據(jù)挖掘技術
(一)圖像數(shù)據(jù)挖掘
圖像數(shù)據(jù)挖掘技術就是通過對圖像分析、模式識別、人工智能等技術對圖像中的信息就行挖掘。找出數(shù)據(jù)庫中隱藏在圖像、影像中的關聯(lián)與存在信息。圖像數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)挖掘的區(qū)別在于,第一,圖像上的所有信息都是隱藏的;第二,可以對圖像生成多重解釋;第三,圖像中的信息也包括圖像對象的空間信息。
1.目標識別
目標識別一直都是研究圖像挖掘技術中非?;钴S的領域,通過識別系統(tǒng)發(fā)現(xiàn)圖像中正式存在的影像,然后再通過技術對影像進行挖掘,然后建立模型。一個目標識別系統(tǒng)一般情況下是由四個部分組成:分別是模型數(shù)據(jù)庫;屬性探索器;假設編輯器還有假設驗證器。
2.影像檢索
影像檢索一般考慮圖像標引還有系統(tǒng)檢索。一種是通過具體描述對圖像進行搜索,也就是常見的關鍵字、關鍵詞等進行搜索。第二種,也是通過他在圖像上的內容進行檢測,如我們所觀察到的信息、顏色、紋理還有形狀這些方面進行檢測。
3.圖像分類
根據(jù)基本內容對所鑒別出來的信息進行大致分類與聚類,是大量信息挖掘中尋找有價值的信息中非常重要的一種方法。分類模型在圖像挖掘技術中也叫做信息分類器,一般是通過最原始的信息在語義上進行劃分。目前主要由兩種分類器構成,分別是參數(shù)分類和非參數(shù)分類。
(二)web數(shù)據(jù)挖掘技術
web數(shù)據(jù)挖掘是指應用數(shù)據(jù)挖掘技術在文檔和數(shù)據(jù)服務器中自行尋找有效信息,在網(wǎng)絡中尋找到的音像和影像也算聲像資料的一種。
1.Web聲像挖掘技術
web是指在網(wǎng)絡環(huán)境中通過不同的圖像分析工具,在大量的、不完整的、不確定的、隨機性的圖像數(shù)據(jù)資源中,尋找資源規(guī)矩、特征和有用信息的一個過程。
2.web上的信息檢索
現(xiàn)今時代,信息化時代的快速發(fā)展,網(wǎng)絡已經(jīng)成為了一個巨大的心意容量空間,里面存儲了大量的各方面的信息,同時為了方便信息搜索也出現(xiàn)了許多網(wǎng)絡信息檢索系統(tǒng),也就是我們經(jīng)常提到的搜索引擎[2]。盡管這方面的系統(tǒng)已經(jīng)被大眾熟練運用,但是還是會出現(xiàn)許多問題,比如搜索范圍較小、信息精準度不高。大多數(shù)的引擎搜索系統(tǒng)都處于關鍵詞匹配這一低層次的應用中,在面對較高層次的搜索就會顯得束手無策。
3.基于內容的聲像檢索
基于內容的聲像檢索是一種新的聲像檢索技術,它除了應用最基本的關鍵詞或者是相似度進行信息匹配外,還可以用圖像顏色的特征進行搜索。比如,國外開發(fā)的一些用于圖像內容搜索的系統(tǒng),如IBM等,國內不斷研究也開發(fā)了許多檢測系統(tǒng),但是這些系統(tǒng)還存在一定的局限性。
4.MPEG4對基于內容的視頻檢索的影響
新一代多媒體MPEG4為多媒體壓縮數(shù)據(jù)提供了非常廣闊的舞臺,它與之前基于標準的搜索不同在于,它不只是像素的組合,可以把視頻中的每一個要素看成同一系列的對象。它不僅僅只是單聲道或者是多聲道,它可以是單聲道、多聲道、文字、動畫等所有組合。所以許多內容都可以通過它進行檢測,對于基礎內容的檢測可以起到促進作用。
總結:當今社會處于一個信息化的時代,無線網(wǎng)絡、數(shù)字城市都是我們處于信息化時代的體現(xiàn),可以將每個人連接在一起,信息共享。從聲像資料的數(shù)據(jù)挖掘來看,聲像資料不僅僅只是我們儲存聲音、影像的一種工具,更是獲取知識的一種途徑。數(shù)據(jù)挖掘技術也是將聲像資料充分利用的一種有力工具,但是目前技術還不算完善,許多方面還在進步。
參考文獻:
[1]黃君,陳超雪.云計算背景下物聯(lián)網(wǎng)數(shù)據(jù)挖掘技術研究[J].電子世界,2021(22):4-5.
[2]王麗麗.大數(shù)據(jù)背景下數(shù)據(jù)挖掘技術的應用[J].計算機與網(wǎng)絡,2021,47(20):45-47.