張震
(中國移動(dòng)通信集團(tuán)廣東有限公司深圳分公司,深圳 518048)
多媒體內(nèi)容理解技術(shù)在電信行業(yè)中的應(yīng)用
張震
(中國移動(dòng)通信集團(tuán)廣東有限公司深圳分公司,深圳 518048)
本文首先對多媒體內(nèi)容理解技術(shù)進(jìn)行概要介紹,然后重點(diǎn)結(jié)合電信行業(yè)實(shí)際情況,提出該技術(shù)在電信行業(yè)的具備較高商業(yè)價(jià)值的應(yīng)用,最后介紹一種創(chuàng)新性的基于內(nèi)容理解技術(shù)的商業(yè)搜索平臺。
內(nèi)容理解;多媒體;電信業(yè)務(wù)
隨著信息時(shí)代的到來,尤其是21世紀(jì)過去的10年中,包括移動(dòng)互聯(lián)網(wǎng)、3G通信、多媒體技術(shù)在內(nèi)的信息技術(shù)的跨越式發(fā)展,不斷地推進(jìn)我國信息化浪潮的前行。人們越來越感受到信息化帶來的好處,移動(dòng)網(wǎng)絡(luò)高速普及,數(shù)字化內(nèi)容海量增長,世界各地的人們盡情分享信息自由溝通。以圖像、視頻為代表的多媒體信息成為人們相互交互情感與服務(wù)的主要載體。以全球最大社交網(wǎng)站Facebook為例,該網(wǎng)站是美國排名第一的照片分享站點(diǎn),每天上載超過850萬張照片,這些圖片以及視頻匯聚成為“海量”的多媒體信息庫。
以Baidu、Tencent為代表的國內(nèi)互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)企業(yè)同樣匯聚了豐富多彩的多媒體信息。而以中國移動(dòng)為主導(dǎo)的運(yùn)營商企業(yè)自3G時(shí)代以來,已經(jīng)逐步向移動(dòng)互聯(lián)方向轉(zhuǎn)型,代表舉措有大力發(fā)展互聯(lián)網(wǎng)數(shù)據(jù)中心(IDC)、建設(shè)Mobile Market(MM)平臺,以及發(fā)展“無線城市”商務(wù)及惠民應(yīng)用商務(wù)平臺,這些舉措都取得了不錯(cuò)的效果。然而面對業(yè)務(wù)大發(fā)展的盛景,其背后的合法性、合規(guī)性等信息安全問題以及潛在的業(yè)務(wù)發(fā)展瓶頸需要電信運(yùn)營商提前深思。
首先,從合法性、合規(guī)性等信息安全角度考慮,在面向海量信息背景下,移動(dòng)互聯(lián)網(wǎng)/電信用戶在獲取大量有用信息的同時(shí)也會遇到許多不良信息,比如淫穢色情文字、圖片、視頻尤為嚴(yán)重。針對這些不良信息如何在3G通信中進(jìn)行有效攔截是運(yùn)營商必須深入思考的問題。GPRS2.5G時(shí)代的攔截技術(shù)體系已經(jīng)不能滿足3G甚至4G時(shí)代的要求,亟需對不良信息的攔截體系進(jìn)行全梳理、全規(guī)劃,采用新的攔截技術(shù)體系,以適應(yīng)移動(dòng)互聯(lián)新時(shí)代的發(fā)展需求。
其次,從信息的價(jià)值挖掘的角度考慮,在移動(dòng)互聯(lián)這樣一個(gè)瞬息萬變的信息時(shí)代,信息即意味著財(cái)富,如何在最短時(shí)間內(nèi)采用最有效的方式來從海里信息中獲取用戶最需要的、最有價(jià)值的信息,同樣值得運(yùn)營商企業(yè)深思。在2G時(shí)代運(yùn)營商企業(yè)主要的角色在于“通道”,然而在3G內(nèi)容為王的時(shí)代,如果運(yùn)營商安于在2G的角色,毫無疑問將會遇到各種利益的挫折。這需要運(yùn)營商有實(shí)力、有技術(shù)去整合無序的、分散的、潛在價(jià)值的信息,使信息價(jià)值最大化、顯性化和個(gè)性化,為客戶提供最優(yōu)質(zhì)的信息化服務(wù)。
本文針對上述問題,引入研究基于多媒體內(nèi)容理解的技術(shù)[1],該技術(shù)融合了人工智能、機(jī)器學(xué)習(xí)、模式識別、信息檢索等信息化技術(shù),是當(dāng)今學(xué)術(shù)界的一個(gè)研究熱點(diǎn),對解決運(yùn)營商企業(yè)在3G時(shí)代的所提的上述部分困境有極大促進(jìn)作用。
2.1 解析多媒體內(nèi)容的含義
談及多媒體內(nèi)容理解首先得了解什么叫多媒體的“內(nèi)容”。通常情況下用戶習(xí)慣基于文本的方式用關(guān)鍵字及其組合來表達(dá)描述一個(gè)視覺概念。但詞語,描述的多義性和不精確性難以足夠形象和精準(zhǔn)地描述所有事物:如“Apple”既可代表通常意義下的蘋果水果,但也可以是一臺蘋果牌的PC。
所以,當(dāng)詞語難以足夠精確表達(dá)人們的多媒體視覺感知的時(shí)候,人們就嘗試用多媒體自身的內(nèi)容屬性來表述其本身,如顏色、紋理、輪廓、空間關(guān)系等等。簡要介紹前兩者:
(1)顏色:是描述多媒體內(nèi)容最為廣泛的視覺特征,顏色往往和多媒體中所包含的物體或場景十分相關(guān)。與其他的視覺特征相比,顏色特征對多媒體本身的尺寸、方向、視角的依賴性較小,從而具有較高的魯棒性。
(2)紋理:不僅反映多媒體灰度屬性值的統(tǒng)計(jì)信息,而且反映空間分布信息和結(jié)構(gòu)信息。
上述顏色等信息通過數(shù)學(xué)表達(dá)的方式體現(xiàn)多媒體本質(zhì)內(nèi)容特征,從而避開了文字性表述的歧義性和非精確性,逐漸得到廣泛應(yīng)用。
2.2 多媒體內(nèi)容理解技術(shù)
多媒體內(nèi)容理解技術(shù)是當(dāng)前科研領(lǐng)域的一個(gè)研究熱點(diǎn),諸多企業(yè)和科研單位都投入足夠的資源進(jìn)行相關(guān)的研究,業(yè)內(nèi)代表有微軟亞洲研究等企業(yè)科研機(jī)構(gòu)以及哈工大等高校研究所。多媒體內(nèi)容理解技術(shù)是基于多媒體內(nèi)容特征進(jìn)行數(shù)字化處理、變換的技術(shù),該技術(shù)融合多種信息技術(shù),從架構(gòu)上可以分成三個(gè)階段[1]:內(nèi)容提取,內(nèi)容描述,和內(nèi)容操作。
2.2.1 內(nèi)容提取
多媒體內(nèi)容提取包括對多媒體進(jìn)行預(yù)處理及視覺內(nèi)容特征提取。常用的預(yù)處理方法包括拉普拉斯變換等各種數(shù)學(xué)變換、分割等。多媒體提取的內(nèi)容特征通常用數(shù)學(xué)表達(dá)式進(jìn)行表示:假設(shè)特征向量的維度是N,則N維度空間中,每一個(gè)多媒體(視頻或者圖像等)被看作是向量空間中的一個(gè)點(diǎn)。這個(gè)點(diǎn)所具有的數(shù)學(xué)屬性則代表了多媒體的內(nèi)容屬性。
2.2.2 內(nèi)容描述
依照一定的規(guī)范和要求對多媒體內(nèi)容特征進(jìn)行描述。如JPEG圖像標(biāo)準(zhǔn)、MPEG專家組視頻標(biāo)準(zhǔn)等。
2.2.3 內(nèi)容操作
多媒體內(nèi)容操作是依照一定的算法(模式識別算法、神經(jīng)網(wǎng)絡(luò)算法等等)和流程對多媒體內(nèi)容特征進(jìn)行處理。如檢索、過濾、查詢等。以內(nèi)容檢索為例,傳統(tǒng)的檢索方式主要基于文本匹配方法,實(shí)現(xiàn)的是點(diǎn)對點(diǎn)命中式檢索。而基于內(nèi)容檢索是依據(jù)一定的準(zhǔn)則進(jìn)行內(nèi)容的相似度計(jì)算。相似度計(jì)算可以采用不同的數(shù)學(xué)準(zhǔn)則進(jìn)行,如計(jì)算兩點(diǎn)之間的歐式距離,根據(jù)歐式距離所表征的相似度排序,排序越靠前,相似度越高。
上述是對多媒體內(nèi)容理解技術(shù)的概要介紹,更為深入的解析可參考文獻(xiàn)[2~3]等。
如上所述,在移動(dòng)互聯(lián)時(shí)代,尤其是3G時(shí)代的到來,運(yùn)營商所運(yùn)營的通信渠道充斥著淫穢色情等不良圖片與視頻。移動(dòng)通信中的不良信息傳播具有多樣化和隱蔽化,即時(shí)通信工具的普及讓該應(yīng)用成為新的傳播渠道。而以實(shí)現(xiàn)高速數(shù)據(jù)傳輸為核心的3G(TD-SCDMA、WCDMA、cdma2000)數(shù)字通信網(wǎng)絡(luò)的出現(xiàn),使得圖像、視頻流等多種媒體形式在即時(shí)通信中得到廣泛應(yīng)用。通過分析圖片、視頻的內(nèi)容,進(jìn)行不良信息的精確識別與攔截,對打擊不良信息的傳播和保護(hù)青少年成長等方面具有積極的作用和深遠(yuǎn)的意義。
廣東移動(dòng)對多媒體承載的不良信息檢測與攔截問題進(jìn)行了有益的嘗試和研究,提出了“基于內(nèi)容理解的不良視頻及圖像快速識別算法”[4]。該算法研究如何快速的從視頻中自適應(yīng)提取代表語義的關(guān)鍵幀圖像,對圖像自適應(yīng)識別淫穢、反動(dòng)信息等不良信息,完成對不良視頻及圖像信息過濾與攔截。針對視頻數(shù)據(jù)做到快速高效的關(guān)鍵幀提取以及圖像數(shù)據(jù)的單幀圖像提取,融合膚色區(qū)域檢測、多視角人臉檢測、敏感目標(biāo)提取等技術(shù)手段,做到膚色區(qū)域跟蹤、敏感度判斷、圖像信息過濾等,最終實(shí)現(xiàn)不良信息的提取。圖1顯示了該技術(shù)的總體方案。
圖1 多媒體不良信息提取技術(shù)的總體方案
該項(xiàng)目技術(shù)應(yīng)用到監(jiān)控彩信的不良信息,包括彩信中的黃色信息,圖片中的不良文字等,在彩信信息安全監(jiān)控方面起到了較好作用,減少了不良信息對客戶的影響。
深圳移動(dòng)“無線城市”(wap.szicity.com)已經(jīng)吸引了眾多商家進(jìn)駐,匯聚了大量產(chǎn)品的視頻、圖像、文字信息,形成一個(gè)分布式的海量產(chǎn)品數(shù)據(jù)庫。如何快速準(zhǔn)確匹配消費(fèi)者需求,并整合產(chǎn)品信息為消費(fèi)者提供優(yōu)質(zhì)的內(nèi)容呈現(xiàn),是值得包括運(yùn)營商在內(nèi)各相關(guān)商家認(rèn)真思考的問題。針對這個(gè)問題,我們提出了基于內(nèi)容理解的商業(yè)搜索平臺項(xiàng)目。 研究從消費(fèi)者的需求出發(fā),實(shí)現(xiàn)有別于傳統(tǒng)文字搜索的基于產(chǎn)品圖像搜索的視覺搜索機(jī)制,在該機(jī)制的商業(yè)導(dǎo)向中,消費(fèi)者主動(dòng)提供或選擇集中反饋其消費(fèi)需求的產(chǎn)品圖像,以該圖像作為搜索的主體進(jìn)行視覺內(nèi)容匹配定位,從后臺產(chǎn)品數(shù)據(jù)庫中快速準(zhǔn)確地找到客戶所需要的產(chǎn)品信息,同時(shí),通過主動(dòng)學(xué)習(xí)的方式記錄下消費(fèi)者的主觀消費(fèi)意愿,實(shí)現(xiàn)客戶消費(fèi)習(xí)慣后臺分析與跟蹤。
為此,我們構(gòu)建了基于內(nèi)容理解技術(shù)的商業(yè)搜索平臺Photo2Buy,該平臺架構(gòu)分為5個(gè)層面,如圖2所示。
圖2 基于內(nèi)容理解技術(shù)的商業(yè)搜索平臺架構(gòu)
4.1 圖像采集層
圖像數(shù)據(jù)采集源有兩種,一種是社區(qū)、論壇、網(wǎng)站類的大型圖像庫,例如移動(dòng)139社區(qū),其中含有共享式的類別各異的圖像集合;另外一種是手機(jī)用戶直接上傳圖像到數(shù)據(jù)庫中心,例如手機(jī)用戶通過“彩信”的方式上傳圖像到既定的圖像數(shù)據(jù)中心。針對特殊商業(yè)價(jià)值的圖像來源,需要與相關(guān)合作單位進(jìn)行合作獲取商品的最有價(jià)值的圖像。
4.2 特征提取層
實(shí)現(xiàn)圖像視覺特征的提取,如顏色特征、紋理特征,并對特征進(jìn)行有效歸一組合,形成對圖像的唯一標(biāo)識。
4.3 相似度計(jì)算層
基于相似度算法準(zhǔn)則計(jì)算圖像在視覺空間中的相似度,及對圖像的內(nèi)容進(jìn)行計(jì)算,實(shí)現(xiàn)圖像相似度的比較。
4.4 產(chǎn)品信息關(guān)聯(lián)層
基于相似度比對結(jié)果與產(chǎn)品信息進(jìn)行關(guān)聯(lián),如商品銷售商場、商品銷售價(jià)格、商品品質(zhì)等綜合商品信息。
4.5 客戶信息交互層
客戶與平臺信息的交互,使得消費(fèi)者能夠快速、便捷地找到自己心儀的商品,實(shí)現(xiàn)輕松購物。
本文介紹了多媒體內(nèi)容理解技術(shù)在電信行業(yè)中的應(yīng)用。首先對多媒體內(nèi)容理解進(jìn)行了介紹。重點(diǎn)是結(jié)合當(dāng)前無線互聯(lián)時(shí)代、3G時(shí)代背景下,該技術(shù)在電信行業(yè)中的實(shí)際應(yīng)用,如在不良信息檢測、識別,對于凈化移動(dòng)互聯(lián)環(huán)境起到良好的作用。并提出一種創(chuàng)新性的基于內(nèi)容理解技術(shù)的商業(yè)搜索平臺,能夠有效應(yīng)用于移動(dòng)商業(yè)環(huán)境中。不管是從信息安全角度、還是商業(yè)應(yīng)用角度,多媒體內(nèi)容理解技術(shù)均能與電信行業(yè)有效融合,并產(chǎn)生顯著效益。
[1] 劉忠偉, 章毓晉. 綜合利用顏色和紋理特征的圖像檢索[J].通信學(xué)報(bào), 1999, 20(5): 36~40.
[2] Haralick R M, Shanmugam K, Dinstein I. Texture features for image classification. IEEE Transaction on Systems Man and Cybernetics, 1973,3(6): 610~621.
[3] Nguyen G P, Worring M, Arnold Smeulders W M. Similarity learning Via dissimilarity Space in CBIR. Proceedings of the 8th ACM international workshop on Multimedia Information Retrieval, 2006: 107~115.
[4] 廣東移動(dòng). 基于內(nèi)容理解的不良視頻及圖像快速識別算法研究驗(yàn)收報(bào)告.
Application of the content based multimedia understanding technology in telecommunications industry
ZHANG Zhen
(China Mobile Group Guangdong Co., Ltd. Shenzhen Branch, Shenzhen 518048, China)
This paper, firstly, gives an overview of the multimedia content understanding, and then focuses on the actual situation, combined with the telecommunications industry to put forward the technology in the telecommunications industry with high commercial value, and finally introduces an innovative understanding of technology, content-based business search platform.
content based multimedia understanding technology; multimedia; telecommunication
TN915
A
1008-5599(2012)11-0009-04
天津移動(dòng)明年建成1253個(gè)TD-LTE基站
2012-09-10
作為中國移動(dòng)13個(gè)啟動(dòng)TD-LTE擴(kuò)大規(guī)模試驗(yàn)網(wǎng)建設(shè)的城市之一,天津市已經(jīng)啟動(dòng)TD-LTE站點(diǎn)改造工作,預(yù)計(jì)將于明年年中完成擴(kuò)大規(guī)模試驗(yàn)測試工作。屆時(shí),海河兩岸共計(jì)75km2的區(qū)域?qū)⒙氏认硎艿?G網(wǎng)絡(luò)帶來的高速上網(wǎng)體驗(yàn)。
據(jù)了解,天津移動(dòng)將承擔(dān)1253個(gè)TD-LTE基站的建設(shè)任務(wù)。根據(jù)前期數(shù)據(jù)流量分析和用戶需求,天津移動(dòng)確定以海河兩岸共計(jì)75km2的區(qū)域作為本次TD-LTE試驗(yàn)網(wǎng)覆蓋區(qū)域,主要包括高校、商業(yè)區(qū)、文化區(qū)等重點(diǎn)區(qū)域,地鐵、機(jī)場、火車站等重要交通樞紐及部分居民區(qū)等。