国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種新詞自動(dòng)提取方法*

2014-02-07 06:18:13李亞松王玉龍
關(guān)鍵詞:字?jǐn)?shù)新詞置信度

李亞松, 王玉龍

(1 北京郵電大學(xué)網(wǎng)絡(luò)與交換技術(shù)國家重點(diǎn)實(shí)驗(yàn)室,北京 100876; 2 東信北郵信息技術(shù)有限公司,北京 100191)

一種新詞自動(dòng)提取方法*

李亞松1,2, 王玉龍1,2

(1 北京郵電大學(xué)網(wǎng)絡(luò)與交換技術(shù)國家重點(diǎn)實(shí)驗(yàn)室,北京 100876; 2 東信北郵信息技術(shù)有限公司,北京 100191)

當(dāng)前網(wǎng)絡(luò)語料會(huì)不斷出現(xiàn)大量新詞已經(jīng)成為一種普遍的趨勢,這里面包含大量網(wǎng)友創(chuàng)造的新詞,以及一些社會(huì)熱點(diǎn)形成的新詞。同時(shí)社交網(wǎng)絡(luò)產(chǎn)生的社交性語料存在大量口語化、簡稱和隨意的表達(dá)。這些都對(duì)中文分詞的準(zhǔn)確性造成了困擾。本文提出了一種新詞自動(dòng)提取方法,旨在能準(zhǔn)確快速地在特定的語料里提取新詞,生成特定領(lǐng)域詞典,更準(zhǔn)確地對(duì)網(wǎng)絡(luò)語料進(jìn)行中文分詞。通過從語料中提取候選詞,計(jì)算候選詞的支持度和置信度,通過閾值刷選出新詞,從而實(shí)現(xiàn)從海量文本中準(zhǔn)確且快速的提取新詞。

新詞提取;支持度;置信度;離散度;GINI指數(shù)

隨著互聯(lián)網(wǎng)的快速發(fā)展和網(wǎng)民規(guī)模不斷膨脹,新詞大量出現(xiàn)在網(wǎng)絡(luò)并迅速滲入人們的日常生活,這已經(jīng)成為一種語言現(xiàn)象。網(wǎng)絡(luò)輿情監(jiān)控的一個(gè)基本任務(wù)就是從大量的網(wǎng)絡(luò)語料數(shù)據(jù)中快速地識(shí)別大量出現(xiàn)的攜帶新詞的新話題、熱點(diǎn)話題、突發(fā)事件[1]。同時(shí),在諸如信息檢索、自動(dòng)分詞、詞典編纂以及機(jī)器翻譯等眾多中文信息處理領(lǐng)域,新詞提取的效果,在很大程度上影響著這些中文信息處理領(lǐng)域的效果,由于中文自身的特點(diǎn),它不像英文那樣在詞與詞之間有明顯的空格間隔,如何將不斷涌現(xiàn)的新詞準(zhǔn)確提取出來已經(jīng)是中文信息處理中至關(guān)重要的一步。因此,有效的提取新詞,將對(duì)提高中文信息處理相關(guān)領(lǐng)域的效果起到重要的作用。

文獻(xiàn)[2]提到基于監(jiān)督方法提取候選新詞,包括基于隱馬爾可夫模型、決策樹、支持向量機(jī)模型。這些方法一方面需要人工標(biāo)注的訓(xùn)練語料,一方面模型本身比較復(fù)雜,所以難以應(yīng)用于大規(guī)模語料的新詞提取。文獻(xiàn)[3]公開了一種結(jié)合內(nèi)部聚合度和外部離散信息熵的網(wǎng)絡(luò)新詞發(fā)現(xiàn)方法,包括對(duì)網(wǎng)絡(luò)語料庫包含的所有文本句子進(jìn)行切詞處理,并將切分出來的所有互不相同的字串作為候選字串;對(duì)在網(wǎng)絡(luò)語料庫中出現(xiàn)的頻率超過固定閾值的候選字串,計(jì)算其內(nèi)部聚合度和外部離散信息熵,并根據(jù)該候選字串的內(nèi)部聚合度和外部離散信息熵進(jìn)一步判斷候選目標(biāo)詞串是否為網(wǎng)絡(luò)新詞。該技術(shù)方案實(shí)現(xiàn)較復(fù)雜,當(dāng)判斷一個(gè)候選字串是否為新詞時(shí)需考慮兩個(gè)因素:內(nèi)部聚合度和外部離散信息熵。當(dāng)針對(duì)于互聯(lián)網(wǎng)上的海量文本時(shí),該技術(shù)方案所產(chǎn)生的計(jì)算量較大,并不能快速、有效的發(fā)現(xiàn)和提取新詞。

因此,如何從海量文本中準(zhǔn)確且快速的提取新詞,仍是一個(gè)值得深入研究的技術(shù)問題。

1 方法思路

本文提出的新詞自動(dòng)提取方法基本思路是從語料中提取所有的候選詞,再結(jié)合候選詞的支持度,置信度和離散度篩選出新詞。具體如下。

(1)對(duì)文本句子進(jìn)行切詞處理,并將其中字?jǐn)?shù)長度不大于S+1的候選詞提取出來,然后將提取出的所有互不相同的候選詞保存在候選詞庫中。

(2)計(jì)算候選詞庫中每個(gè)候選詞的支持度,并將所有支持度大于支持度閾值的候選詞構(gòu)成一個(gè)頻繁詞組。

(3)為頻繁詞組中的每個(gè)候選詞構(gòu)建一個(gè)子詞組,并將候選詞和頻繁詞組中的所有其它候選詞相比較,如果候選詞中包含有其它候選詞時(shí),則將其它候選詞保存在該候選詞的子詞組中,然后根據(jù)候選詞和子詞組中每個(gè)子詞在知識(shí)庫中出現(xiàn)的頻數(shù),計(jì)算候選詞的置信度,當(dāng)候選詞的置信度大于置信度閾值時(shí),則保留該候選詞。

(4)最后結(jié)合候選詞的離散度進(jìn)行刷選,當(dāng)候選詞的離散度大于離散度閾值時(shí),則候選詞是提取的新詞。

2 主要流程

根據(jù)上面所述的基本思路,本文所設(shè)計(jì)的新詞自動(dòng)提取方法包括如下步驟。

步驟1:對(duì)語料庫包含的所有文本句子進(jìn)行切詞處理,可以通過標(biāo)點(diǎn)符號(hào),將語料庫中的所有文本句子分割成多個(gè)短句,并將每個(gè)短句中字?jǐn)?shù)長度不大于S+1的候選詞提取出來,然后將提取出的所有互不相同的候選詞保存在候選詞庫中,其中,S是預(yù)先設(shè)定的新詞的字?jǐn)?shù)長度上限;由于新詞的字?jǐn)?shù)長度上限一般為4,所以可以優(yōu)選S=4。

例如對(duì)于短句“小說劇情精彩”來說,當(dāng)截詞窗口的寬度width為1時(shí),所截取的字?jǐn)?shù)長度為1的候選詞有小、說、劇、情、精、彩;當(dāng)截詞窗口的寬度width為2時(shí),所截取的字?jǐn)?shù)長度為2的候選詞有小說、說劇、劇情、情精、精彩;當(dāng)截詞窗口的寬度width為3時(shí),所截取的字?jǐn)?shù)長度為3的候選詞有小說劇、說劇情、劇情精、情精彩;當(dāng)截詞窗口的寬度width為4時(shí),所截取的字?jǐn)?shù)長度為4的候選詞有小說劇情、說劇情精、劇情精彩;當(dāng)截詞窗口的寬度width為5時(shí),所截取的字?jǐn)?shù)長度為5的候選詞有小說劇情精、說劇情精彩。

步驟2:根據(jù)候選詞在知識(shí)庫中出現(xiàn)的頻數(shù)與相同字?jǐn)?shù)長度的所有候選詞在知識(shí)庫中出現(xiàn)的頻數(shù)的比值,計(jì)算候選詞庫中每個(gè)候選詞的支持度,并將所有支持度大于支持度閾值的候選詞構(gòu)成一個(gè)頻繁詞組。

步驟3:為頻繁詞組中的每個(gè)候選詞C構(gòu)建一個(gè)子詞組Z(C),并將候選詞C和頻繁詞組中的所有其它候選詞相比較,如果候選詞C中包含有其它候選詞時(shí),則將其它候選詞保存在候選詞C的子詞組Z(C)中,然后根據(jù)候選詞C以及子詞組Z(C)中每個(gè)子詞在知識(shí)庫中出現(xiàn)的頻數(shù),計(jì)算頻繁詞組中的每個(gè)候選詞C的置信度,當(dāng)候選詞C的置信度大于置信度閾值時(shí),則候選詞 C是提取的新詞。

例如,當(dāng)候選詞C是“電影院”時(shí),其字?jǐn)?shù)長度n(C) =3,從頻繁詞組中找到其子詞:電影、影院,即候選詞C的子詞組Z(C):{電影,影院}。

計(jì)算候選詞C的置信度:

其中,p(C)是候選詞C在知識(shí)庫中出現(xiàn)的頻數(shù),F(xiàn)是Z(C)中的子詞數(shù),z(C)1,z(C)2… z(C)F分別是候選詞C的子詞組Z(C)中包含的所有子詞,p(z(C)1,p(z(C)2…p(z(C)F分別是z(C)1,z(C)2… z(C)F在知識(shí)庫中出現(xiàn)的頻數(shù),分別是候選詞C與其子詞的置信度,從候選詞C與其子詞的置信度中挑選出最小值作為候選詞C的置信度conf(C)。

步驟4:從候選詞庫中找出候選詞C的所有左鄰字和右鄰字,并根據(jù)候選詞C的每個(gè)左或右鄰字在所有左或右鄰字中的出現(xiàn)概率,計(jì)算候選詞C的離散度,然后判斷候選詞C的離散度是否大于離散度閾值,如果是,則說明候選詞C是提取的新詞。

根據(jù)候選詞C的字?jǐn)?shù)長度n(C),從候選詞庫中挑選出所有字?jǐn)?shù)長度為n(C)+1且以候選詞C為前綴或后綴的其它候選詞,如果候選詞C是挑選出的候選詞的前綴,則將挑選出的候選詞中的最后一個(gè)字保存到候選詞C的右鄰字組中,如果候選詞C是挑選出的候選詞的后綴,則將挑選出的候選詞中的最前一個(gè)字保存到候選詞C的左鄰字組中。

例如,對(duì)于候選詞“劇情”來說,從候選詞庫中找到其它候選詞“說劇情”、“劇情精”,則將“說”保存到候選詞的左鄰字組中,將“精”保存到候選詞的右鄰字組中。

比較候選詞C的左鄰字和右鄰字的GINI指數(shù)值大小,并將其中的最小值作為候選詞C的離散度。

還值得一提的是,支持度閾值、置信度閾值或離散度閾值可以預(yù)先設(shè)置,或者根據(jù)候選詞C的字?jǐn)?shù)長度來分別計(jì)算。當(dāng)根據(jù)候選詞C的字?jǐn)?shù)長度來分別計(jì)算時(shí),支持度閾值、置信度閾值或離散度閾值的計(jì)算公式是:

為了進(jìn)一步提高新詞提取的準(zhǔn)確度,當(dāng)候選詞C的字?jǐn)?shù)長度為2時(shí),支持度閾值、置信度閾值或離散度閾值還可以在上述計(jì)算公式的基礎(chǔ)上,進(jìn)一步調(diào)整:,其中,是候選詞的字?jǐn)?shù)長度為2時(shí)的支持度、置信度或離散度閾值, M2是候選詞庫中字?jǐn)?shù)長度為2的候選詞的總數(shù),α2(k)是第k個(gè)字?jǐn)?shù)長度為2的候選詞的支持度、置信度或離散度, k是區(qū)間[1,M2]范圍內(nèi)的一個(gè)整數(shù)。

步驟5:將步驟4提取的新詞和現(xiàn)有詞庫進(jìn)行比較,當(dāng)所述提取的新詞不存在于現(xiàn)有詞庫中時(shí),所述提取的新詞是系統(tǒng)最終自動(dòng)提取的新詞。

3 實(shí)驗(yàn)結(jié)果

使用中國移動(dòng)手機(jī)閱讀的用戶評(píng)論文本數(shù)據(jù)(大小為350 MB),運(yùn)用本文方法進(jìn)行測試,通過調(diào)試支持度、置信度、離散度閾值,最終得到的結(jié)果示例如表1所示。

表1為提取出的兩字詞示例,可見該方法能很容易識(shí)別“蕭炎”、“若曦”、“林暮”等電子圖書中出現(xiàn)的人名,同時(shí)也能識(shí)別出“腹黑”、“蘿莉”、“坑爹”、“淚奔”等網(wǎng)絡(luò)流行詞,在未展示的提取出的新詞里,還發(fā)現(xiàn)了“菇?jīng)觯ü媚铮?、“雞凍(激動(dòng))”等網(wǎng)友大量使用的帶錯(cuò)別字的新詞,以及“威5”、“宮1”這種漢字與數(shù)字或英文的組詞。從實(shí)驗(yàn)結(jié)果上看,該方法能識(shí)別的新詞非常豐富,并且準(zhǔn)確性很高。

表1 候選詞示例

續(xù)表

4 結(jié)束語

與現(xiàn)有技術(shù)相比,本文提出的方法簡單可行,且計(jì)算量小。在考慮置信度的基礎(chǔ)上,還可以進(jìn)一步結(jié)合離散度,從而大大提高了新詞提取的準(zhǔn)確度。支持度閾值、置信度閾值或離散度閾值還可以根據(jù)候選詞的字?jǐn)?shù)長度以及所有相同字?jǐn)?shù)長度的候選詞的支持度、置信度或離散度來靈活設(shè)置,從而使得該方法在各個(gè)應(yīng)用場景中更具有通用性。

[1] 王偉,徐鑫. 基于聚類的網(wǎng)絡(luò)輿情熱點(diǎn)發(fā)現(xiàn)和分析[J]. 現(xiàn)在圖書情報(bào)技術(shù), 2009(3):74-79.

[2] 張海軍,史樹敏,朱朝勇,等.中文新詞識(shí)別技術(shù)綜述[J].計(jì)算機(jī)科學(xué),2010,37(3):6-16.

CDCC AWARDS數(shù)據(jù)中心年度大獎(jiǎng)揭曉

11月28日,由中國工程建設(shè)標(biāo)準(zhǔn)化協(xié)會(huì)信息通信專業(yè)委員會(huì)主辦,中國數(shù)據(jù)中心工作組(CDCC)、綜合布線工作組聯(lián)合承辦的2014中國數(shù)據(jù)中心年度論壇在北京新云南皇冠假日酒店勝利閉幕。

論壇中揭曉了“2014年度中國優(yōu)秀數(shù)據(jù)中心評(píng)選”活動(dòng)中各大獎(jiǎng)項(xiàng)。參評(píng)數(shù)據(jù)中心項(xiàng)目共65個(gè),其中15個(gè)數(shù)據(jù)中心獲得中國數(shù)據(jù)中心標(biāo)準(zhǔn)化示范項(xiàng)目獎(jiǎng),7個(gè)數(shù)據(jù)中心獲得中國數(shù)據(jù)中心標(biāo)準(zhǔn)化示范項(xiàng)目入圍獎(jiǎng)。相對(duì)于2013年度評(píng)選,2014年度各大獎(jiǎng)項(xiàng)競爭更為激烈,在申報(bào)項(xiàng)目總數(shù)大大增加的情況下(2013年度為46個(gè),2014年度為65個(gè)),獲獎(jiǎng)項(xiàng)目數(shù)量和去年相同。

其中,憑借出色表現(xiàn),百度M1數(shù)據(jù)中心獲得了數(shù)據(jù)中心年度能效獎(jiǎng)。中國移動(dòng)國際信息港一期數(shù)據(jù)中心、中國聯(lián)通呼和浩特基地?cái)?shù)據(jù)機(jī)房樓A-2樓及油機(jī)樓C-2樓提出的基礎(chǔ)設(shè)施代維服務(wù)獲得了年度運(yùn)維獎(jiǎng)。國家超級(jí)計(jì)算機(jī)廣州中心、京東商城華東云數(shù)據(jù)中心分別獲得了數(shù)據(jù)中心專業(yè)設(shè)計(jì)獎(jiǎng)和數(shù)據(jù)中心設(shè)計(jì)理念獎(jiǎng)。優(yōu)秀金融數(shù)據(jù)中心獎(jiǎng)花落中國農(nóng)業(yè)銀行河北省分行數(shù)據(jù)中心、臨商銀行生產(chǎn)數(shù)據(jù)中心。云基地深圳鹽田港數(shù)據(jù)中心、Telehouse BDA 數(shù)據(jù)中心二期工程獲得了數(shù)據(jù)中心施工質(zhì)量獎(jiǎng)。優(yōu)秀企業(yè)數(shù)據(jù)中心獎(jiǎng)在2014年度評(píng)選中再度空缺。

評(píng)選委員會(huì)主席由中國工程標(biāo)準(zhǔn)化協(xié)會(huì)專家技術(shù)委員會(huì)委員、中國數(shù)據(jù)中心工作組組長、中國數(shù)據(jù)中心專家委員會(huì)主任委員鐘景華先生擔(dān)任,評(píng)選委員會(huì)委員由來自于設(shè)計(jì)院、行業(yè)用戶在內(nèi)的100多位資深專家組成。評(píng)選委員會(huì)自4月起專門召開了多次會(huì)議,商討評(píng)選方案及評(píng)估模型。評(píng)選以大量的數(shù)據(jù)采集為依據(jù),以完善的評(píng)估模型為基礎(chǔ),在深度分析報(bào)告基礎(chǔ)上對(duì)部分?jǐn)?shù)據(jù)中心項(xiàng)目進(jìn)行現(xiàn)場實(shí)際考核,并先后召開了初評(píng)會(huì)、專家現(xiàn)場答辯會(huì),最終評(píng)選出2014年度中國各大優(yōu)秀數(shù)據(jù)中心,以確保評(píng)選過程完整全面,真正凝聚不同領(lǐng)域內(nèi)精英的專業(yè)智慧。

亨通亮相國際線纜展

近日在寧波舉行的2014國際電線電纜及材料設(shè)備展上,江蘇亨通線纜科技有限公司攜綜合布線、4G基站、數(shù)據(jù)中心、電梯電纜、軌道交通用線纜五大解決方案搶灘全球市場,成為展會(huì)一大亮點(diǎn)。

亨通線纜是亨通集團(tuán)旗下一家專業(yè)生產(chǎn)和銷售線纜產(chǎn)品的高新技術(shù)企業(yè)。此次參展,亨通線纜通過樣品展示、資料分發(fā)以及技術(shù)人員的現(xiàn)場講解及交流互動(dòng)等方式,詳細(xì)介紹了亨通線纜的最新產(chǎn)品及解決方案,進(jìn)一步提升了公司品牌的知名度和影響力。同時(shí),該公司還充分利用本次參展機(jī)會(huì),與前來參觀的客戶和經(jīng)銷商充分交流與洽談,了解同行先進(jìn)企業(yè)的產(chǎn)品特點(diǎn),以便更好地完善自身產(chǎn)品結(jié)構(gòu),發(fā)揮自身優(yōu)勢。

Polycom推出云媒體框架三大解決方案

日11月25日,Polycom公司再度推出實(shí)時(shí)會(huì)議、云跨界和云媒體中心三大解決方案,以一站式的方式將視頻在云技術(shù)框架下的應(yīng)用和功能提升到一個(gè)全新高度,給用戶帶來更大價(jià)值,并推動(dòng)企業(yè)云平臺(tái)的更多潛能。

云媒體解決方案是繼實(shí)時(shí)會(huì)議解決方案和云視頻解決方案的又一次革命性突破,可以為企業(yè)級(jí)實(shí)時(shí)安全會(huì)議協(xié)作、內(nèi)部及外部應(yīng)用以及全面深入的資源和知識(shí)管理分享,提供一站式解決方案以及跨界的應(yīng)用。在知識(shí)分享方面,云媒體能夠?qū)崿F(xiàn)企業(yè)賦予授權(quán)的員工將工作相關(guān)的視頻上傳,以讓其他人觀看學(xué)習(xí)。云媒體還能提供在線培訓(xùn)、在線答疑、線上考試、證書頒發(fā)等,通過全媒體、嵌入式的應(yīng)用,將信息嵌入到用戶的網(wǎng)站,還可以與企業(yè)的OA等內(nèi)部系統(tǒng)集成,實(shí)現(xiàn)資源共享最大化,真正體現(xiàn)云時(shí)代的應(yīng)用和體驗(yàn)。

小米公司采用Avaya技術(shù)打造全新客戶體驗(yàn)平臺(tái)

經(jīng)過嚴(yán)格的篩選,Avaya為小米公司部署了Avaya Aura Contact Center解決方案,涵蓋了Avaya Open Queue網(wǎng)絡(luò)服務(wù)、Avaya Aura Workforce Optimization人力優(yōu)化應(yīng)用、Avaya Experience Portal,以及統(tǒng)一通信客戶端Avaya one-X communicator。Avaya專業(yè)服務(wù)部門還提供了系統(tǒng)部署和開發(fā)支持服務(wù),涉及統(tǒng)一通信客戶端與第三方軟電話的整合,以及社交媒體的整合,包括小米即時(shí)通信系統(tǒng)“米聊”和匯聚了大批米粉的官方社區(qū)。

小米公司高級(jí)客服總監(jiān)楊京津說:“與傳統(tǒng)的呼叫中心模式不同,小米的客服中心是一個(gè)綜合了業(yè)務(wù)、產(chǎn)品和服務(wù)的平臺(tái),整合了硬件產(chǎn)品、軟件產(chǎn)品和售后服務(wù),因此需要一個(gè)穩(wěn)定的、強(qiáng)有力的系統(tǒng)提供保障。Avaya解決方案為我們提供了出色的跨渠道客戶體驗(yàn)管理,系統(tǒng)的開放性還為小米的自主創(chuàng)新提供了有力支持。”

愛立信攜手IBM開展5G天線設(shè)計(jì)

愛立信與IBM日前宣布,將合作研究5G相控陣天線設(shè)計(jì),使網(wǎng)絡(luò)能夠?yàn)榭蛻籼峁┑臄?shù)據(jù)傳輸速率較現(xiàn)在提升多個(gè)數(shù)量級(jí)。

愛立信與IBM將合作研究利用相控陣天線技術(shù)開發(fā)原型系統(tǒng),服務(wù)更多移動(dòng)用戶,在同一頻段上提供更多的新增服務(wù),同時(shí)提供高出今天多個(gè)數(shù)量級(jí)的數(shù)據(jù)傳輸速率。這些技術(shù)革新實(shí)現(xiàn)后,將可以把100個(gè)無線接收器高度集成在一張信用卡大小的芯片上,從而極大促進(jìn)這些技術(shù)應(yīng)用于室內(nèi)及人口密集城區(qū)的高容量小蜂窩網(wǎng)絡(luò)。

2014年度中國綜合布線十大品牌揭曉

11月28日,中國綜合布線工作組宣布,“2014年度中國綜合布線十大品牌”評(píng)選活動(dòng)正式落幕。最終,康普公司、美國康寧公司、羅格朗中國、耐克森綜合布線系統(tǒng)(亞太區(qū))、美國泛達(dá)網(wǎng)絡(luò)、南京普天天紀(jì)樓宇智能有限公司、羅森伯格亞太電子有限公司、施耐德電氣(中國)有限公司、美國西蒙公司、泰科電子(上海)有限公司安普布線系統(tǒng)等10家企業(yè)榮獲“2014年度中國綜合布線十大品牌”稱號(hào)。

在當(dāng)日舉行的“2014年度數(shù)據(jù)中心工程標(biāo)準(zhǔn)化建設(shè)年度論壇”上,綜合布線工作組組長、中國移動(dòng)通信集團(tuán)設(shè)計(jì)院有限公司數(shù)據(jù)所副所長張曉微女士揭曉了十大品牌評(píng)選活動(dòng)結(jié)果。十家獲獎(jiǎng)企業(yè)的高層代表蒞臨論壇,并就綜合布線市場發(fā)展、數(shù)據(jù)中心布線之道、布線技術(shù)創(chuàng)新等話題,進(jìn)行了交流。

本次論壇活動(dòng),由中國工程建設(shè)標(biāo)準(zhǔn)化協(xié)會(huì)信息通信專業(yè)委員會(huì)主辦,中國數(shù)據(jù)中心工作組、綜合布線工作組聯(lián)合承辦。包括協(xié)會(huì)領(lǐng)導(dǎo)、設(shè)計(jì)院專家、數(shù)據(jù)中心領(lǐng)域技術(shù)專家、領(lǐng)導(dǎo)廠商專家、新聞媒體等在內(nèi)的1000名代表出席了本次論壇。

2014年中國|全球光通信最具競爭力企業(yè)10強(qiáng)榜單出爐

11月20日,“2014(第八屆)中國光通信發(fā)展與競爭力論壇暨2014中國|全球光通信最具競爭力企業(yè)10強(qiáng)評(píng)選活動(dòng)頒獎(jiǎng)典禮(ODC)”在北京隆重舉行。ODC論壇由中國通信學(xué)會(huì)光通信委員會(huì)、亞太光通信委員會(huì)主辦,已經(jīng)成功舉辦了8屆,影響力已經(jīng)得到業(yè)界同仁的廣泛認(rèn)同。

在今年的評(píng)選活動(dòng)中,華為、烽火、長飛、亨通、DSM等眾多企業(yè)分別在全球及中國光纖光纜、光傳輸、光器件和品牌榜單中榮獲獎(jiǎng)項(xiàng)。

本屆論壇圍繞“面向下一代光網(wǎng)絡(luò)”主題,工信部科技委常務(wù)副主任韋樂平、中國通信學(xué)會(huì)副理事長兼秘書長張新生、工信部通信科技委專職常委、亞太光通信委員會(huì)主任委員、《網(wǎng)絡(luò)電信》雜志社主編毛謙、北京郵電大學(xué)原校長林金桐、運(yùn)營商高層代表張成良、唐雄燕、武漢郵科院副院長、中國通信學(xué)會(huì)光通信委員會(huì)主任委員余少華、華為傳送網(wǎng)副總裁王麗彪等各企業(yè)高層代表發(fā)表了各自在不同角度的觀點(diǎn),并在圓桌論壇中與業(yè)內(nèi)同仁展開熱烈討論。

此次評(píng)選由NTR網(wǎng)絡(luò)電信信息研究院、亞太光通信委員會(huì)共同主辦,由國內(nèi)通信領(lǐng)域和經(jīng)濟(jì)學(xué)、管理學(xué)、統(tǒng)計(jì)學(xué)等領(lǐng)域的權(quán)威專家組成。各項(xiàng)大獎(jiǎng)根據(jù)參評(píng)企業(yè)的生產(chǎn)規(guī)模、市場表現(xiàn)、產(chǎn)品性能、售后服務(wù)、增長速度和企業(yè)管理及文化等方面共73項(xiàng)要素指標(biāo)進(jìn)行評(píng)選,對(duì)參選企業(yè)的競爭力進(jìn)行了客觀、系統(tǒng)的分析,為光通信行業(yè)競爭力分析提供了參考依據(jù)。

New method for the auto-extraction of new words

LI Ya-song1,2, WANG Yu-long1,2
(1 Beijing University of Posts and Telecommunications Networking and Switching Technology, State Key Laboratory, Beijing 100876, China; 2 EBUPT Information Technology Co., Ltd., Beijing 100191, China)

It has been a widespread tendency that large amount of new words are emerging in web text corpus. Among these are many new words created by netizens or arising from social focuses, and are also many colloquial expressions, abbreviations in the social intercourse corpus created by SNS. All the above cases together make it diff cult for words segmentation. In this essay a new extraction method for new words is proposed, aiming to extract new words in a certain corpus, to generate a dictionary and to segment the Chinese expressions more accurately. The new method f rstly extracts candidate words from the corpus, and then calculates its support and conf dence, sifts the new words out, and f nally extracts new words accurately and rapidly from huge text data.

new words extraction; support; conf dence; dispersion; GINI index

TN915

A

1008-5599(2014)12-0083-04

2014-11-01

國家973計(jì)劃項(xiàng)目(編號(hào):2013CB329102);國家自然科學(xué)基金資助項(xiàng)目(No. 61372120, 61271019, 61101119, 61121001);長江學(xué)者和創(chuàng)新團(tuán)隊(duì)發(fā)展計(jì)劃資助(編號(hào):IRT1049);教育部科學(xué)技術(shù)研究重點(diǎn)(重大)項(xiàng)目資助(編號(hào):MCM20130310);北京高等學(xué)校青年英才計(jì)劃項(xiàng)目(編號(hào):YETP0473)。

猜你喜歡
字?jǐn)?shù)新詞置信度
字?jǐn)?shù)變多 有妙招
硼鋁復(fù)合材料硼含量置信度臨界安全分析研究
《微群新詞》選刊之十四
正負(fù)關(guān)聯(lián)規(guī)則兩級(jí)置信度閾值設(shè)置方法
“字?jǐn)?shù)多”不等于“具體”
快樂語文(2016年32期)2016-04-10 10:47:25
置信度條件下軸承壽命的可靠度分析
軸承(2015年2期)2015-07-25 03:51:04
小議網(wǎng)絡(luò)新詞“周邊”
填字?jǐn)?shù)獨(dú)游戲
外教新詞堂
當(dāng)代新詞“微X”詞族的多維考察
思茅市| 桂平市| 鄂托克前旗| 梅州市| 盘锦市| 兴义市| 惠安县| 伽师县| 南雄市| 称多县| 盘锦市| 卫辉市| 峨眉山市| 当涂县| 廉江市| 革吉县| 柞水县| 深水埗区| 休宁县| 介休市| 阿瓦提县| 宝清县| 区。| 北碚区| 湘潭县| 湘乡市| 肥东县| 永和县| 通海县| 永泰县| 长武县| 普兰店市| 开阳县| 佛学| 会昌县| 吐鲁番市| 崇义县| 遂溪县| 梁山县| 日照市| 绩溪县|